Data Mining "Proses, Tahapan dan Penerapannya"
DATA MINING
Perkembangan data mining (DM) yang pesat tidak dapat lepas
dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar
terakumulasi sejalan dengan pertumbuhan teknologi informasi. Mining berarti
usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material
dasar. Olehnya itu, data mining memiliki akar yang panjang dari bidang ilmu
seperti kecerdasan buatan (artificial intelligent), machine learning, statistik
dan database.
Perkembangan data mining (DM)
yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang
memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko
swalayan merekam setiap penjualan barang dengan memakai alat POS (point of
sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap
harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan
internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan
yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering
disebut sebagai “rich of data but poor of information” karena data
yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak
jarang kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan data” (data
tombs).
Patut diingat bahwa kata mining
sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah
besar material dasar. Karena itu data mining sebenarnya memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent),
machine learning, statistik dan database. Beberapa teknik yang sering
disebut-sebut dalam literatur DM antara lain: clustering, classification,
association rule mining, neural network, genetic algorithm dan lain-lain. Yang
membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk
aplikasi pada database skala besar yang ternyata penerapan pada data berskala
besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi
baru. Sebelum populernya data mining, teknik-teknik tersebut hanya dapat
dipakai untuk data skala kecil saja.
Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga
diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar
seperti bioinformasi dan pertahanan Negara.
Ada beberapa definisi dari data mining yang dikenal di
buku-buku teks data mining, diantaranya adalah :
- Data
mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara
manual.
- Data
mining adalah analisa otomatis dari data yang berjumlah besar atau
kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang
penting yang biasanya tidak disadari keberadaannya
Dari definisi-definisi itu, dapat dilihat ada beberapa
faktor yang mendefinisikan data mining :
1. Data mining adalah proses otomatis terhadap data yang
dikumpulkan di masa lalu
2. Objek dari data mining adalah data yang berjumlah besar
atau kompleks
3. Tujuan dari data mining adalah menemukan
hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang
bermanfaat
Akhir-akhir ini ada beberapa
bidang ilmu seperti information retrieval yang juga terlibat dalam proses data
mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber
seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa
bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan
bidang ilmu seperti berikut :
- Statistik : model statistik dipersiapkan oleh para
ahli statistik, sedangkan data mining mengembangkan statistik untuk
menangani data berjumlah besar secara otomatis –
- Expert system (sistem cerdas) : model pada expert
system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman
para ahli
- Data Warehouse (DWH) : sering terjadi kerancuan
antara data mining dan data warehouse karena keduanya sering dipakai
bersamaan. Pada umumnya data warehouse lebih merujuk pada tempat untuk
menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap
sebagai perkakas untuk menganalisa otomatis nilai dari data itu
- OLAP : seperti data warehouse, OLAP juga sering
dibahas bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan
hipotesa yang sudah diformulasikan terlebih dulu oleh penggunanya.
Salah satu tuntutan dari data
mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi
sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika
mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat
menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining
seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan
tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada
umumnya proses data mining berjalan interaktif karena tidak jarang hasil data
mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu
dilakukan desain ulang prosesnya.
Disini akan diuraikan tahap-tahap
umum dari data mining tapi perlu diingat sebelum seorang analis menerapkan
tahapan-tahapan data mining tersebut, sebagai prasyarat penerapan data mining,
diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang
lebih mendasar lagi adalah diperlukannya pemahaman mengapa menerapkan data
mining dan target yang ingin dicapai. Sehingga secara garis besar sudah ada
hipotesa mengenai aksi-aksi yang dapat diterapkan dari hasilnya nanti.
Pemahaman-pemahaman tersebut akan sangat membantu dalam mendesain proses data
mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu,
bagi dunia bisnis akan memudahkan untuk melakukan pengukuran return on
investment-nya (ROI).
Tahap-Tahap Data Mining
Sebagai suatu rangkaian proses,
data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan pada Gambar
2 di atas. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat
langsung atau dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya
:
1.
Pembersihan data (untuk membuang
data yang tidak konsisten dan noise)
Pada umumnya
data yang diperoleh, baik dari database suatu perusahaan maupun hasil
eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang,
data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita
miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena
keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining
nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang
dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk
menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi
dari sistem data mining karena data yang ditangani akan berkurang jumlah dan
kompleksitasnya.
2.
Integrasi data (penggabungan data dari
beberapa sumber)
Tidak jarang
data yang diperlukan untuk data mining tidak hanya berasal dari satu database
tetapi juga berasal dari beberapa database atau file teks. Integrasi data
dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang
unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi data
perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi
nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata
menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi
antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan
transformasi dan pembersihan data karena seringkali data dari dua database
berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database
ternyata tidak ada di database lainnya.
3.
Transformasi data (data diubah menjadi bentuk
yang sesuai untuk di-mining)
Beberapa
teknik data mining membutuhkan format data yang khusus sebelum bisa
diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi
dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa
angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval.
Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang
diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan
data ini juga menentukan kualitas dari hasil data mining nantinya karena ada
beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung
pada tahapan ini.
4.
Aplikasi teknik data mining
Aplikasi
teknik data mining sendiri hanya merupakan salah satu bagian dari proses data
mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan
membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu
diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di
pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau
untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai
teknik data mining baru untuk penerapan di bidang bioinformatika seperti
analisa hasil microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.
5.
Evaluasi pola yang ditemukan (untuk menemukan
yang menarik/bernilai)
Dalam tahap
ini hasil dari teknik data mining berupa pola-pola yang khas maupun model
prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai.
Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa
alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba teknik data mining lain yang lebih
sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang
mungkin bermanfaat.
Ada beberapa
teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti
analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk
memudahkan pemahaman dari hasil data mining.
6.
Presentasi pola yang ditemukan untuk
menghasilkan aksi
Tahap terakhir
dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi
dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan
orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data
mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu
tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini,
visualisasi juga bisa membantu mengkomunikasikan hasil data mini
Penerapan Data Mining
Terkadang muncul pertanyaan
tentang penerapan data mining itu sendiri. Di bidang apa saja penerapannya
dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya.
Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak
sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu
anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi
tentang gaya hidup publik.
Beberapa solusi yang bisa
diselesaikan dengan data mining diantaranya:
·
Menembak target pasar
Data mining
dapat melakukan pengelompokan (clustering) dari model-model pembeli dan
melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang
diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan
membeli dan karakteristik lainnya.
·
Melihat pola beli pemakai dari waktu ke
waktu
Data mining
dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai
contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari
single account ke joint account (rekening bersama) dan kemudian setelah itu
pola beli-nya berbeda dengan ketika dia masih bujangan.
·
Cross-Market Analysis
dengan produk
lainnya. Berikut ini saya sajikan beberapa contoh:
o Cari
pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang
apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
o Cari
pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang
apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa
mengetahui dampak jika kita tidak lagi menjual IndoMie.
o Cari
pola penjualan
·
Profil Customer
Data mining
dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita
dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.
·
Identifikasi Kebutuhan Customer
Anda dapat
mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok
customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik
customer baru untuk bergabung/membeli.
·
Menilai Loyalitas Customer
VISA
International Spanyol menggunakan data mining untuk melihat kesuksesan
program-program customer loyalty mereka. Anda bisa lihat dihttp://www.visa.es/ingles/info/300300.html
·
Informasi Summary
Anda juga
dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat
multi-dimensi dan dilengkapi dengan informasi statistik lainnya.
Data Mining – Yang Bisa dan
Tidak Bisa Dilakukan
Secara umum, data mining dapat
melakukan dua hal yaitu :
·
Memberikan kesempatan untuk menemukan informasi
menarik yang tidak terduga.
·
Dapat menangani data berskala besar.
Dalam menemukan informasi yang
menarik ini, ciri khas data mining adalah kemampuan pencarian secara hampir
otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data
mining ada beberapa parameter yang masih harus ditentukan secara manual atau
semi manual. Penelitian untuk melakukan setting secara adaptif merupakan bidang
yang hangat diteliti. Data mining juga dapat memanfaatkan pengalaman atau
bahkan kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun
hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki
beberapa teknik data mining seperti klasifikasi. Data Mining juga memiliki
kemampuan, diantaranya :
·
Mampu menangani data dalam jumlah besar.
· Memungkinkan data mining untuk diterapkan pada
masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia.
· Selain itu penelitian tentang algoritma parallel
dari data mining juga membuka jalan agar data mining dapat diterapkan pada
program skala yang lebih besar lagi.
Sebaliknya, disamping memiliki
kemampuan ada beberapa hal yang tidak bisa dilakukan oleh data mining,
diantaranya :
·
Perlu disadari bahwa data mining bukanlah solusi
yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik
diselesaikan dengan statistic yang sederhana.
·
Data mining juga tidak bisa menemukan
pengetahuan yang bermanfaat secara instan.
Beberapa hal yang perlu
diperhatikan oleh seorang analis :
· Seorang analis data mining perlu tahu perbedaan,
kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya
mengaplikasikan yang paling cocok untuk masalah yang dihadapinya.
· Ketika menjalankan teknik data mining itu
sendiri, si analis juga perlu mengarahkan programnya dengan melakukan
persiapan-persiapan dan pemilihan parameternya.
· Setelah data mining dilaksanakan pun si analis
harus melakukan evaluasi terhadap pola-pola yang dihasilkan sebelumnya bisa
merumuskan hasilnya.
· Terakhir perlu diingat bahwa data mining tidak
bisa memberikan hasil yang bisa langsung digunakan. Banyak hasil dari data
mining yang tidak bisa langsung diinterpretasikan dengan mudah.
· Hal-hal ini juga disadari oleh
perusahaan-perusahaan yang menerapkan data mining dan OLAP, yang sering
dirangkum dalam istilah business intelligence (BI). Untuk memecahkan masalah
ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang
membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining
dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi
hasilnya.
Daftar Pustaka
Yudho Giri Sucahyo, 2003,
Penerapan Data Mining, Artikel Populer IlmuKomputer.Com (Artikel Internet
www.google.com)
Iko Pramudiono, 2003, Pengantar
Data Mining, Kuliah Umum IlmuKomputer.Com (Artikel Internet www.google.com)
Iko Pramudiono, 2006, Indo Data
Mining, (Artikel Internet www.google.com)
Komentar
Posting Komentar