Data Mining "Proses, Tahapan dan Penerapannya"

DATA MINING

Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi sejalan dengan pertumbuhan teknologi informasi. Mining berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Olehnya itu, data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database.

Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS (point of sales). Database data penjualan tsb. bisa mencapai beberapa GB setiap harinya untuk sebuah jaringan toko swalayan berskala nasional. Perkembangan internet juga punya andil cukup besar dalam akumulasi data. Tetapi pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of information” karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. Tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan “kuburan data” (data tombs).

Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Beberapa teknik yang sering disebut-sebut dalam literatur DM antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap DM adalah perkembangan teknik-teknik DM untuk aplikasi pada database skala besar yang ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru. Sebelum populernya data mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.
Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan Negara.


Ada beberapa definisi dari data mining yang dikenal di buku-buku teks data mining, diantaranya adalah :
  • Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
  • Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya
Dari definisi-definisi itu, dapat dilihat ada beberapa faktor yang mendefinisikan data mining :
1. Data mining adalah proses otomatis terhadap data yang dikumpulkan di masa lalu
2. Objek dari data mining adalah data yang berjumlah besar atau kompleks
3. Tujuan dari data mining adalah menemukan hubungan-hubungan atau pola-pola yang mungkin memberikan indikasi yang bermanfaat




Akhir-akhir ini ada beberapa bidang ilmu seperti information retrieval yang juga terlibat dalam proses data mining untuk mengekstrak sumber data bagi data mining dari sumber-sumber seperti teks dan website. Walaupun data mining memiliki sumber dari beberapa bidang ilmu, data mining berbeda dalam beberapa aspek dibandingkan dengan bidang ilmu seperti berikut :
  • Statistik : model statistik dipersiapkan oleh para ahli statistik, sedangkan data mining mengembangkan statistik untuk menangani data berjumlah besar secara otomatis –
  • Expert system (sistem cerdas) : model pada expert system dibuat berupa aturan-aturan berdasar pada pengalaman-pengalaman para ahli
  • Data Warehouse (DWH) : sering terjadi kerancuan antara data mining dan data warehouse karena keduanya sering dipakai bersamaan. Pada umumnya data warehouse lebih merujuk pada tempat untuk menyimpan data yang terkonsolidasi sedangkan data mining bisa dianggap sebagai perkakas untuk menganalisa otomatis nilai dari data itu
  • OLAP : seperti data warehouse, OLAP juga sering dibahas bersama data mining. Tetapi OLAP memiliki tujuan untuk memastikan hipotesa yang sudah diformulasikan terlebih dulu oleh penggunanya.
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Disini akan diuraikan tahap-tahap umum dari data mining tapi perlu diingat sebelum seorang analis menerapkan tahapan-tahapan data mining tersebut, sebagai prasyarat penerapan data mining, diperlukan pemahaman terhadap data dan proses diperolehnya data tersebut. Yang lebih mendasar lagi adalah diperlukannya pemahaman mengapa menerapkan data mining dan target yang ingin dicapai. Sehingga secara garis besar sudah ada hipotesa mengenai aksi-aksi yang dapat diterapkan dari hasilnya nanti. Pemahaman-pemahaman tersebut akan sangat membantu dalam mendesain proses data mining dan juga pemilihan teknik data mining yang akan diterapkan. Selain itu, bagi dunia bisnis akan memudahkan untuk melakukan pengukuran return on investment-nya (ROI).
Hasil gambar untuk tahapan data mining

Tahap-Tahap Data Mining
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan pada Gambar 2 di atas. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya :
1.      Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2.      Integrasi data (penggabungan data dari beberapa sumber)
Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dsb. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena seringkali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya.
3.      Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahapan ini.
4.      Aplikasi teknik data mining
Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. Sebagai contoh akhir-akhir ini dikembangkan berbagai teknik data mining baru untuk penerapan di bidang bioinformatika seperti analisa hasil microarray untuk mengidentifikasi DNA dan fungsi-fungsinya.
5.      Evaluasi pola yang ditemukan (untuk menemukan yang menarik/bernilai)
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.
Ada beberapa teknik data mining yang menghasilkan hasil analisa berjumlah besar seperti analisis asosiasi. Visualisasi hasil analisa akan sangat membantu untuk memudahkan pemahaman dari hasil data mining.
6.      Presentasi pola yang ditemukan untuk menghasilkan aksi
Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mini
Penerapan Data Mining
Terkadang muncul pertanyaan tentang penerapan data mining itu sendiri. Di bidang apa saja penerapannya dapat dilakukan? Artikel singkat ini berusaha memberikan jawabannya.
Analisa Pasar dan Manajemen
Untuk analisa pasar, banyak sekali sumber data yang dapat digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi tentang gaya hidup publik.
Beberapa solusi yang bisa diselesaikan dengan data mining diantaranya:
·        Menembak target pasar 
Data mining dapat melakukan pengelompokan (clustering) dari model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang diinginkan seperti kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.
·        Melihat pola beli pemakai dari waktu ke waktu 
Data mining dapat digunakan untuk melihat pola beli seseorang dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah bisa saja dia kemudian memutuskan pindah dari single account ke joint account (rekening bersama) dan kemudian setelah itu pola beli-nya berbeda dengan ketika dia masih bujangan.
·        Cross-Market Analysis 
dengan produk lainnya. Berikut ini saya sajikan beberapa contoh:
o   Cari pola penjualan Coca Cola sedemikian rupa sehingga kita dapat mengetahui barang apa sajakah yang harus kita sediakan untuk meningkatkan penjualan Coca Cola?
o   Cari pola penjualan IndoMie sedemikian rupa sehingga kita dapat mengetahui barang apa saja yang juga dibeli oleh pembeli IndoMie. Dengan demikian kita bisa mengetahui dampak jika kita tidak lagi menjual IndoMie.
o   Cari pola penjualan
·        Profil Customer 
Data mining dapat membantu Anda untuk melihat profil customer/pembeli/nasabah sehingga kita dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.
·        Identifikasi Kebutuhan Customer 
Anda dapat mengidentifikasi produk-produk apa saja yang terbaik untuk tiap kelompok customer dan menyusun faktor-faktor apa saja yang kira-kira dapat menarik customer baru untuk bergabung/membeli.
·        Menilai Loyalitas Customer 
VISA International Spanyol menggunakan data mining untuk melihat kesuksesan program-program customer loyalty mereka. Anda bisa lihat dihttp://www.visa.es/ingles/info/300300.html 
·        Informasi Summary 
Anda juga dapat memanfaatkan data mining untuk membuat laporan summary yang bersifat multi-dimensi dan dilengkapi dengan informasi statistik lainnya.
Data Mining – Yang Bisa dan Tidak Bisa Dilakukan
Secara umum, data mining dapat melakukan dua hal yaitu :
·        Memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga.
·        Dapat menangani data berskala besar.
Dalam menemukan informasi yang menarik ini, ciri khas data mining adalah kemampuan pencarian secara hampir otomatis. Mengapa disebut hampir otomatis karena dalam banyak teknik data mining ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual. Penelitian untuk melakukan setting secara adaptif merupakan bidang yang hangat diteliti. Data mining juga dapat memanfaatkan pengalaman atau bahkan kesalahan di masa lalu untuk meningkatkan kualitas dari model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining seperti klasifikasi. Data Mining juga memiliki kemampuan, diantaranya :
·        Mampu menangani data dalam jumlah besar.
·      Memungkinkan data mining untuk diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi lagi oleh otak manusia.
·    Selain itu penelitian tentang algoritma parallel dari data mining juga membuka jalan agar data mining dapat diterapkan pada program skala yang lebih besar lagi.
Sebaliknya, disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan oleh data mining, diantaranya :
·        Perlu disadari bahwa data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.
·        Data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.
Beberapa hal yang perlu diperhatikan oleh seorang analis :
·     Seorang analis data mining perlu tahu perbedaan, kelebihan dan kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang dihadapinya.
·       Ketika menjalankan teknik data mining itu sendiri, si analis juga perlu mengarahkan programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya.
·      Setelah data mining dilaksanakan pun si analis harus melakukan evaluasi terhadap pola-pola yang dihasilkan sebelumnya bisa merumuskan hasilnya.
·  Terakhir perlu diingat bahwa data mining tidak bisa memberikan hasil yang bisa langsung digunakan. Banyak hasil dari data mining yang tidak bisa langsung diinterpretasikan dengan mudah.
·   Hal-hal ini juga disadari oleh perusahaan-perusahaan yang menerapkan data mining dan OLAP, yang sering dirangkum dalam istilah business intelligence (BI). Untuk memecahkan masalah ini, mulai banyak perusahaan yang membuat pusat untuk business intelligence yang membantu karyawan biasa untuk menggunakan piranti OLAP maupun data mining dengan menyediakan pelatihan dan informasi praktis pemakaian dan aplikasi hasilnya.

Daftar Pustaka
Yudho Giri Sucahyo, 2003, Penerapan Data Mining, Artikel Populer IlmuKomputer.Com (Artikel Internet www.google.com)

Iko Pramudiono, 2003, Pengantar Data Mining, Kuliah Umum IlmuKomputer.Com (Artikel Internet www.google.com)

Iko Pramudiono, 2006, Indo Data Mining, (Artikel Internet www.google.com)












Komentar

Postingan populer dari blog ini

Transformasi Data dalam Tahapan Data Mining

Empat Tool Software Java Gratis Google utk Membuat Aplikasi GWT dan GUI Windows

Do'a Niat Puasa Bulan Dzulhijjah (Tarwiyah dan Arafah)