Transformasi Data dalam Tahapan Data Mining

DATA TRANSFORMATION
Ada 7 (tujuh) tahapan proses data mining, dimana 4 (empat) tahap pertama disebut juga dengan data preprocessing (terdiri dari data cleaning, data integration, data selection, dan data transformation), yang dalam implementasinya membutuhkan waktu sekitar 60% dari keseluruhan proses. Dalam data transformation, terdapat beberapa pendekatan/teknik untuk melakukan transformasi data, yaitu smoothing, generalization, normalization, aggregation, dan attribute construction.

Gambar 1. Data Mining Process

A. Smoothing
Smoothing dilakukan jika data mengandung noise/nilai yang tidak valid terhadap data yang di-mining. Untuk mengatasinya harus dilakukan smoothing (dengan memperhatikan nilai-nilai tetangga). Berikut teknik atau metode untuk smoothing:
Binning
Metode binning dilakukan dengan memeriksa “nilai tetangga”, yaitu nilai-nilai yang ada disekelilingnya. Berikut adalah langkah-langkah metode binning:
1. Data diurutkan dari yang terkecil sampai dengan yang terbesar.
2. Data yang sudah urut kemudian dipartisi ke dalam beberapa bin. Teknik partisi ke dalam bin ada 2 (dua) cara: equal-width (distance) partitioning dan equaldepth (frequency) partitioning.
3. Dilakukan smoothing dengan tiga macam teknik, yaitu: smoothing by binmeans, smoothing by bin-medians, dan smoothing by bin-boundaries.
Clustering
Digunakan untuk menyingkirkan outliers (keluar jauh-jauh dari cluster/centroid), data yang memiliki noise. Algoritma k-Means yang merupakan kategori metode partitioning dapat digunakan jika ukuran database tidak terlalu besar. Algoritma ini didasarkan pada nilai tengah dari objek yang ada dalam cluster. Algoritma k-Means meminta inputan parameter k, dan mempartisi satu set n objek ke dalam k cluster sehingga menghasilkan tingkat kemiripan yang tinggi antar objek dalam kelas yang sama (intra-class similarity) dan tingkat kemiripan yang paling rendah antar objek dalam kelas yang berbeda (inter-class similarity). Kemiripan cluster diukur dengan menghitung nilai tengah dari objek yang ada di dalam cluster.
Regression
Linear regression memodelkan sebuah random variable, Y (disebut response variable) sebagai
sebuah fungsi linier dari random variable yang lain, X (disebut sebagai predictor variable), dengan persamaan empiris: Y = α +βX , dimana α dan β adalah koefisien regresi.. Koefisien ini dapat dihitung menggunakan metode least squares dengan persamaan sebagai berikut:

adalah nilai ratarata dari x1, x2, …, xi dan
adalah nilai rata-rata dari y1, y2, …, yi.


B. Generalization
Generalization atau generalisasi adalah ketika data level rendah (low-level data) dianti dengan konsep yang lebih tinggi, yaitu dengan melakukan diskretisasi. Teknik diskretisasi dapat digunakan untuk mereduksi sekumpulan nilai yang terdapat pada atribut continuous, dengan membagi range dari atribut ke dalam interval.

Gambar 2. Proses Diskretisasi
Proses diskretisasi secara umum terdiri dari 4 tahapan (gambar 2), yaitu:
1. Sorting, melakukan sorting nilai atribut continuous yang mau didiskretisasi.
2. Memilih “cut-point”, banyak fungsi evaluasi yang dapat digunakan seperti binning dan pengukuran entropy.
3. Splitting, dilakukan evaluasi cut-point yang ada dan pilih satu yang terbaik dan lakukan split range nilai atribut continuous ke dalam dua partisi. Diskretisasi berlanjut untuk tiap partisi sampai kondisi berhenti tercapai.
4. Stopping criterion, diperlukan untuk menghentikan proses diskretisasi.

Ada 5 metode untuk melakukan diskretisasi pada atribut continuous, yaitu:
binning, cluster analysis, histogram analysis, entropy-based discretization, dan segmentation by “natural partitioning”. Dua metode pertama telah dibahas pada data smoothing, pada subbab ini akan dibahas 3 metode yang lainnya.
• Histogram Analysis
Seperti binning sebelumnya, pertama data harus diurutkan dahulu kemudian membagi data ke dalam keranjang dan menyimpan nilai rata-rata (total) tiap keranjang. Untuk menentukan jumlah keranjang dan nilai atribut yang dipartisi, ada beberapa aturan partisi yaitu: equal-width, equal-depth, V-Optimal, dan MaxDiff. V-Optimal dan MaxDiff histogram cenderung lebih akurat dan praktis.
• Entropy-Based Discretization
Diskretisasi berdasarkan nilai entropy merupakan metode diskretisasi secara supervised. Seperti metode diskretisasi lainnya, atribut yang mau didiskretisasi diurutkan dahulu. Algoritma supervised ini menggunakan class information entropy dari partisi untuk memilih batas bin dalam melakukan diskretisasi. Jika diberikan sebuah data set S, sebuah atribut A, dan sebuah batas partisi T, class information entropy dari partisi dengan threshold T adalah:

adalah data yang ada pada S secara berturut-turut untuk kondisi A < T dan A T.



Fungsi entropy Ent untuk sekumpulan data yang diberikan, dihitung berdasarkan distribusi class dari data pada kumpulan tersebut. Contohnya diberikan m class, entropy dari Sadalah:
dimana pi adalah probabilitas class i pada S1 . Nilai dari
Ent( S2 ) dihitung dengan cara yang sama.

Untuk atribut A, batas T min yang meminimalkan fungsi entropy (atau memaksimalkan information gain) dari semua batas partisi yang mungkin, dipilih sebagai batas partisi. Metode ini dapat digunakan secara rekursif untuk kedua partisi sampai kondisi berhenti tercapai, yaitu: Gain(A, T; S) < δ dimana δ adalah metode stopping criterion yang mau diimplementasikan.
• Segmentation by Natural Partitioning
Secara umum, aturan partisi terhadap data dibagi menjadi 3, 4, atau 5 interval dengan range yang sama (equal-width interval) secara rekursif dan perlevel, berdasarkan range nilai pada most significant digit. Aturannya adalah sebagai berikut:
- Jika sebuah interval meliputi 3, 6, 7, atau 9 distinct value pada most significant digit (msd), maka mempartisi range tersebut ke dalam 3 interval.
- Jika sebuah interval meliputi 2, 4, atau 8 distinct value pada msd, maka mempartisi range tersebut ke dalam 4 equal-width interval.
- Jika sebuah interval meliputi 1, 5, atau 10 distinct value pada msd, maka mempartisi range tersebut ke dalam 5 equal-width interval.

C. Normalization
Normalization atau normalisasi adalah proses transformasi dimana sebuah atribut numerik diskalakan dalam range yang lebih kecil seperti -1.0 sampai 1.0, atau 0.0 sampai 1.0. Ada beberapa metode/teknik yang diterapkan untuk normalisasi data, diantaranya:
Min-max Normalization
Min-max normalization memetakan sebuah value v dari atribut A menjadi v' ke dalam range [new_minA, new_maxA] berdasarkan rumus:

Z-Score Normalization
Disebut juga zero-mean normalization, dimana value dari sebuah atribut A dinormalisasi berdasarkan nilai rata-rata dan standar deviasi dari atribut A. Sebuah value v dari atribut dinormalisasi menjadi v' dengan 
rumus: dimanaadalahnilai rata-rata dan standar deviasi dari atribut

Normalization by Decimal Scaling
Normalisasi yang diperoleh dengan melakukan penggeseran titik desimal dari value sebuah atribut A. Jumlah titik desimal yang digeser tergantung dari nilai absolut maksimum dari atribut A.

D. Aggregation
Adalah operasi summary (peringkasan) diaplikasikan pada data numerik. Misalnya pada data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun dengan dirata-rata atau ditotal. Langkah ini dilakukan dengan memanfaatkan operator data cube (operasi roll up/meringkas).

E. Attribute/Feature Construction
Pada attribute construction, atribut baru dibentuk dari atribut yang sudah ada dan ditambahkan bersama atribut lainnya untuk membantu meningkatkan ketelitian/ketepatan dan pemahaman struktur dalam  high-dimensional data. Contohnya, mau menambahkan atribut luas berdasarkan atribut tinggi dan lebar. Atau, atribut lama kerja jadi dosen dan usia bisa digantikan dengan senioritas, yunioritas, dan orientasi.


Komentar

Postingan populer dari blog ini

Empat Tool Software Java Gratis Google utk Membuat Aplikasi GWT dan GUI Windows

Do'a Niat Puasa Bulan Dzulhijjah (Tarwiyah dan Arafah)