Transformasi Data dalam Tahapan Data Mining

DATA TRANSFORMATION

Ada 7 (tujuh) tahapan proses data mining, dimana 4 (empat) tahap pertama disebut juga dengan data preprocessing (terdiri dari data cleaning, data integration, data selection, dan data transformation), yang dalam implementasinya membutuhkan waktu sekitar 60% dari keseluruhan proses. Dalam data transformation, terdapat beberapa pendekatan/teknik untuk melakukan transformasi data, yaitu smoothing, generalization, normalization, aggregation, dan attribute construction.

Gambar 1. Data Mining Process

A. Smoothing

Smoothing dilakukan jika data mengandung noise/nilai yang tidak valid terhadap data yang di-mining. Untuk mengatasinya harus dilakukan smoothing (dengan memperhatikan nilai-nilai tetangga). Berikut teknik atau metode untuk smoothing:

• Binning

Metode binning dilakukan dengan memeriksa “nilai tetangga”, yaitu nilai-nilai yang ada disekelilingnya. Berikut adalah langkah-langkah metode binning:

1. Data diurutkan dari yang terkecil sampai dengan yang terbesar.

2. Data yang sudah urut kemudian dipartisi ke dalam beberapa bin. Teknik partisi ke dalam bin ada 2 (dua) cara: equal-width (distance) partitioning dan equaldepth (frequency) partitioning.

3. Dilakukan smoothing dengan tiga macam teknik, yaitu: smoothing by binmeans, smoothing by bin-medians, dan smoothing by bin-boundaries.

• Clustering

Digunakan untuk menyingkirkan outliers (keluar jauh-jauh dari cluster/centroid), data yang memiliki noise. Algoritma k-Means yang merupakan kategori metode partitioning dapat digunakan jika ukuran database tidak terlalu besar. Algoritma ini didasarkan pada nilai tengah dari objek yang ada dalam cluster. Algoritma k-Means meminta inputan parameter k, dan mempartisi satu set n objek ke dalam k cluster sehingga menghasilkan tingkat kemiripan yang tinggi antar objek dalam kelas yang sama (intra-class similarity) dan tingkat kemiripan yang paling rendah antar objek dalam kelas yang berbeda (inter-class similarity). Kemiripan cluster diukur dengan menghitung nilai tengah dari objek yang ada di dalam cluster.

• Regression
Linear regression memodelkan sebuah random variable, Y (disebut response variable) sebagai
sebuah fungsi linier dari random variable yang lain, X (disebut sebagai predictor variable), dengan persamaan empiris: Y = α +βX , dimana α dan β adalah koefisien regresi.. Koefisien ini dapat dihitung menggunakan metode least squares dengan persamaan sebagai berikut:

adalah nilai ratarata dari x1, x2, …, xi dan
y adalah nilai rata-rata dari y1, y2, …, yi.

B. Generalization

Generalization atau generalisasi adalah ketika data level rendah (low-level data) dianti dengan konsep yang lebih tinggi, yaitu dengan melakukan diskretisasi. Teknik diskretisasi dapat digunakan untuk mereduksi sekumpulan nilai yang terdapat pada atribut continuous, dengan membagi range dari atribut ke dalam interval.

Gambar 2. Proses Diskretisasi

Proses diskretisasi secara umum terdiri dari 4 tahapan (gambar 2), yaitu:

1. Sorting, melakukan sorting nilai atribut continuous yang mau didiskretisasi.

2. Memilih “cut-point”, banyak fungsi evaluasi yang dapat digunakan seperti binning dan pengukuran entropy.

3. Splitting, dilakukan evaluasi cut-point yang ada dan pilih satu yang terbaik dan lakukan split range nilai atribut continuous ke dalam dua partisi. Diskretisasi berlanjut untuk tiap partisi sampai kondisi berhenti tercapai.

4. Stopping criterion, diperlukan untuk menghentikan proses diskretisasi.

Ada 5 metode untuk melakukan diskretisasi pada atribut continuous, yaitu:

binning, cluster analysis, histogram analysis, entropy-based discretization, dan segmentation by “natural partitioning”. Dua metode pertama telah dibahas pada data smoothing, pada subbab ini akan dibahas 3 metode yang lainnya.

• Histogram Analysis

Seperti binning sebelumnya, pertama data harus diurutkan dahulu kemudian membagi data ke dalam keranjang dan menyimpan nilai rata-rata (total) tiap keranjang. Untuk menentukan jumlah keranjang dan nilai atribut yang dipartisi, ada beberapa aturan partisi yaitu: equal-width, equal-depth, V-Optimal, dan MaxDiff. V-Optimal dan MaxDiff histogram cenderung lebih akurat dan praktis.

• Entropy-Based Discretization

Diskretisasi berdasarkan nilai entropy merupakan metode diskretisasi secara supervised. Seperti metode diskretisasi lainnya, atribut yang mau didiskretisasi diurutkan dahulu. Algoritma supervised ini menggunakan class information entropy dari partisi untuk memilih batas bin dalam melakukan diskretisasi. Jika diberikan sebuah data set S, sebuah atribut A, dan sebuah batas partisi T, class information entropy dari partisi dengan threshold T adalah:

adalah data yang ada pada S secara berturut-turut untuk kondisi A < T dan A ≥ T.

Fungsi entropy Ent untuk sekumpulan data yang diberikan, dihitung berdasarkan distribusi class dari data pada kumpulan tersebut. Contohnya diberikan m class, entropy dari ^S1 adalah:

dimana pi adalah probabilitas class i pada ^S1 . Nilai dari

Ent( ^S2 ) dihitung dengan cara yang sama.

Untuk atribut A, batas ^T min yang meminimalkan fungsi entropy (atau memaksimalkan information gain) dari semua batas partisi yang mungkin, dipilih sebagai batas partisi. Metode ini dapat digunakan secara rekursif untuk kedua partisi sampai kondisi berhenti tercapai, yaitu: Gain(A, T; S) < δ dimana δ adalah metode stopping criterion yang mau diimplementasikan.

• Segmentation by Natural Partitioning

Secara umum, aturan partisi terhadap data dibagi menjadi 3, 4, atau 5 interval dengan range yang sama (equal-width interval) secara rekursif dan perlevel, berdasarkan range nilai pada most significant digit. Aturannya adalah sebagai berikut:

- Jika sebuah interval meliputi 3, 6, 7, atau 9 distinct value pada most significant digit (msd), maka mempartisi range tersebut ke dalam 3 interval.

- Jika sebuah interval meliputi 2, 4, atau 8 distinct value pada msd, maka mempartisi range tersebut ke dalam 4 equal-width interval.

- Jika sebuah interval meliputi 1, 5, atau 10 distinct value pada msd, maka mempartisi range tersebut ke dalam 5 equal-width interval.

C. Normalization

Normalization atau normalisasi adalah proses transformasi dimana sebuah atribut numerik diskalakan dalam range yang lebih kecil seperti -1.0 sampai 1.0, atau 0.0 sampai 1.0. Ada beberapa metode/teknik yang diterapkan untuk normalisasi data, diantaranya:

• Min-max Normalization

Min-max normalization memetakan sebuah value v dari atribut A menjadi v' ke dalam range [new_minA, new_maxA] berdasarkan rumus:

• Z-Score Normalization
Disebut juga zero-mean normalization, dimana value dari sebuah atribut A dinormalisasi berdasarkan nilai rata-rata dan standar deviasi dari atribut A. Sebuah value v dari atribut A dinormalisasi menjadi v' dengan

rumus: dimana

adalah

nilai rata-rata dan standar deviasi dari atribut

• Normalization by Decimal Scaling

Normalisasi yang diperoleh dengan melakukan penggeseran titik desimal dari value sebuah atribut A. Jumlah titik desimal yang digeser tergantung dari nilai absolut maksimum dari atribut A.

D. Aggregation

Adalah operasi summary (peringkasan) diaplikasikan pada data numerik. Misalnya pada data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun dengan dirata-rata atau ditotal. Langkah ini dilakukan dengan memanfaatkan operator data cube (operasi roll up/meringkas).

E. Attribute/Feature Construction

Pada attribute construction, atribut baru dibentuk dari atribut yang sudah ada dan ditambahkan bersama atribut lainnya untuk membantu meningkatkan ketelitian/ketepatan dan pemahaman struktur dalam high-dimensional data. Contohnya, mau menambahkan atribut luas berdasarkan atribut tinggi dan lebar. Atau, atribut lama kerja jadi dosen dan usia bisa digantikan dengan senioritas, yunioritas, dan orientasi.

Cari Blog Ini

Do you know?

Transformasi Data dalam Tahapan Data Mining

Komentar

Posting Komentar

Postingan populer dari blog ini

Empat Tool Software Java Gratis Google utk Membuat Aplikasi GWT dan GUI Windows

Data Mining "Proses, Tahapan dan Penerapannya"