Proses Data Mining

  1. Input (Dataset) :
    Jenis dataset ada dua : Private dan Public
    Private Dataset : data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
    Public Dataset : data set dapat diambil dari repositori publik yang disepakati oleh para peneliti data mining
    Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat : comparable, repeatable dan verifable.
    Atribut,Class dan Tipe Data :
    Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
    Class adalah atribut yang akan dijadikan target, sering juga disebut dengan label
    Tipe data untuk variabel pada statistik terbagi menjadi empat : nominal, ordinal, interval, ratio.
    Tapi secara praktis, tipe data untuk atribut pada data mining hanya menggunakan dua :
    Nominal (diskrit) dan Numeric (kontinyu atau ordinal)
  2. Metode Algoritma :
    Estimasi, Prediksi, Classification, Clustering, Assosiation.
  3. Output :
    Formula/Function, Desicion Tree, Rule(Aturan), Cluster (Klaster)
  4. Evaluasi:
    Estimasi error : Root Mean Square Error (RMSE), MSE, MAPE, dll.
    Prediction error : Root Mean Square Error (RMSE), MSE, MAPE, dll.
    Classification : Confusion Matrix (Accuracy), ROC Curve (Area Under Curve (AUC)
    Clustering : Internal Evaluation (Davies-Bouldin index, Dunn index), External Evaluation ( Rand measure, F-measure, Jaccard Index, Fowlkes-Mallows index, Confusion matrix).
    Association : Lift Charts (Lift Ratio) Precission and Recall (F-measure).

Guide For Classifying The AUC :

  • 0.90 – 1.00 = excellent classification
  • 0.80 – 0.90 = good classification
  • 0.70 – 0.80 = fair classification
  • 0.60 – 0.70 = poor classification
  • 0.50 – 0.60 = failure

Kriteria Evaluasi dan Validasi Model :
Secara umum pengukuran model data mining mengacu pada tiga kriteria : Akurasi, Kehandalan dan Kegunaan. Keseimbangan diantara ketiganya diperlukan karena belum tentu model yang akurat itu handal, dan yang handal dan akurat belum tentu berguna.
Akurasi adalah ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan. Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan.
Kehandalan adalah ukuran di mana model data mining diterapkan pada dataset yang berbeda akan menghasilkan sebuah model data mining dapat diandalkan jika menghasilkan pola umum sama terlepas dari data testing yang disediakan
Kegunaan mencakup berbagai meetrik yang mengukur apakah model tersebut memberikan informasi yang berguna.

Pengujian Model Data Mining :
Pembagian dataset :
Dua subset : data training dan data testing
Tiga subset : data training, data validation dan data testing
Data training untuk pembentukan model, dan data testing digunakan untuk pengujian model
Data validation untuk memvalidasi model kita valid atau tidak.

Cross-Validation :
Metode Cross-validation digunakan untuk menghindari overlapping pada data testing
Tahapan cross-validation :
1. Bagi data yang menjadi k subset yang berukuran sama
2. Gunakan setiap subset untuk data testing dan sisanya untuk data training.
Disebut juga dengan k-fold cross-validation
Seringkali subset dibuat stratified (bertingkat) sebelum cross-validation dilakukan, karena sstratifikasi akan mengurangi variansi dari estimasi.
Metode evalulasi standard : stratified 10-fold cross-validation
Mengapa 10? Hasil dari berbagai percobaan yang ekstensif dan pembuktian teeoritis, menunjukan bahwa 10-fold cross validation adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat.
10-fold cross-validationn akan mengulang pengujian sebanyak 10 kali dan hasil pengukuran adalah nilai rata-rata dari 10 kali pengujian.

 

Skip to toolbar