Proses Data Mining

  1. Input (Dataset) :
    Jenis dataset ada dua : Private dan Public
    Private Dataset : data set dapat diambil dari organisasi yang kita jadikan obyek penelitian
    Public Dataset : data set dapat diambil dari repositori publik yang disepakati oleh para peneliti data mining
    Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset, sehingga penelitian dapat bersifat : comparable, repeatable dan verifable.
    Atribut,Class dan Tipe Data :
    Atribut adalah faktor atau parameter yang menyebabkan class/label/target terjadi
    Class adalah atribut yang akan dijadikan target, sering juga disebut dengan label
    Tipe data untuk variabel pada statistik terbagi menjadi empat : nominal, ordinal, interval, ratio.
    Tapi secara praktis, tipe data untuk atribut pada data mining hanya menggunakan dua :
    Nominal (diskrit) dan Numeric (kontinyu atau ordinal)
  2. Metode Algoritma :
    Estimasi, Prediksi, Classification, Clustering, Assosiation.
  3. Output :
    Formula/Function, Desicion Tree, Rule(Aturan), Cluster (Klaster)
  4. Evaluasi:
    Estimasi error : Root Mean Square Error (RMSE), MSE, MAPE, dll.
    Prediction error : Root Mean Square Error (RMSE), MSE, MAPE, dll.
    Classification : Confusion Matrix (Accuracy), ROC Curve (Area Under Curve (AUC)
    Clustering : Internal Evaluation (Davies-Bouldin index, Dunn index), External Evaluation ( Rand measure, F-measure, Jaccard Index, Fowlkes-Mallows index, Confusion matrix).
    Association : Lift Charts (Lift Ratio) Precission and Recall (F-measure).

Guide For Classifying The AUC :

  • 0.90 – 1.00 = excellent classification
  • 0.80 – 0.90 = good classification
  • 0.70 – 0.80 = fair classification
  • 0.60 – 0.70 = poor classification
  • 0.50 – 0.60 = failure

Kriteria Evaluasi dan Validasi Model :
Secara umum pengukuran model data mining mengacu pada tiga kriteria : Akurasi, Kehandalan dan Kegunaan. Keseimbangan diantara ketiganya diperlukan karena belum tentu model yang akurat itu handal, dan yang handal dan akurat belum tentu berguna.
Akurasi adalah ukuran dari seberapa baik model mengkorelasikan antara hasil dengan atribut dalam data yang telah disediakan. Terdapat berbagai model akurasi, tetapi semua model akurasi tergantung pada data yang digunakan.
Kehandalan adalah ukuran di mana model data mining diterapkan pada dataset yang berbeda akan menghasilkan sebuah model data mining dapat diandalkan jika menghasilkan pola umum sama terlepas dari data testing yang disediakan
Kegunaan mencakup berbagai meetrik yang mengukur apakah model tersebut memberikan informasi yang berguna.

Pengujian Model Data Mining :
Pembagian dataset :
Dua subset : data training dan data