Peran Utama Data Mining

Peranan utama data mining yaitu :

  1. Estimation
  2. Prediction
  3. Classification
  4. Clulstering
  5. Association

 

Algoritma Data Mining :

  • Estimation : Linier Regression, Neural Network, Support Vector Machine, dll
  • Prediction : Linier Regression, Neural Network, Support Vector Machine, dll
  • Classification : Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, dll
  • Clustering : K-Means, K-Medoids, Self-Organizing, Map(SOM), Fuzzy C-Means, dll
  • Assosiation : FP-Growth, A Priori, dll

Metode Pembelajaran pada Algoritma Data Mining :

  • Supervised Learning : Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification) adalah supervised learning. Variabel yang menjadi target/label/class ditentukan, algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang terasosiasi dengan nilai dari variabel prediktor
  • Unsupervised Learning : Algoritma data mining mencari pola dari semua variabel (atribut). Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada), algoritma clustering adalah algoritma unsupervised learning.
  • Association Learning : Proses learning pada algoritma asosiasi (association rule) agak berbeda karena tujannya adalah untuk mencari atribut yang muncul bersamaan dalam satu transaksi. Biasanya digunakan untuk analisas transaksi belanja untuk mengetahui barang yang dibeli secara bersamaan. Pada pusat perbelanjaan memiliki banyak produk pencarian memerlukan cost tinggi, Algoritma A Priori dapat menyelsaikan masalah ini dengan efissien.

Proses utama Data Mining :

  • Input (Data)
  • Metode (Algoritma Data Mining)
  • Output (Pola/Model)
  • Evaluation (Akurasi, AUC, RMSE,dll) <-Tambahan

Output/Pola/Model/Knowledge :

  1. Formula/Function (Rumus atau fungsi regresi)
  2. Decision Tree (Pohon Keputusan)
  3. Rule (Aturan)
  4. Cluster

Algoritma Estimasi :

Algoritma estimasi mirip dengan algoritma klasifikasi, tapi variabel target adalah berupa bilangan numerik (kontinyu) dan bukan kategorikal (nominal atau diskrit).
Estimasi nilai dari variabel target  ditentukan berdasarkan nilai dari varibel prediktor (atribut)
Algoritma estimasi yang biasa digunakan adalah : Linear Regression, Neural Network, Support Vector Machine

Algoritma Prediksi :
Algoritma prediksi/forecasting saa dengan algoritma estimasi di mana label/target/class bertipe numerik, bedanya adalah data yang digunakan merupakan data rentet waktu (data time series)
Istilah prediksi kadang digunakan juga untuk klasifikasi, tidak hanya untuk prediksi time series, karena sifatnya yang bisa menghasilkan class berdasarka