Peran Utama Data Mining

Peranan utama data mining yaitu :

  1. Estimation
  2. Prediction
  3. Classification
  4. Clulstering
  5. Association

 

Algoritma Data Mining :

  • Estimation : Linier Regression, Neural Network, Support Vector Machine, dll
  • Prediction : Linier Regression, Neural Network, Support Vector Machine, dll
  • Classification : Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis, dll
  • Clustering : K-Means, K-Medoids, Self-Organizing, Map(SOM), Fuzzy C-Means, dll
  • Assosiation : FP-Growth, A Priori, dll

Metode Pembelajaran pada Algoritma Data Mining :

  • Supervised Learning : Sebagian besar algoritma data mining (estimation, prediction/forecasting, classification) adalah supervised learning. Variabel yang menjadi target/label/class ditentukan, algoritma melakukan proses belajar berdasarkan nilai dari variabel target yang terasosiasi dengan nilai dari variabel prediktor
  • Unsupervised Learning : Algoritma data mining mencari pola dari semua variabel (atribut). Variable (atribut) yang menjadi target/label/class tidak ditentukan (tidak ada), algoritma clustering adalah algoritma unsupervised learning.
  • Association Learning : Proses learning pada algoritma asosiasi (association rule) agak berbeda karena tujannya adalah untuk mencari atribut yang muncul bersamaan dalam satu transaksi. Biasanya digunakan untuk analisas transaksi belanja untuk mengetahui barang yang dibeli secara bersamaan. Pada pusat perbelanjaan memiliki banyak produk pencarian memerlukan cost tinggi, Algoritma A Priori dapat menyelsaikan masalah ini dengan efissien.

Proses utama Data Mining :

  • Input (Data)
  • Metode (Algoritma Data Mining)
  • Output (Pola/Model)
  • Evaluation (Akurasi, AUC, RMSE,dll) <-Tambahan

Output/Pola/Model/Knowledge :

  1. Formula/Function (Rumus atau fungsi regresi)
  2. Decision Tree (Pohon Keputusan)
  3. Rule (Aturan)
  4. Cluster

Algoritma Estimasi :

Algoritma estimasi mirip dengan algoritma klasifikasi, tapi variabel target adalah berupa bilangan numerik (kontinyu) dan bukan kategorikal (nominal atau diskrit).
Estimasi nilai dari variabel target  ditentukan berdasarkan nilai dari varibel prediktor (atribut)
Algoritma estimasi yang biasa digunakan adalah : Linear Regression, Neural Network, Support Vector Machine

Algoritma Prediksi :
Algoritma prediksi/forecasting saa dengan algoritma estimasi di mana label/target/class bertipe numerik, bedanya adalah data yang digunakan merupakan data rentet waktu (data time series)
Istilah prediksi kadang digunakan juga untuk klasifikasi, tidak hanya untuk prediksi time series, karena sifatnya yang bisa menghasilkan class berdasarkan berbagai atribut yang disediakan
Semua algoritma estimasi dapat digunakan untuk prediksi

Algoritma Klasifikasi :
Klasifikasi adalah algoitma yang menggunakan data dengan target/class/label berupa nilai kategorikal (nominal)
Contoh, apabila target/class/label adalah pendapatan, maka bisa digunakan nilai nominal (kategorikal) sbb : pendapatan besar, menengah, kecil
Algoritma klasifikasi yang biasa digunakan adalah : Naive Bayes, K-Nearest Neighbor, C4.5, ID3, CART, Linear Discriminant Analysis,dll

Algoritma Klastering :
Klastering adalah pengelompokan data, hasil observasi dan kasus ke dalam class yang mirip
Suatu klaster adalah koleksi data yang mirip antara satu dengan yang lain, dan memiliki perbedaan bila dibandingkan dengan data dari klaster lain
Perbedaan utama algoritma klastering dengan klasifikasi adalah klastering tidak memiliki target/class/label, jadi termasuk unsupervised learning
Klastering sering digunakan sebagai tahap awal dalam proses data mining, dengan hasil klaster yang terbenuk akan menjadi input dari algoritma berikutnya yang digunakan.

Algoritma Asosiasi
Algoritma association rule adalah algoritma yang menemukan atribut yang “muncul bersamaan”
Dalam dunia bisnis, sering disebut juga dengan affinity analysis atau market basket analysis
Algoritma asosiasi akan mencari aturan yang menghitung hubungan diantara dua atau lebih atribut
Algoritma association rules berangkat dari pola “if antecedent, then consequent,” bersamaan dengan pengukuran support (coverage) dan confidence (accuration) yang terasosiasi dalam aturan.
Algoritma association rule diantaranya adalah : A priori algorithm, FP-Growth algorithm, GRI algorithm

 

 

Skip to toolbar