Metodologi Data Mining – Ada banyak metodologi data mining, tapi di sini hanya akan dibahas yang popular saja. Bahasan metodologi akan meliputi segi representasi model, evaluasi model dan metodologi pencarian.
Aturan dan Pohon Keputusan
Metodologi ini, yang menggunakan pemisahan (split) univariate, mudah dipahami oleh pemakai karena bentuk representasinya yang sederhana.
Akan tetapi, batasan-batasan yang diterapkan pada representasi aturan dan pohon tertentu dapat secara signifikan membatasi bentuk fungsional dari model.
Metodologi Klasifikasi dan RegresiNon-linier
Kedua metodologi ini terdiri dari sekumpulan teknik-teknik untuk memprediksi ombinasi variabel-variabel masukan yang pas dengan kombinasi linier dan nonlinier pada fungsi-fungsi dasar (sigmoid, splines, polinomial).
Contohnya antara lain adalah jaringan saraf feedforward, metodologi spline adaptif, dan proyeksi regresi pursuit.
Metodologi Berbasis-sampel
Representasi dari metodologi ini cukup sederhana: gunakan sampel dari basis data untuk mengaproksimasi sebuah model, misalnya, prediksi sampel-sampel baru diturunkan dari properti sampel-sampel yang “mirip” di dalam model yang prediksinya sudah diketahui.
Teknik ini misalnya adalah klasifikasi tetanggaterdekat, algoritma regresi dan sistem reasoning berbasis-kasus
Model Kebergantungan Grafik Probabilistik
Model grafik menspesifikasikan kebergantungan probabilistik yang mendasari sebuah model dalam menggunakan struktur grafik. Dalam bentuknya yang paling sederhana, model ini menspesifikasikan variabel-variabel mana yang bergantung satu sama lain.
Pada umumnya, model ini digunakan dengan variabel kategorial atau bernilai diskret, tapi pengembangan untuk kasus khusus, seperti densitas Gausian, untuk variabel yang bernilai real (pecahan) juga dimungkinkan.
Baru-baru ini riset di bidang inteligensia buatan dan statistic dilakukan untuk mencari teknik dimana struktur dan parameter parameter pada model grafik “dipelajari” secara langsung dari basisdata.
Model Belajar Relasional
Jika aturan dan pohon-keputusan memiliki sebuah representasi yang terbatas pada logika proporsional, pembelajaran relasional (yang juga dikenal sebagai pemrograman logika induksi) menggunakan bahasa pola yang lebih sederhana dengan logika tingkatsatu.
Pembelajar relasional dengan mudah dapat menemukan formula seperti X=Y. Kebanyakan riset pada metodologi evaluasi model untuk pembelajaran relasional bersifat logik.
CRISP-DM (Cross-Industry Standard Process for Data Mining)
CRISP-DM adalah metodologi data mining yang paling populer dan banyak digunakan di industri. Metodologi ini terdiri dari enam tahap yang saling terkait, yaitu:
- Pemahaman Bisnis: Tahap ini melibatkan pemahaman terhadap tujuan bisnis dan kebutuhan pengguna.
- Pemahaman Data: Tahap ini melibatkan eksplorasi data untuk memahami karakteristik dan kualitasnya.
- Preparasi Data: Tahap ini melibatkan pembersihan dan transformasi data agar siap digunakan dalam proses mining.
- Modeling: Tahap ini melibatkan pemilihan dan penerapan teknik mining yang sesuai.
- Evaluasi: Tahap ini melibatkan evaluasi model mining yang telah dibangun.
- Penyajian: Tahap ini melibatkan penyajian hasil mining kepada pengguna.
CRISP-DM memiliki pendekatan yang sistematis dan fleksibel, sehingga sangat berguna dalam mengatasi tantangan yang muncul selama proses data mining.
SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMa adalah metodologi data mining yang dikembangkan oleh SAS Institute. Metodologi ini terdiri dari lima tahap yang berurutan:
- Sample: Tahap ini melibatkan pengambilan sampel data yang representatif.
- Explore: Tahap ini melibatkan eksplorasi data untuk menemukan pola dan tren.
- Modify: Tahap ini melibatkan transformasi data untuk mempersiapkannya sebelum proses modeling.
- Model: Tahap ini melibatkan pembuatan model yang sesuai dengan tujuan bisnis.
- Assess: Tahap ini melibatkan evaluasi model untuk memastikan kualitas dan kehandalannya.
Metodologi SEMMA sangat cocok untuk situasi di mana tujuan bisnis dan pertanyaan yang ingin dijawab sudah jelas.
KDD (Knowledge Discovery in Databases)
KDD adalah metodologi data mining yang berfokus pada proses penemuan pengetahuan dari basis data. Metodologi ini terdiri dari beberapa tahap, yaitu:
- Pemilihan dan Penyaringan Data: Tahap ini melibatkan pemilihan data yang relevan untuk analisis.
- Preprocessing Data: Tahap ini melibatkan pembersihan dan transformasi data.
- Transformasi Data: Tahap ini melibatkan transformasi data untuk mempersiapkannya sebelum proses mining.
- Data Mining: Tahap ini melibatkan penerapan teknik mining untuk menemukan pola dan tren.
- Evaluasi dan Interpretasi: Tahap ini melibatkan evaluasi hasil mining dan interpretasi temuan.
- Penyajian dan Visualisasi: Tahap ini melibatkan penyajian hasil mining kepada pengguna.
KDD menekankan pentingnya pemahaman konteks bisnis dan penemuan pengetahuan baru dari data yang ada.
Itulah beberapa metodologi data mining yang populer yang dapat Anda gunakan untuk menggali informasi berharga dari data. Setiap metodologi memiliki kelebihan dan kekurangan, jadi penting untuk memilih yang sesuai dengan kebutuhan dan tujuan bisnis Anda. Selamat mencoba!