Tugas Algoritma Data Mining – Kebanyakan aplikasinya, gol utama dari data mining adalah untuk membuat prediksi dan deskripsi. Prediksi menggunakan beberapa variabel atau field-field basis data untuk memprediksi nilai-nilai variabel masa mendatang yang diperlukan, yang belum diketahui saat ini. Deskripsi berfokus pada penemuan pola-pola tersembunyi dari data yang ditelaah.
Dalam konteks KDD, deskripsi dipandang lebih penting daripada prediksi4. Ini berlawanan dengan aplikasi pengenalan pola dan mesin belajar. Prediksi dan deskripsi pada data mining dilakukan dengan tugas-tugas utama yang akan dijelaskan di bawah ini.
Tugas Algoritma Data Mining
Tugas utama dari algoritma data mining adalah menggali informasi berharga dari data yang ada. Dalam proses ini, algoritma akan melakukan serangkaian langkah untuk mengidentifikasi pola, hubungan, dan tren yang tersembunyi dalam data.
Dengan menggunakan algoritma data mining, kita dapat mengambil keputusan yang lebih baik, melakukan prediksi, dan mengoptimalkan proses bisnis.
- Klasifikasi adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data ke dalam salah satu dari beberapa kelas yang sudah
- Regresi adalah fungsi pembelajaran yang memetakan sebuah unsur data ke sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro penginderaan jarak jauh (remotely-sensed), prediksi kebutuhan kustomer terhadap sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dll.
- Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Kategori-kategori ini dapat bersifat eksklusif dan ekshaustif mutual, atau mengandung representasi yang lebih kaya seperti kategori yang hirarkis atau saling menumpu (overlapping).
- Peringkasan melibatkan metodologi untuk menemukan deskripsi yang ringkas dari sebuah himpunan data. Satu contoh yang sederhana adalah mentabulasikan mean dan deviasi standar untuk semua field-field tabel.
- Pemodelan Kebergantungan adalah penemuan sebuah model yang mendeskripsikan kebergantungan yang signifikan antara variabelvariabel. Model kebergantungan ini ada di 2 tingkat: tingkat struktural yang menspesifikasikan variabelvariabel yang secara local bergantung satu sama lain, dan tingkat kuantitatif yang menspesifikasikan tingkat kebergantungan dengan menggunakan skala numerik.
- Pendeteksian Perubahan dan Deviasi berfokus pada penemuan perubahan yang paling signifikan di dalam data dari nilai-nilai yang telah diukur sebelumnya.
Komponen Algoritma Data Mining
Setelah tugas-tugas utama dari data mining didefinisikan seperti di atas, maka perlu dirumuskan algoritma-algoritma untuk mencari solusi dari tugas-tugas tersebut di atas.
Dalam setiap algoritma data mining ada tiga komponen utama yaitu representasi model, evaluasi model dan metodologi pencarian.
1. Preprocessing Data
Sebelum memulai proses data mining, langkah pertama yang perlu dilakukan adalah preprocessing data. Pada tahap ini, data akan dianalisis, dibersihkan, dan disiapkan agar siap digunakan dalam proses selanjutnya.
Preprocessing data meliputi penghapusan data yang tidak relevan, penanganan missing values, dan normalisasi data.
2. Pemilihan Model
Setelah data siap, langkah berikutnya adalah pemilihan model yang akan digunakan. Pemilihan model tergantung pada jenis data yang akan dianalisis dan tujuan dari analisis tersebut.
Beberapa model yang umum digunakan dalam algoritma data mining antara lain Decision Tree, Neural Network, dan Support Vector Machine.
3. Pembangunan Model
Pada tahap ini, model akan dibangun berdasarkan data yang telah dipilih. Proses ini melibatkan penggunaan algoritma khusus yang sesuai dengan model yang dipilih.
Algoritma ini akan melakukan proses penggalian informasi dari data yang ada dan membangun model yang dapat digunakan untuk analisis lebih lanjut.
4. Evaluasi Model
Setelah model dibangun, tahap selanjutnya adalah evaluasi model. Evaluasi dilakukan untuk memastikan bahwa model yang dibangun dapat memberikan hasil yang akurat dan dapat diandalkan.
Evaluasi model melibatkan pengujian model menggunakan data yang tidak digunakan dalam proses pembangunan model dan membandingkan hasil prediksi dengan nilai yang sebenarnya.
5. Penggunaan Model
Setelah model dievaluasi dan terbukti memberikan hasil yang baik, model tersebut dapat digunakan untuk mengambil keputusan atau melakukan prediksi.
Penggunaan model dapat dilakukan secara real-time atau dalam batch, tergantung pada kebutuhan bisnis.
Untuk setiap representasi model, metodologi pencarian parameter diinstansiasi untuk mengevaluasi kualitas dari model itu. Implementasi metodologi pencarian model cenderung untuk menggunakan teknik pencarian heuristic.