Slide : Data Mining
1. Pengertian Data Mining
Data Mining adalah usaha pencarian informasi yang saling terkait untuk menemukan pengetahuan dari sejumlah data yang ada.
2. Pengelompokkan Data Mining Berdasarkan Tugas
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat di lakukan, yaitu :
a. Deskripsi
Adanya pola tertentu yang dapat di deskripsikan dari sebuah data.
b. Estimasi
Estimasi adalah data mining yang lebih ke arah numerik dari pada ke arah kategori.
c. Prediksi
Memperkirakan sesuatu di masa mendatang. Contoh prediksi dalam bisnis dan penelitian adalah prediksi harga sembako dalam 1 bulan yang akan datang.
d. Klasifikasi
Pengelompokkan data berdasarkan kategor tertentu.
e. Pengklusteran
Melakukan pengelompokkan yang bersifat homogen.
f. Asosiasi
Menemukan suatu atribut dalam kurun waktu tertentu.
3. Pengertian Data Warehouse
Data Warehouse merupakan gudang informasi yang diperoleh dari banyak sumber. Lalu, disimpan dalam skema basis data tunggal dan ditempatkan pada satu lokasi.
4. Faktor Kemajuan Data Mining
Kemajuan data mining didorong oleh beberapa faktor, antara lain :
- Pertumbuhan yang cepat dalam kumpulan data.
- Penyimpanan data dalam data warehouse.
- Adanya peningkatan akses data melalui web dan intranet.
- Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam globalisasi ekonomi.
- Perkembangan teknologi perangkat lunak untuk data mining.
- Perkembangan dalam kemampuan komputasi dan pengembangan kapasitas media penyimpanan.
5. Proses Knowledge Discovery in Database
Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut :
a. Data Selection
Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas dan diletaknna terpisah dari basis data operasional.
b. Pre-processing/Cleaning
Proses pembersihan yang dilakukan adalah membuang data ganda, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data.
c. Transformation
Coding adalah proses transformasi data yang telah dipilih, sehingga data dapat sesuai untuk data mining.
d. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik tertentu.
e. Interpretation/Evalution
Pada tahap ini mencakup pemeriksaan apakah informasi yang ditemukan bertentangan dengan fakta yang ada
6. Enam fase CRISP-DM (Cross Industry Standard Process for Data Mining) :
1) Fase Pemahaman Bisnis
a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2) Fase Pemahaman Data
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
d. Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan
3) Fase Pengolahan Data
a. Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.
b. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan.
c. Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
4) Fase Pemodelan
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.
5) Fase Evaluasi
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.
6) Fase Penyebaran
Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah
terselesaikannya proyek.
Sumber :
Fathansyah. (2004). Buku Teks Komputer Sistem Basis Data Lanjutan Buku Basis Data. Bandung: Informatika Bandung.
Fayyad, U. M. (1996). Advances in Knowledge Discovery and Data Mining. Cambridge: The MIT Press.
Larose, D. T. (2006). Data Mining Methods and Models. New Jersey: John Wiley & Sons.
Ramakrishnan, R., & Gehrke, J. (2009). Database Management Systems. The McGraw-Hill Companies.