Data Mining
Data Mining
Pengertian Data Mining
Data mining merupakan
suatu proses penjelajahan atau mencari otomatis untuk mendapatkan informasi
berguna dalam suatu repository data yang sangat besar.
Ada banyak nama lain dari
data mining seperti Knowledge discovery databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data dredging, information
harvesting, business intelligence.
Konsep Data mining
Data Mining merupakan
bagian yang terintegrasi dari Knowledge Discovery in Databases (KDD). Bertujuan
untuk proses transformasi data mentah menjadi informasi berguna.
Jika di gambarkan secara detail tahapan KDD menjadi 5
tahap. Berikut Tahapannya :
1. Seleksi
Bertujuan
mentransformasikan data mentah ke format yang sesuai untuk analisis. Terdiri
atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting
data. Proses penyeleksian atau segmentasi data menurut beberapa criteria.
Misal, Orang – orang yang mempunyai mobil.
2. Preprocessing
Bertujuan untuk menjamin
bahwa hasil proses data mining yang diintegrasikan pada system penunjang
keputusan, benar-benar hasil yang valid. Proses pembersihan data, dimana
informasi yang tidak dibutuhkan dibuang. Misal, Jenis kelamin pasien untuk
analisis kehamilan.
Data dikonfigurasi ulang untuk memastikan format yang
konsisten karena berasal dari berbagai sumber. Misal, Jenis kelamin disimpan
dengan bentuk f atau m dan 1 atau 0.
3. Transformasi
Proses transformasi
sehingga data menjadi berguna dan dapat ditelusuri.
4. Data Mining
Proses yg berfokus pada
ekstraksi pola-pola data. Pola dapat didefinisikan sebagai sekumpulan
fakta-fakta (data) F, bahasa L, dan beberapa measure of certainty (pengukuran
kepastian) C.
Suatu pola dinyatakan S dalam L menggambarkan keterhubungan antara subset Fs dari F dengan kepastian c dimana S adalah simpel dibandingkan perhitungan semua fakta dalam Fs.
Suatu pola dinyatakan S dalam L menggambarkan keterhubungan antara subset Fs dari F dengan kepastian c dimana S adalah simpel dibandingkan perhitungan semua fakta dalam Fs.
5. Interpretasi & Evaluasi
Pola diidentifikasi
sistem, lalu diinterpretasikan sebagai pengetahuan yg dapat digunakan untuk
mendukung pengambilan keputusan manusia, contoh :
·
Tugas, prediksi & klasifikasi.
·
Meringkas konten suatu database.
·
Menjelaskan fenomena yang diamati.
Fungsi Umum Data Mining
Fungsi dalam data mining
bisa diartikan sebagai sub kegiatan yang ada dalam data mining rangka menemukan,
menggali, atau menambang pengetahuan. Secara global fungsi utama data mining
adalah sebagai berikut :
a. Klasifikasi
Proses untuk menyatakan
suatu objek kesalah satu kategori yang sudah didefinisikan sebelumnya. Proses
pembelajaran fungsi target (model klasifikasi) yang memetakan setiap
sekumpulan atribut x (input) kesalah satu kelas yang didefinisikan sebelumnya.
·
Input : sekumpulan record (training set).
·
Setiap record terdiri atas sekumpulan
atribut, salah satu atribut adalah kelas. Mencari model untuk atribut kelas
sebagai fungsi dari nilai-nilai untuk atribut yang lain.
Tujuannya adalah record-record yang sebelumnya tidak
terlihat dinyatakan kelasnya seakurat mungkin. Ada banyak sekali algoritma yang
terdapat pada teknik klasifikasi , berberapa diantaranya seperti :
- ·
Holte
- ·
Prism
- ·
Naïve Bayes
- ·
ID3
- ·
K-Nearest Neighbor
- ·
B. Pengelompokan / Clustering
b. a. Clusstering
Clustering
adalah metode penganalisaan data yang tujuannya adalah untuk mengelompokkan
data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data
dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.
Ø
Perbedaan clustering dengan classification
Dataset
yang digunakan pada clustering tidak menampilkan class / target attribute,
sedangkan dataset yang digunakan pada classification mutlak harus
menampilkan class / target attribute.
Pengetahuan
yang dihasilkan oleh metode clustering berupa cluster hasil pengelompokan,
sedangkan pengetahuan yang dihasilkan oleh metode classification berupa selain
cluster (bisa Decision Tree, Ruleset, Weight pada BackPropagation,
dan lain-lain).
clustering
dipakai ketika tidak diketahuinya bagaimana data harus dikelompokkan. Jumlah
kelompok diasumsikan sendiri tanpa ditentukan terlebih dahulu.
Keluaran
pendekatan ini adalah data yang sudah dikelompokkan. Sedangkan classification,
terdapat informasi mengenai bagaimana data tersebut dikelompokkan.
Kemudian
dilakukan training pada sistem dengan data yang sudah diberikan label (ke dalam
kelompok manakah data tersebut dikelompokkan), selanjutnya sistem akan
mengklasifikasikan data-data yang baru ke dalam kelompok yang ada. Tidak akan
ada pertambahan kelompok.
Algoritma
yang sering di pakai untuk pengelompokan data adalah Algoritma K-Means.
a. Asosiasi
Analisis asosiasi atau
association rule mining adalah teknik data mining untuk menemukan aturan
assosiatif antara suatu kombinasi item.
Contoh aturan assosiatif dari analisa pembelian di
suatu pasar swalayan adalah dapat diketahuinya berapa besar kemungkinan seorang
pelanggan membeli roti bersamaan dengan susu.
Dengan pengetahuan tersebut pemilik pasar swalayan
dapat mengatur penempatan barangnya ataumerancang kampanye pemasaran dengan
memakai kupon diskon untuk kombinasi barang tertentu.
Analisis asosiasi menjadi terkenal karena aplikasinya
untuk menganalisa isi keranjang belanja di pasar swalayan. Analisis asosiasi
juga sering disebut dengan istilah market basket analysis.
Analisis asosiasi dikenal juga sebagai salah satu
teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya.
Khususnya salah satu tahap dari analisis asosiasi yang
disebut analisis pola frequensi tinggi (frequent pattern mining) menarik
perhatian banyak peneliti untuk menghasilkan algoritma yang efisien.
Penting tidaknya suatu aturan assosiatif dapat
diketahui dengan dua parameter, support (nilai penunjang) yaitu persentase
kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu
kuatnya hubungan antar item dalam aturan assosiatif.
Aturan assosiatif biasanya dinyatakan dalam bentuk :
{roti,
mentega} _ {susu} (support = 40%, confidence = 50%)
Yang artinya : “50% dari transaksi di database yang
memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh
transaksi yang ada di database memuat ketiga item itu.”
Dapat juga diartikan : “Seorang konsumen yang membeli
roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini
cukup signifikan karena mewakili 40% dari catatan transaksi selama ini.”
Analisis asosiasi didefinisikan suatu proses untuk
menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support
(minimum support) dan syarat minimum untuk confidence (minimum confidence).
Algoritma yang biasa digunakan untuk analisis asosiasi
adalah Algoritma A Priori.
Penerapan data mining sebagai cabang dari bidang ilmu
komputer sudah cukup banyak digunakan dalam bidang industry bisnis dan lainnya.
Sehingga bisa sangat membantu jika di gunakan dengan tepat.
Demikian ulasan tentang pengertian data mining dan konsepnya dari saya, semoga bisa membantu dan menambah pengetahuan anda tentang data mining.
Demikian ulasan tentang pengertian data mining dan konsepnya dari saya, semoga bisa membantu dan menambah pengetahuan anda tentang data mining.
Komentar
Posting Komentar