Data Mining



Data Mining
Pengertian Data Mining
Data mining merupakan suatu proses penjelajahan atau mencari otomatis untuk mendapatkan informasi berguna dalam suatu repository data yang sangat besar.
Ada banyak nama lain dari data mining seperti Knowledge discovery databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence.



Konsep Data mining
Data Mining merupakan bagian yang terintegrasi dari Knowledge Discovery in Databases (KDD). Bertujuan untuk proses transformasi data mentah menjadi informasi berguna.
Jika di gambarkan secara detail tahapan KDD menjadi 5 tahap. Berikut Tahapannya :

1. Seleksi
Bertujuan mentransformasikan data mentah ke format yang sesuai untuk analisis. Terdiri atas proses seleksi fitur, reduksi dimensionalitas, normalisasi dan subsetting data. Proses penyeleksian atau segmentasi data menurut beberapa criteria. Misal, Orang – orang yang mempunyai mobil.
2. Preprocessing
Bertujuan untuk menjamin bahwa hasil proses data mining yang diintegrasikan pada system penunjang keputusan, benar-benar hasil yang valid. Proses pembersihan data, dimana informasi yang tidak dibutuhkan dibuang. Misal, Jenis kelamin pasien untuk analisis kehamilan.
Data dikonfigurasi ulang untuk memastikan format yang konsisten karena berasal dari berbagai sumber. Misal, Jenis kelamin disimpan dengan bentuk f atau m dan 1 atau 0.
3. Transformasi
Proses transformasi sehingga data menjadi berguna dan dapat ditelusuri.
4. Data Mining
Proses yg berfokus pada ekstraksi pola-pola data. Pola dapat didefinisikan sebagai sekumpulan fakta-fakta (data) F, bahasa L, dan beberapa measure of certainty (pengukuran kepastian) C.
Suatu pola dinyatakan S dalam L menggambarkan keterhubungan antara subset Fs dari F dengan kepastian c dimana S adalah simpel dibandingkan perhitungan semua fakta dalam Fs.
5. Interpretasi & Evaluasi
Pola diidentifikasi sistem, lalu diinterpretasikan sebagai pengetahuan yg dapat digunakan untuk mendukung pengambilan keputusan manusia, contoh :
·         Tugas, prediksi & klasifikasi.
·         Meringkas konten suatu database.
·         Menjelaskan fenomena yang diamati.
 Fungsi Umum Data Mining
Fungsi dalam data mining bisa diartikan sebagai sub kegiatan yang ada dalam data mining rangka menemukan, menggali, atau menambang pengetahuan. Secara global fungsi utama data mining adalah sebagai berikut :

a.      Klasifikasi
Proses untuk menyatakan suatu objek kesalah satu kategori yang sudah didefinisikan sebelumnya. Proses pembelajaran fungsi target (model klasifikasi)  yang memetakan setiap sekumpulan atribut x (input) kesalah satu kelas yang didefinisikan sebelumnya.
·         Input : sekumpulan record (training set).
·         Setiap record terdiri atas sekumpulan atribut, salah satu atribut adalah kelas. Mencari model untuk atribut kelas sebagai fungsi dari nilai-nilai untuk atribut yang lain.
Tujuannya adalah record-record yang sebelumnya tidak terlihat dinyatakan kelasnya seakurat mungkin. Ada banyak sekali algoritma yang terdapat pada teknik klasifikasi , berberapa diantaranya seperti :
  • ·         Holte
  • ·         Prism
  • ·         Naïve Bayes
  • ·         ID3
  • ·         K-Nearest Neighbor
  • ·         B.  Pengelompokan / Clustering


b.    a.      Clusstering
Clustering adalah metode penganalisaan data yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke ‘wilayah’ yang lain.

Ø  Perbedaan clustering dengan classification
Dataset yang digunakan pada clustering tidak menampilkan class / target attribute, sedangkan dataset yang digunakan pada classification mutlak harus menampilkan class / target attribute.
Pengetahuan yang dihasilkan oleh metode clustering berupa cluster hasil pengelompokan, sedangkan pengetahuan yang dihasilkan oleh metode classification berupa selain cluster (bisa Decision Tree, Ruleset, Weight pada BackPropagation, dan lain-lain).
clustering dipakai ketika tidak diketahuinya bagaimana data harus dikelompokkan. Jumlah kelompok diasumsikan sendiri tanpa ditentukan terlebih dahulu.
Keluaran pendekatan ini adalah data yang sudah dikelompokkan. Sedangkan classification, terdapat informasi mengenai bagaimana data tersebut dikelompokkan.
Kemudian dilakukan training pada sistem dengan data yang sudah diberikan label (ke dalam kelompok manakah data tersebut dikelompokkan), selanjutnya sistem akan mengklasifikasikan data-data yang baru ke dalam kelompok yang ada. Tidak akan ada pertambahan kelompok.
Algoritma yang sering di pakai untuk pengelompokan data adalah Algoritma K-Means.
a.      Asosiasi
Analisis asosiasi atau association rule mining adalah teknik data mining untuk menemukan aturan assosiatif antara suatu kombinasi item.
Contoh aturan assosiatif dari analisa pembelian di suatu pasar swalayan adalah dapat diketahuinya berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu.
Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya ataumerancang kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.
Analisis asosiasi menjadi terkenal karena aplikasinya untuk menganalisa isi keranjang belanja di pasar swalayan. Analisis asosiasi juga sering disebut dengan istilah market basket analysis.
Analisis asosiasi dikenal juga sebagai salah satu teknik data mining yang menjadi dasar dari berbagai teknik data mining lainnya.
Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis pola frequensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk menghasilkan algoritma yang efisien.
Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang) yaitu persentase kombinasi item tersebut dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif.
Aturan assosiatif biasanya dinyatakan dalam bentuk :
{roti, mentega} _ {susu} (support = 40%, confidence = 50%)
Yang artinya : “50% dari transaksi di database yang memuat item roti dan mentega juga memuat item susu. Sedangkan 40% dari seluruh transaksi yang ada di database memuat ketiga item itu.”
Dapat juga diartikan : “Seorang konsumen yang membeli roti dan mentega punya kemungkinan 50% untuk juga membeli susu. Aturan ini cukup signifikan karena mewakili 40% dari catatan transaksi selama ini.”
Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence).
Algoritma yang biasa digunakan untuk analisis asosiasi adalah Algoritma A Priori.
Penerapan data mining sebagai cabang dari bidang ilmu komputer sudah cukup banyak digunakan dalam bidang industry bisnis dan lainnya. Sehingga bisa sangat membantu jika di gunakan dengan tepat.
Demikian ulasan tentang pengertian data mining dan konsepnya dari saya, semoga bisa membantu dan menambah pengetahuan anda tentang data mining.










Komentar

Postingan populer dari blog ini

NFA DENGAN ε - MOVE

Ekuivalensi Antar DFA