KDD, SEMMA, Dan Crisp-DM Mining Data



KDD,SEMMA Dan Crisp-DM




a.     KDD (by Fayyad et. al., 1996)

Terdapat lima tahap dalam proses ini, yaitu:
1.     Selection: Membuat sebuah target data, fokus dalam bagian dari variabel atau sampel data yang mana discovery akan dilakukan.
2.     Preprocessing: Cleaning target data dengan tujuan mendapatkan data yang konsisten
3.     Transformation: Transformasi data menggunakan reduksi dimensional atau metode transformasi
4.     Data Mining: Mencari pola menarik di dalam sebuah bentuk tertentu, begantung dari tujuan data mining (biasanya prediksi)
5.     Interpretation/Evaluation: Interpretasi dan evaluasi dari pola yang sudah dimining.

a.     SEMMA (by SAS Institute)
Terdapat lima tahap juga dalam proses ini, yaitu:
1.     Sample: Mengambil sampel data. Tahap ini merupakan opsional
2.     Explore: Mengeksplorasi data untuk pola dan keanehan yang tidak diharapkan dengan tujuan untuk mendapatkan pengertian dan ide
3.     Modify: Memodifikasi data dengan membuat, menyeleksi dan mentransformasi variabel-variabel untuk fokus pada proses pemilihan model
4.     Model: Memodelkan data dengan menyediakan software untuk mencari kombinasi data yang memprediksi hasil terpercaya yang diinginkan secara otomatis

5.     Assess: Menilai data dengan mengevaluasi kegunaan dan keandalan penemuan dari proses data mining dan mengevaluasi sebaik mana itu bekerja



a.     Crisp-dm
Proses pencarianpoladata yang tidakdiketahuiatautidakdiperkirakansebelumnya.
~Adelman~
Merupakan serangkaian proses pencarian nilai, lebih dari suatu kumpulan data yang berisi pengetahuan dan belum pernah diungkap secara manual.
~Iko Pramudiono~
Proses pengidentifikasian sekumpulan data yang tersimpan dalam tempat penyimpanan, melalui teknik-teknik pengenalan pola seperti matematika dan teknik statistik.
~Gartner Group~
CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor industri. Gambar menjelaskan tentang siklus hidup pengembangan data mining. Berikut ini adalah enam tahap siklus hidup pengembangan data mining
(Chapman dkk, 2000) :    
1.     Business Understanding
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemahkan pengetahuan ini ke dalam pendefinisian masalah pada data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut.
2.      Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.    
3.      Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan) dari data mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel, record, dan atribut-atribut data, termasuk proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan.
4.     Modelling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan kembali ke tahap sebelumnya.    
5.     Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal (Business Understanding). Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.
6.     Deployment
 Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses data mining yang berulang dalam perusahaan. Pada banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.   

referensi
http://www.kuliahkomputer.com/2018/07/crisp-dm.html
https://datadansastra.wordpress.com/2016/07/25/kdd-semma-and-crisp-dm/



Komentar

Posting Komentar

Postingan populer dari blog ini

NFA DENGAN ε - MOVE

Ekuivalensi Antar DFA