data mining

Data mining adalah ekstraksi pola yang menarik dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru.

Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tetapi tidak tahu pola apa yang bisa didapatkan.

Sejarah Data Mining

Data mining muncul sekitar tahun 90-an. Data Mining memang salah satu cabang ilmu komputer yang relatif baru. Dan sampai sekarang orang masih memperdebatkan untuk menempatkan data mining di bidang ilmu mana, karena data mining menyangkut database, kecerdasan buatan (artificial intelligence), statistik, dsb.

Ada pihak yang berpendapat bahwa data mining tidak lebih dari machine learning atau analisa statistik yang berjalan di atas database. Namun pihak lain berpendapat bahwa database berperanan penting di data mining karena data mining mengakses data yang ukurannya besar (bisa sampai terabyte) dan disini terlihat peran penting database terutama dalam optimisasi query-nya.

Kehadiran data mining dilatarbelakangi dengan problema data explosion yang dialami akhir-akhir ini dimana banyak organisasi telah mengumpulkan data sekian tahun lamanya (data pembelian, data penjualan, data nasabah, data transaksi dsb.).

Hampir semua data tersebut dimasukkan denganmenggunakan aplikasi komputer yang digunakan untuk menangani transaksi sehari-hari yang kebanyakan adalah OLTP (On Line Transaction Processing). Bayangkan berapa transaksi yang dimasukkan oleh hypermarket semacam Carrefour atau transaksi kartu kredit dari sebuah bank dalam seharinya dan bayangkan betapa besarnya ukuran data mereka jika nanti telah berjalan beberapa tahun.

Pertanyaannya sekarang, apakah data tersebut akan dibiarkan menggunung, tidak berguna lalu dibuang, ataukah kita dapat me-‘nambang’-nya untuk mencari ‘emas’, ‘berlian’ yaitu informasi yang berguna untuk organisasi kita. Banyak diantara kita yang kebanjiran data tapi miskin informasi.

Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi pemrediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka. Sementara para pelaku bisnis memiliki kebutuhan-kebutuhan untuk memanfaatkan gudang data yang sudah dimiliki, para peneliti melihat peluang untuk melahirkan sebuah teknologi baru yang menjawab kebutuhan ini, yaitu data mining.

Teknologi ini sekarang sudah ada dan diaplikasikan oleh perusahaan-perusahaan untuk memecahkan berbagai permasalahan bisnis. Kebutuhan dari dunia bisnis yang ingin memperoleh nilai tambah dari data yang telah mereka kumpulkan telah mendorong penerapan teknik-teknik analisa data dari berbagai bidang seperti statistik, kecerdasan buatan dsb pada data berskala besar itu.

Ternyata penerapan pada data berskala besar memberikan tantangan-tantangan baru yang akhirnya memunculkan metodologi baru yang disebut data mining ini.

Bermula dari penerapan di dunia bisnis, sekarang ini data mining juga diterapkan pada bidang-bidang lain yang memerlukan analisa data berskala besar seperti bioinformasi dan pertahanan negara.

Jenis-Jenis Data Mining

Berikut ini terdapat beberapa jenis-jenis data mining, terdiri atas:

Market Basket Analysis

Himpunan data yang dijadikan sebagai objek penelitan pada area data mining. Market basket analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanjaannya. Market basket analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah transaksi.

Selanjutnya pola yang ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan ke dalam sebuah area yang berdekatan, merancang tampilan item-item di katalog, merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya.

Dengan menggunakan teknologi data mining, analisis data secara manual tidak diperlukan lagi.

Memory-Based Reasoning

Metode klasifikasi yang digabungkan dengan penalaran berbasis memori. proses menggunakan satu set data untuk membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang objek baru yang diperkenalkan.

Ada dua komponen dasar untuk metode MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi, yang digunakan untuk menggabungkan hasil dari himpunan tetangga untuk sampai pada keputusan.

Cluster Detection

Ada dua pendekatan untuk clustering. Pendekatan pertama adalah dengan mengasumsikan bahwa sejumlah cluster sudah tersimpan dalam data, tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain, disebut clustering agglomerative, dengan asumsi keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item keluar di cluster sendiri, dan proses terjadi berulang-ulang yang berupaya untuk menggabungkan cluster, meskipun proses komputasi sama.

Link Analysis

Proses mencari dan membangun hubungan antara object dalam kumpulan data juga mencirikan sifat yang terkait dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi analitis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk proses optimasi.

Rule Induction

Ekstraksi aturan sebab-akibat dari data secara statistic. identifikasi aturan bisnis yang tersimpan di dalam data. Metode berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Salah satu pendekatan untuk penemuan aturan adalah menggunakan pohon keputusan.

Neural Networks

Model prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang terdapat pada mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren-tren yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya.

Metode Data Mining

Berikut ini terdapat beberapa metode data mining, terdiri atas:

Classification

Classification adalah metode yang paling umum pada data mining. Persoalan bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode Classification.

Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.

Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini.

Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No).

Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebuthan dengan Supervised Algorithm.

Nah, yang termasuk kepada Classification Algorithm adalah Decision Trees, Neural Network dan Naives Bayes.

Clustering

Clustering juga disebut sebagai segmentation. Metoda ini digunakan untuk mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.

Gambar dibawah ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan Income (Pendapatan).

Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini.

Cluster 1 berisi populasi berusia muda dengan pendapatan rendah

Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi

Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah.

Clustering adalah metode data mining yang Unsupervised, karena tidak ada satu atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan sama.

Kebanyakan Algoritma Clustering membangun sebuah model melalui serangkaian pengulangan dan berhenti ketika model tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah stabil).

Association

Association juga disebut sebagai Market Basket Analysis. Sebuah problem bisnis yang khas adalah menganalisa tabel transaksi penjualan dang mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer, misalnya apabila orang membeli sambal, biasanya juga dia membeli kecap. Kesamaan yang ada dari data pembelian digunakan untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling

Anda bisa lihat disini, beberapa hal dapat kita baca, misalnya :

Ketika orang membeli susu, dia biasanya membeli keju

Ketika orang membeli pepsi atau coke, biasanya dia membeli juice

Didalam istilah association, setiap item dipertimbangkan sebagai informasi.

Metode association memiliki dua tujuan:

Untuk mencari produk apa yang biasanya terjual bersamaan

Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut.

Regression

Metode Regression mirip dengan metode Classification, yang membedakannya adalah metode regression tidak bisa mencari pola yang dijabarkan sebagai class (kelas).

Metoda regression bertujuan untuk mecari pola dan menentukan sebuah nilai numerik.

Sebuah Teknik Linear Line-fitting sederhana adalah sebuah contoh dari Regression, dimana hasilnya adalah sebuah fungsi untuk menentukan hasil yang berdasarkan nilai dari input.

Bentuk yang lebih canggih dari regression sudah mendukung input berupa kategori, jadi tidak hanya input berupa numerik. Teknik paling popular yang digunakan untuk regression adalah linear regression dan logistic regression. Teknik lain yang didukung oleh SQL Server Data mining adalah Regression Trees (bagian dari dari algoritma Microsoft Decission Trees) dan Neural Network.

Regression digunakan untuk memecahkan banyak problem bisnis – contohnya untuk memperkirakan metode distribusi, kapasitas distribusi, musim dan untuk memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban.

Forecasting

Forecasting juga adalah metode data mining yang sangat penting. Contohnya digunakan untuk menjawab pertanyaan seperti berikut:

Seperti apa jadinya nilai saham dari Microsoft Corporation (pada NASDAQ, disimbolkan sebagai MSFT) pada keesokan hari?

Sebanyak apa penjualan produk tertentu pada bulan depan?

Teknik Forecasting dapat membantu menjawab pertanyaan-pertanyaan diatas. Sebagai inputnya teknik Forecasting akan mengambil sederetan angka yang menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik Forecasting ini akan menghubungkan nilai masa depan dengan menggunakan bermacam-macam teknik machine-learning dan teknik statistik yang berhubungan dengan musim, trend, dan noise pada data.

Gambaranya dapat anda lihat sebagai berikut:

Gambar diatas menunjukkan dua kurva, garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu.

Sequence Analysis

Sequence Anlysis digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence. Sebagai contoh sebuah DNA terdiri dari rangaian bagian: A, G, C, dan T. dan rangkaian klik pada sebuah website berisi rentetan URL. Pada kejadian nyata anda mungkin memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data, rangkaian tersebut adalah:

Pertama-tama Seorang pelanggan membeli komputer

kemudian membeli speaker

dan akhirnya membeli sebuah webcam.

Baik Sequence maupun time-series data mempunyai kemiripan, mereka sama sama berisi tinjauan berdekatan yang urutannya bergantung. Bedanya adalah sebuah time-series berisi data bertipe numerik, dan sebuah sequence series berisi bagian yang khas.

Gambar dibawah ini menunjukan rangkaian klik pada sebuah website berita. Setiap node adalah sebuah kategori URL. Dan garis melambangkan transisi antar kategori URL tersebut. Setiap transisi di kelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain.

7. Deviation Analysis

Deviation Analysis digunakan untuk mencari kasus yang bertindak sangat berbeda dari normalnya. Deviation analysis pengguaannya sangat luas, yang paling umum menggunakan metode ini adalah pendeteksian penyalah gunaan Kartu kredit. Mengidentifikasi kasus yang tidak normal diantara jutaan transaksi adalah pekerjaan yang sangat menantang. Penggunaan yang lainnya misalnya, pendeteksian gangguan jaringan komputer, analisa kesalahan produksi, dan lain-lain.

Tidak ada teknik standar dalam deviation analysis. Hanya saja biasanya para analis menggunakan decision trees, clustering atau neural network untuk pekerjaan ini.

Langkah-Langkah dalam Data Mining

Berikut ini terdapat beberapa langkah-langkah dalam data mining, terdiri atas:

Pembersihan data : Biasanya terdapat data yang kurang bagus untuk dimasukkan dalam kelengkapan data perusahaan karena hanya akan dianggap tidak valid bahkan untuk data yang hilang. Sehingga data yang seperti itu lebih baik dibuang.

Integrasi data : yaitu menggabungkan berbagai sumber data.

Transformasi data : Beberapa teknik data mining memerlukan format data yang khusus sebelum bisa digunakan dan disebarluaskan. Dalam tahap ini, dilakukan pula pemilihan data yang dibutuhkan oleh teknik data mining yang akan dipakai. Tahap inilah yang akan menentukan kualitas dari data mining.

Aplikasi teknik data mining : Ini merupakan salah satu langkah dari proses data mining. Gunakan teknik data mining yang sesuai dengan hasil yang dibutuhkan.

Evaluasi pola yang ditemukan: Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesis yang ada memang tercapai.

Presentasi pola : Tahap terakhir dari proses data mining adalah bagaimana formulasi keputusan atau aksi dari hasil analisis dari data mining. Dalam presentasi ini, visualisasi juga dapat membantu mengkomunikasikan hasil data mining atau pola ke pengguna.

Teknik Penggalian Data (Data Mining)

Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan:

Karakterisasi dan Diskriminasi: yaitu menggeneralisasi, merangkum, dan mengkontraskan karakteristik data.

Penggalian pola berulang: yaitu pencarian pola asosiasi (association rule) atau pola intra-transaksi, atau pola pembelian yang terjadi dalam satu kali transaksi.

Klasifikasi: yaitu membangun suatu model yang bisa mengklasifikasikan suatu objek berdasar atribut-atributnya. Kelas target sudah tersedia dalam data sebelumnya, sehingga fokusnya adalah bagaimana mempelajari data yang ada agar klasifikator bisa mengklasifikasikan sendiri.

Prediksi: yaitu memprediksi nilai yang tidak diketahui atau nilai yang hilang, menggunakan model dari klasifikasi.

Penggugusan/Cluster analysis: yaitu mengelompokkan sekumpulan objek data berdasarkan kemiripannya. Kelas target tidak tersedia dalam data sebelumnya, sehingga fokusnya adalah memaksimalkan kemiripan intrakelas dan meminimalkan kemiripan antarkelas.

Analisis outlier: yaitu proses pengenalan data yang tidak sesuai dengan perilaku umum dari data lainnya. Contoh: mengenali noise dan pengecualian dalam data.

Analisis trend dan evolusi: meliputi analisis regresi, penggalian pola sekuensial, analisis periodisitas, dan analisis berbasis kemiripan.

Berikut ini adalah 10 algoritma penggalian data yang paling populer berdasarkan konferensi ICDM ’06, semua algoritma dinominasikan oleh para pemenang ACM KDD Innovation Award dan IEEE ICDM Research Contributions Award :

C4.5 (61 suara)

k-Means (60 suara)

SVM (58 suara)

Apriori (52 suara)

EM (48 suara)

PageRank (46 suara)

AdaBoost (45 suara)

kNN (45 suara)

Naive Bayes (34 suara)

Berikut ini adalah yang hanya masuk nominasi:

CART

FP-Tree

HITS

BIRCH

GSP

PrefixSpan

CBA

Finding Reduct

gSpan

Proses Data Mining

Enam fase CRISP-DM ( Cross Industry Standard Process for Data Mining) (Larose, 2006), terdiri atas:

1. Fase Pemahaman Bisnis (Business Understanding Phase)

Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.

Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining.

Menyiapkan strategi awal untuk mencapai tujuan.

2. Fase Pemahaman Data (Data Understanding Phase)

Mengumpulkan data.

Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.

Mengevaluasi kualitas data.

Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan

3. Fase Pengolahan Data (Data Preparation Phase)

Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.

Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan.

Lakukan perubahan pada beberapa variabel jika dibutuhkan.

Siapkan data awal sehingga siap untuk perangkat pemodelan.

4. Fase Pemodelan (Modeling Phase)

Pilih dan aplikasikan teknik pemodelan yang sesuai.

Kalibrasi aturan model untuk mengoptimalkan hasil.

Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.

Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.

5. Fase Evaluasi (Evaluation Phase)

Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.

Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal.

Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik.

Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.

6. Fase Penyebaran (Deployment Phase)

Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.

Contoh sederhana penyebaran: Pembuatan laporan.

Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain.

Contoh Data Mining

Penggunaan data mining dalam kehidupan sehari-hari:

Dalam bidang kesehatan

Sekarang ini sistem informasi rumah sakit mulai menerapkan sistem informasi berbasis komputer untuk mendukung manajemen keuangan, khususnya dipakai untuk billing systems (sistem pembayaran).

Dalam bidang perkantoran

Sebagai alat absen sidik jari (finger print).

Dalam bidang olahraga

Sebagai sensor atau alat untuk mencatat jumlah statistik pada statistik sepak bola, basket, tenis, voli, dll.

Dalam bidang telekomunikasi

Sebagai sarana statistik untuk mencatat kepadatan jumlah penelepon di jam tertentu (jam sibuk / bukan) sehingga operator dapat memberikan tarif tertentu bagi pelanggan.

MALIK CYBER

data mining

0 Response to "data mining"