SISTEM INFORMASI PERUSAHAAN

DATA MINING

Dosen Pengampuh Mata Kuliah

Syaripuddin Buhaira M.Kom

Di Susun Oleh : Materi 10

1) Azizatul Maghfiroh (8040140166)

2) Nia Audina (8040140072)

3) Nurbaya (8040140151)

4) Ristiana (8040140063)

5) Widya Septya Ningrum (8040140217)

Kelas : 03ps3

Program Study : Sistem Informasi

Yayasan Dinamika Bangsa

Sekolah Tinggi Ilmu Komputer

STIKOM DINAMIKA BANGSA

Jambi 2016

KATA PENGANTAR

Puji syukur kehadirat Tuhan Yang Maha Esa yang telah memberikan taufik dan hidayahnya, sehingga kami mampu menyelesaikan makalah ini dengan judul “ Data Mining“.

Namun penyusun menyadari bahwa dalam penyusunan makalah ini masih jauh dari kesempurnaa. Maka dari itu penyusun mengharapkan saran dan kritik yang sifatnya membangun kesempurnaan makalah ini.

Dalam penyusunan makalah ini tidak lepas dari berbagai pihak. Dari itu penyusun menyampaikan rasa terimakasih kepada semua pihak yang telah membantu sehinnga makalah ini dapat diselesaikan tepat pada waktunya.

Semoga makalah ini bermanfaat bagi penulis pada khususnya dan bagi pembaca pada umumnya.

Jambi, Januari 2016

Penyusun

DAFTAR ISI

Halaman

Kata pengantar.................................................................................................... i

Daftar isi............................................................................................................. ii

BAB I PENDAHULUAN

1.1 Latar Belakang.............................................................................................. 1

1.2 Rumusan Masalah......................................................................................... 2

1.3 Tujuan........................................................................................................... 2

1.4 Manfaat......................................................................................................... 2

BAB II PEMBAHASAN

2.1 Pengertian Data Mining................................................................................ 3

2.2 Fungsi dan Tujuan Data Mining................................................................... 5

2.2.1 Fungsi Data mining............................................................................. 5

2.2.2 Tujuan Data Mining............................................................................ 7

2.3 Tahap-Tahap Data mining............................................................................. 9

2.3.1 Disiplin Ilmu Dan Teknik-Teknik Data Mining.................................. 12

2.3.2 Teknik Data Mining............................................................................ 14

2.3.3 Arsitektur Sistem Data Mining........................................................... 15

2.3.4 Tugas-Tugas Dalam Data Mining....................................................... 17

2.4 Metode-Metode Data Mining...................................................................... 18

2.5 Penerapan Data Mining................................................................................ 28

2.5.1 Proses Data Mining............................................................................. 29

2.5.2 Jenis-jenis Data Mining....................................................................... 30

2.6 Aplikasi Data Mining.................................................................................... 33

BAB III PENUTUP

3.1 kesimpulan.................................................................................................... 39

3.2 Saran............................................................................................................. 39

DAFTAR PUSTAKA

BAB I

PENDAHULUAN

1.1 Latar Belakang

Dewasa ini kemajuan teknologi informasi dan komputer telah menyediakan fasilitas penyimpanan data dalam format elektronik sehingga penyimpanan data bukan lagi menjadi satu pekerjaan yang sulit. Sebagai konsekuensinya jumlah data yang disimpan mengalami peningkatan yang sangat cepat dari segi kuantitas dan kualitas. Pada institusi pendidikan tinggi data dapat diperoleh dari data historis dan data kegiatan operasional sebuah perguruan tinggi, dimana data ini akan bertambah secara terus menerus, sehingga proses eksplorasi data dalam menentukan hubungan antar variabel didalam data menjadi sangat lambat dan memiliki proses yang subjektif. Salah satu Solusi yang mungkin digunakan untuk menangani masalah ini adalah konsep menemukan pengetahuan di dalam pangkalan data.

Ketersediaan data yang berlimpah yang dihasilkan dari penggunaan teknologi informasi di hampir semua bidang kehidupan, menimbulkan kebutuhan untuk dapat memanfaatkan informasi dan pengetahuan yang terkandung di dalam limpahan data tersebut, yang kemudian melahirkan data mining. Data mining merupakan proses untuk menemukan pengetahuan (knowledge discovery) yang ditambang dari sekumpulan data yang volumenya sangat besar. Aplikasi data mining pada pengelolaan bisnis, pengendalian produksi, dan analisa pasar misalnya, memungkinkan diperolehnya pola dan hubungan yang dapat dimanfaatkan untuk peningkatan penjualan, atau pengelolaan sumber daya dengan lebih baik.

Data mining adalah suatu konsep yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalam database. Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar. (Turban et al, 2005 ). Data mining adalah bagian dari proses KDD (Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil (Maimon dan Last, 2000). KDD secara umum juga dikenal sebagai pangkalan data.

1.2 Rumusan Masalah

1. Apa Yang Dimaksud Dengan Data Mining?

2. Apa Saja Fungsi Dan Tujuan Dari Data Mining?

3. Ada Berapakah Tahap-Tahapan di Dalam Data Mining?

4. Ada Berapakah Metode Dalam Data Mining?

5. Bagaimana Penerapan Data Mining Dalam Kehidupan?

6. Apa Saja Contoh Dari Aplikasi Data Mining?

1.3 Tujuan

Dari makalah yang kami buat untuk memenuhi tugas matakuliah Sistem Informasi Perusahaan. Juga untuk mengetahui lebih luas tentang data mining. Serta untuk menambah wawasan atau pengetahuan penyusun atau bagi yang membacanya.

1.4 Manfaat

Hasil makalah yang kami buat ini diharapkan dapat memberikan manfaat-manfaat sebagai berikut

1. Untuk mengetahui definisi atau pengertian dari Data Mining.

2. Untuk mengetahui kegunaan Data Mining.

BAB II

PEMBAHASAN

2.1 Pengertian Data Mining

Banyak sekali definisi mengenai apa itu data mining. Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (Artificial Intelligent), machine learning, statistik dan database.

Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.

Data Mining mengeksplorasi basis data untuk menemukan pola-pola yang tersembunyi, mencari informasi untuk memprediksi yang mungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.

Data mining adalah proses yang menggunakan berbagai perangkat analisis data untuk menemukan pola hubungan dalam data yang mungkin dapat di gunakan untuk membuat prediksi yang valid.

Pengertian data mining menurut para Ahli:

Paramudiono (2006) : Mengemukakan bahwa data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak di ketahui secara manual.

Lalu Larose : Berpendapat bahwa data mining adalah bidang yang di gabung dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan visualisasi untuk pengenalan permasalahn pengambilan informasi dari data base yang benar.

Turban,dkk.(2005) : Data mining dalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan mesin learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait sebagai data base besar.

Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang tersimpan di dalam database besar. (Turban et al, 2005 ). Data mining adalah bagian dari proses KDD ( Knowledge Discovery in Databases) yang terdiri dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi hasil (Maimon dan Last, 2000). KDD secara umum juga dikenal sebagai pangkalan data.

DATA MINING

Data mining merupakan proses untuk menggalian pola-pola dari data.

Gambar 2.1 Data Mining

2.2 Fungsi dan Tujuan Data Mining

1.2.1 Fungsi Data mining

Data Mining mengidentifikasi fakta- fakta atau kesimpulan-kesimpulan yang di sarankan berdasarkan penyaringan melalui data untuk menjelajahi pola-pola atau anomali-anomali data. Data Mining mempunyai 7 fungsi:

1. Classification

Classification, yaitu menyimpulkan definisi-definisi karakteristik sebuah grup. Contoh: pelanggan-pelanggan perusahaan yang telah berpindah kesaingan perusahaan yang lain.

Metode yang paling umun pada data mining. Persoalan bisnis seperti Chrun Analiysis, dan Risk Management biasanya melibatkan metode classification

Gambar 2.2 : Model Klasifikasi

Keuntungan Classifikasi

· Predictive accurasy

· Hit Rate

· Speed

· Model Building, Predicting

· Robustness

· Scalability

· Interprability

· Transparency, explainability

Gambar 2.3 : Keuntungan Model Klasifikasi

2. Clustering

Clustering, yaitu mengindentifikasikan kelompok-kelompok dari barang-barang atau produk-produk yang mempunyai karakteristik khusus(clustering berbeda dengan classification, dimana pada clustering tidak terdapat definisi-definisi karakteristik awak yang di berikan pada waktu classification.)

3. Association

Association, yaitu mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada suatu waktu, seperti isi-isi dari keranjang belanja.

4. Sequencing

Hampir sama dengan association, sequencing mengidentifikasikan hubungan-hubungan yang berbeda pada suatu periode waktu tertentu, seperti pelanggan-pelanggan yang mengunjungi supermarket secara berulang-ulang.

5. Regretion

Adalah proses pemetaan data dalam suatu nilai prediksi

6. Forecasting

Forecasting memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola dengan sekumpulan data yang besar, seperti peramalan permintaan pasar.

7. Solution

Solution adalah proses penemuan akar masalah dan problem solving dari persoalan bisnis yang dihadapkai atau paling tidak sebagai informasi dalam pengambilan keputusan.

2.2.2 Tujuan Data Mining

Tujuan data mining antara lain:

1. Explanatory

Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick up meningkat di colorado.

2. Confirmatory

Untuk mempertegas hipotesis, seperti halnya 2 kali pendapatan keluarga lebih suka di pakai untuk membeli peralatan keluarga, di bandingkan dengan satu kali pendapatan keluarga.

3. Exploratory

Menganalisis data untuk hubungan yang baru yang tidak di harapkan, seperti halnya pola apa yang cocok untuk kasus penggelapan kartu kredit.

· Kelebihan Dan Kekurangan Data Mining

A. Kelebihan Data Mining

1. Kemampuan dalam mengolah data dalam jumlah yang besar.

2. Pencarian data secara otomatis.

B. Kekurangan data mining

1. Kendala data base (Garbage in Garbage out).

2. Tidak bias melakukan analisa sendiri.

· Karakteristik Data Mining

Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi (Davies, 2004).

· Pengenalan Pola, Data Mining, dan Machine Learning

Pengenalan Pola adalah suatu disiplin ilmu yang mempelajari cara-cara mengklasifikasikan obyek ke beberapa kelas atau kategori dan mengenali kecenderungan data. Tergantung pada aplikasinya, obyek-obyek ini bisa berupa pasien, mahasiswa, pemohon kredit, image atau signal atau pengukuran lain yang perlu diklasifikasikan atau dicari fungsi regresinya (Santoso, 2007).

Data mining, sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern recognition jarang digunakan karena termasuk bagian dari data mining (Santoso, 2007).

Machine Learning adalah suatu area dalam artificial intelligence atau kecerdasan buatan yang berhubungan dengan pengembangan teknik-teknik yang bisa diprogramkan dan belajar dari data masa lalu. Pengenalan pola, data mining dan machine learning sering dipakai untuk menyebut sesuatu yang sama. Bidang ini bersinggungan dengan ilmu probabilitas dan statistik kadang juga optimasi. Machine learning menjadi alat analisis dalam data mining. Bagaimana bidang-bidang ini berhubungan bisa dilihat dalam gambar 2.4 (Santoso, 2007).

2.3 Tahap-Tahap Data mining

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang diilustrasikan di Gambar 2.4. Tahap-tahap tersebut bersifat interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.

Gambar 2.4 Tahap-tahap Data Mining (Han. 2006)

Tahap-tahap data mining ada 7 yaitu :

1. Pembersihan Data Integritas Data (Data Cleaning & Integration)

Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.(yaitu menghapus data pengganggu (noise) dan mengisi data yang hilang.) untuk membuang data yang tidak konsisten dan bersifat noise dari data yang terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang kemudian dinintegrasikan dalam satu database datawarehouse.

2. Integrasi data (data integration)

Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada. ( yaitu menggabungkan berbagai sumber data)

3. Seleksi Data (Data Selection)

Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh,sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. ( yaitu memilih data yang relevan)

Beberapa cara seleksi, antara lain:

A. Sampling, adalah seleksi subset representative dari populasi data yang besar

B. Denoising, adalah proses menghilangkan noise dari data yang akan ditranformasikan

C. Feature extraction, adalah proses membuka spesifikasi data yang signifikan dalam konteks tertentu.

4. Transformasi data (Data Transformation)

Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data.( yaitu mentransformasi data ke dalam format untuk diproses dalam penggalian data)

Transformasi data diperlukan sebagai tahap pre-procecing, dimana data yang siap untuk ditambang. Beberapa cara transformasi, antara lain:

A. Centering, mengurangi setiap data dengan rata-rata setiap atribut yang ada

B. Normalisation, membagi setiap data yang dicentering dengan standar deviasi dari atribut yang bersangkutan

C. Scaling, mengubah data sehingga berada dalam skala tertentu

5. Proses mining

Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. ( yaitu menerapkan metode cerdas untuk ekstraksi pola)

6. Evaluasi pola (pattern evaluation)

Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.( yaitu mengenali pola-pola yang menarik saja.)

7. Presentasi pengetahuan (knowledge presentation)

Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, visualisasi juga bisa membantu mengkomunikasikan hasil data mining (yaitu memvisualisasi pola ke pengguna)

2.3.1 Disiplin Ilmu Dan Teknik-Teknik Data Mining

Pengertian Teknik Data Mining

Teknik Data Maining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai Data Maining. Sebagai contoh, pencarian record individual menggunakan database management system atau pencarian web tertentu melalui query kesemua searce engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval. Teknik-teknik data maining dapat digunakan untuk meningkatkan kemampuan sistem-sistem information retrieval.

· Data mining dalam penerapannya menggabungkan berbagai bidang ilmu, antara lain: Sistem basis data, statistic, sistem cerdas, pembelajaran mesin, pengenalan pola, dan visualisasi.

Contoh aplikasi beserta fungsi dan teknik yang dipergunakan

Contoh Aplikasi	Fungsi	Teknik
Basket Market Analisis	Assosiation	Statistik Dan Teori Himpunan
Pola Kunjungan Konsumen	Seccuence	Statistik Dan Teori Himpunan
Segementasi Pasar	Clustering	Jaringan Syaraf Tiruan, Statistik, Optmalisasi, Analisis Diskriminan
Target Pemasaran	Classification	Pohon Keputusan Dan Jaringan Syaraf Tiruan
Prediksi Penjualan	Regretion	Statistik, Regresi Linear, Regresi non Linear, Kurva, Jaringan Syaraf Tiruan,
Pola Permintaan	Forecasting	Statistik, Regresi Linear, Regresi non Linear, Kurva, Jaringan Syaraf Tiruan, Pengenalan Pola
Ptimasi Jumlah Produk	Solution	Regresi, Logika Samar, SistemPakar, Algoritma Genetika

Tabel 2.1 : Contoh aplikasi beserta fungsi dan teknik yang dipergunakan

2.3.2 Teknik Data Mining

Sebelum mengetahui teknik-teknik yang dapat digunakan dalam data mining terdapat empat operasi yang dapat dihubungkan dengan data mining sebagai berikut.

a. Predictive modeling

Ada dua teknik yang dapat dilakukan dalam predictive modeling, yaitu:

· Classification

Digunakan untuk membuat dugaan awal tentang class yang spesifik untuk setiap record dalam database dari satu setnilai class yang mungkin.

· Value Prediction

Digunakan untuk memperkirakan nilai numeric yang kontinu yang trasosiasi dengan record database. Teknik ini menggunakan teknik statistic klasik dari linier regression dan nonlinier regression.

b. Database Segmentation

Tujuan dabase segmentation adalah untuk mempartisi database menjadi sejumlah segmen, cluster, atau record yang sama, dimana record tersebut diharapkan homogen.

c. Link Analysis

Tujuan link analysis adalah untuk membuat hubungan antara record yang individual atau sekumpulan record dalam database. Aplikasi pada link analysis meliputi product affinity analysis, direct marketing, dan stock price movement.

d. Deviation Detection

Teknik ini sering kali merupakan sumber dari penemuan yang benar karena teknik ini mengidentifikasi outlier yang mengekspresikan deviasi dari ekspektasi yang telah diketahui sebelumnya. Operasi ini dapat ditampilkan menggunakan teknik statistik dan visualisasi.

Aplikasi deviation detection misalnya pada deteksi penipuan dalam penggunaan kartu kredit dan klaim asuransi, quality control, dan defect tracing.

2.3.3 Arsitektur Sistem Data mining

Data mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki komponen-komponen utama yaitu:

1. Basis Data, data warehouse atau tempat penyimpanan informasi lainnya.

2. Basis Data Dan Data Warehouse Server. Komponen ini bertanggung jawab dalam pengambilan relevant data, berdasarkan permintaan pengguna.

3. Basis Pengetahuan. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliputi hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut ke dalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh. Contoh lain dari domain knowledge adalah threshold dan metadata yang menjelaskan data dari berbagai sumber yang heterogen.

4. Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri modul-modul fungsional data mining seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster.

5. Modul Evaluasi Pola. Komponen ini menggunakan ukuran-ukuran kemenarikan dan berinteraksi dengan modul data mining dalam pencarian pola-pola menarik. Modul evaluasi pola dapat menggunakan threshold kemenaikan untuk mem-filter pola-pola yang diperoleh.

6. Antarmuka Pengguna Grafis. Modul ini berkomunikasi dengan pengguna dan sistem data mining. Melalui modul ini, pengguna berinteraksi dengan sistem mengan menentukan kueri atau task data mining. Antarmuka juga menyediakan informasi untuk memfokuskan pencarian dan melakukan eksplorasi data mining berdasarkan hasil data mining antara. Komponen ini juga memungkinkan pengguna untuk mencari (browse) basis data dan skema data warehouse atau struktur data, evaluasi pola yang diperoleh dan visualisasi pola dalam berbagai bentuk.

Data mining dapat diaplikasikan pada berbagai jenis penyimpanan data seperti basis data relational, data warehouse, transactional database, object-oriented and object-relational databases, spatial databases, time-series data and temporal data, text databases and multimedia databases, heterogeneous and legacy databases dan WWW.

1. Basis data Relasional Basis data relasional merupakan koleksi dari table. Setiap table berisi atribut (field) dan biasanya menyimpan sejumlah besar tuple (record). Setiap tuple dalam table relasional merepesentasikan sebuah objek yang diidentifikasikan oleh kunci unik dan dideskripsikan oleh sekumpulan nilai atribut. Data relasional dapat diakses oleh kueri basis data yang ditulis dalam bahasa kueri relasional seperti SQL atau dengan bantuan antarmuka pengguna grafis.

2. Data warehouse Data warehouse merupakan tempat penyimpanan informasi yang dikumpulkan dari berbagai sumber, disimpan dalam skema yang dipersatukan (unified schema) dan biasanya bertempat pada tempat penyimpanan tunggal. Data warehouse dikonstruksi melalui sebuah proses data cleaning, data transformation, data integration, data loading dan periodic data refreshing.

Data warehouse biasanya dimodelkan oleh struktur basis data multidimensional, dimana setiap dimensi berkaitan dengan sebuah atribut atau sekumpulan atribut dalam skema, dan setiap sel menyimpan nilai dari ukuran agregasi seperti count dan sales_amount. Struktur fisik dari data warehouse dapat berupa penyimpanan basis data relasional atau sebuah kubus data multidimensional.

Selain data warehouse, terdapat istilah penyimpanan data yang lain yaitu data mart. Sebuah data warehouse mengumpulkan informasi mengenai subjek-subjek yang menjangkau seluruh organisasi, dengan demikian cakupannya enterprise-wide. Sedangkan data mart merupakan sub bagian dari data warehouse. Fokus data mart adalah pada subjek yang dipilih dan dengan demikian cakupannya adalah department-wide.

3. Basis data Transaksional Secara umum, basis data transaksional terdiri dari sebuah file dimana setiap record merepresentasikan transaksi. Sebuah transaksi biasanya meliputi bilangan identitas transaksi yang unik (trans_id), dan sebuah daftar dari item yang membuat transaksi (seperti item yang dibeli dalam sebuah took). Basis data transaksi dapat memiliki tabel tambahan, yang mengandung informasi lain berkaitan dengan penjualan seperti tanggal transaksi, customer ID number, ID number dari sales person dan dari kantor cabang (branch) dimana penjualan terjadi.

2.3.4 Tugas-tugas dalam Data mining

Tugas-tugas dalam data mining secara umum dibagi ke dalam dua kategori utama:

1. Prediktif. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai dari atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas.

2. Deskriptif. Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster, trayektori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.

Berikut adalah tugas dalam data mining:

Analisis Asosiasi (Korelasi dan kausalitas)

Analisis asosiasi adalah pencarian aturan-aturan asosiasi yang menunjukkan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa market basket dan data transaksi.

Aturan-aturan asosiasi memiliki bentuk X ⇒ Y, bahwa A1 ∧ A2 ∧ … ∧ Am → B1 ∧ B2 ∧ … ∧ Bn, dimana Ai (untuk i = 1, 2, …, m) dan Bj (untuk j = 1, 2, …, n) adalah pasangan-pasangan nilai atribut. Aturan asosiasi X ⇒ Y diinterpretasikan sebagai tuple-tuple basis data yang memenuhi kondisi-kondisi dalam X juga mungkin memenuhi kondisi dalam Y.

2.4 Metode-Metode Data Mining

Dengan definisi data mining yang luas, ada banyak jenis metode analisis yang dapat digolongkan dalam data mining.

1. Association Rules

Association rules (aturan asosiasi) atau affinity analysis (analisis afinitas) berkenaan dengan studi tentang “apa bersama apa”. Sebagai contoh dapat berupa berupa studi transaksi di supermarket, misalnya seseorang yang membeli susu bayi juga membeli sabun mandi. Pada kasus ini berarti susu bayi bersama dengan sabun mandi. Karena awalnya berasal dari studi tentang database transaksi pelanggan untuk menentukan kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga sering dinamakan market basket analysis. Aturan asosiasi ingin memberikan informasi tersebut dalam bentuk hubungan “if-then” atau “jika-maka”. Aturan ini dihitung dari data yang sifatnya probabilistik (Santoso, 2007). Analisis asosiasi dikenal juga sebagai salah satu metode data mining yang menjadi dasar dari berbagai metode data mining lainnya. Khususnya salah satu tahap dari analisis asosiasi yang disebut analisis pola frekuensi tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk menghasilkan algoritma yang efisien. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support (nilai penunjang) yaitu prosentase kombinasi item tersebut. dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar item dalam aturan assosiatif. Analisis asosiasi didefinisikan suatu proses untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence) (Pramudiono, 2007).

Ada beberapa algoritma yang sudah dikembangkan mengenai aturan asosiasi, namun ada satu algoritma klasik yang sering dipakai yaitu algoritma apriori. Ide dasar dari algoritma ini adalah dengan mengembangkan frequent itemset. Dengan menggunakan satu item dan secara rekursif mengembangkan frequent itemset dengan dua item, tiga item dan seterusnya hingga frequent itemset dengan semua ukuran. Untuk mengembangkan frequent set dengan dua item, dapat menggunakan frequent set item. Alasannya adalah bila set satu item tidak melebihi support minimum, maka sembarang ukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut. Secara umum, mengembangkan set dengan fc-item menggunakan frequent set dengan k – 1 item yang dikembangkan dalam langkah sebelumnya. Setiap langkah memerlukan sekali pemeriksaan ke seluruh isi database.

Dalam asosiasi terdapat istilah antecedent dan consequent, antecedent untuk mewakili bagian “jika” dan consequent untuk mewakili bagian “maka”. Dalam analisis ini, antecedent dan consequent adalah sekelompok item yang tidak punya hubungan secara bersama (Santoso, 2007). Dari jumlah besar aturan yang mungkin dikembangkan, perlu memiliki aturan-aturan yang cukup kuat tingkat ketergantungan antar item dalam antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, digunakan ukuran support dan confidence. Support adalah rasio antara jumlah transaksi yang memuat antecedent dan consequent dengan jumlah transaksi. Confidence adalah rasio antara jumlah transaksi yang meliputi semua item dalam antecedent dan consequent dengan jumlah transaksi yang meliputi semua item dalam antecedent.

Keterangan :

= Support

= Jumlah transaksi yang mengandung antecedent dan consequencent

Keterangan :

= Confidence

= Jumlah transaksi yang mengandung antecedent dan consequencent

= Jumlah transaksi yang mengandung antecedent

Langkah pertama algoritma apriori adalah, support dari setiap item dihitung dengan men-scan database. Setelah support dari setiap item didapat, item yang memiliki support lebih besar dari minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset berarti satu set yang terdiri dari k item. Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item. Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat 2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga merupakan pola frekuensi tinggi dengan panjang 2.(Pramudiono, 2007). Untuk selanjutnya iterasi iterasi ke-k dapat dibagi lagi menjadi beberapa bagian :

1. Pembentukan Kandidat Itemset

Kandidat k-itemset dibentuk dari kombinasi (k-1)-itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma apriori adalah adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak termasuk dalam pola frekuensi tinggi dengan panjang k-1.

2. Penghitungan Support Dari Tiap Kandidat (K-Itemset)

Support dari tiap kandidat k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang memuat semua item di dalam kandidat k-itemset tersebut. Ini adalah juga ciri dari algoritma apriori yaitu diperlukan penghitungan dengan scan seluruh database sebanyak k-itemset terpanjang.

3. Tetapkan Pola Frekuensi Tinggi

Pola frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari minimum support. Kemudian dihitung confidence masing-masing kombinasi item. Iterasi berhenti ketika semua item telah dihitung sampai tidak ada kombinasi item lagi. (Pramudiono, 2007)

Secara ringkas algoritma apriori sebagai berikut :

Create L1 = set of supported itemsets of cardinality one

Set k to 2

while (Lk−1 _= ∅) {

Create Ck from Lk−1

Prune all the itemsets in Ck that are not

supported, to create Lk

Increase k by 1

}

The set of all supported itemsets is L1 ∪ L2 ∪ · · · ∪ Lk

Selain algoritma apriori, terdapat juga algoritma lain seperti FP-Grwoth. Perbedaan algoritma apriori dengan FP-Growth pada banyaknya scan database. Algoritma apriori melakukan scan database setiap kali iterasi sedangkan algoritma FP-Growth hanya melakukan sekali di awal (Bramer, 2007).

2. Decision Tree

Dalam decision tree tidak menggunakan vector jarak untuk mengklasifikasikan obyek. Seringkali data observasi mempunyai atribut-atribut yang bernilai nominal. Seperti yang diilustrasikan pada gambar 2.5, misalkan obyeknya adalah sekumpulan buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai tidak bisa dijumlahkan atau dikurangkan. Dalam atribut warna ada beberapa nilai yang mungkin yaitu hijau, kuning, merah. Dalam atribut ukuran ada nilai besar, sedang dan kecil. Dengan nilai-nilai atribut ini, kemudian dibuat decision tree untuk menentukan suatu obyek termasuk jenis buah apa jika nilai tiap-tiap atribut diberikan (Santoso, 2007).

Level 0

Level 1

Besar Sedang Kecil

Besar Kecil

Bulat Lonjong Level 2

Level 3

Gambar 2.5 Decision Tree

Ada beberapa macam algoritma decision tree diantaranya CART dan C4.5. Beberapa isu utama dalam decision tree yang menjadi perhatian yaitu seberapa detail dalam mengembangkan decision tree, bagaimana mengatasi atribut yang bernilai continues, memilih ukuran yang cocok untuk penentuan atribut, menangani data training yang mempunyai data yang atributnya tidak mempunyai nilai, memperbaiki efisiensi perhitungan (Santoso, 2007). Decision tree sesuai digunakan untuk kasus-kasus yang keluarannya bernilai diskrit. Walaupun banyak variasi model decision tree dengan tingkat kemampuan dan syarat yang berbeda,

Pada umumnya beberapa ciri yang cocok untuk diterapkannya decision tree adalah sebagai berikut :

1. Data dinyatakan dengan pasangan atribut dan nilainya

2. Label/keluaran data biasanya bernilai diskrit

3. Data mempunyai missing value (nilai dari suatu atribut tidak diketahui)

Dengan cara ini akan mudah mengelompokkan obyek ke dalam beberapa kelompok. Untuk membuat decision tree perlu memperhatikan hal-hal berikut ini :

1. Atribut mana yang akan dipilih untuk pemisahan obyek

2. Urutan atribut mana yang akan dipilih terlebih dahulu

3. Struktur tree

4. Kriteria pemberhentian

5. Pruning

Decision tree mempunyai beberapa keuntungan sebagai berikut :

1. Decision tree mudah dimengerti dan diinterprestasikan.

2. Penyiapan data untuk decision tree adalahutama dan tidak dibutuhkan.

3. Decision tree dapat mengatasi, baik data nominal maupun kategorial.

4. Decision tree merupakan model white box.

5. Decision tree dapat melakukan validasi terhadap model dengan tes statistik.

Hal itu akan memungkinan untuk menghitung reliabilitad model.

Decision tree meruakan teknik yang kuat, dapat bekerja baik dengan data yang besar dalam waktu yang singkat.

Manfaat pohon keputusan Decision tree

· Mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga mengambil keputusan akan lebih menginterpretasikan solusi dari permasalahn

· Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

· Pohon keputusan memadukan antara eksplorasi data dengan pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika di jadikan sebagai model akhir dari beberapa teknik lain

3. Clustering

Clustering termasuk metode yang sudah cukup dikenal dan banyak dipakai dalam data mining. Sampai sekarang para ilmuwan dalam bidang data miningmasih melakukan berbagai usaha untuk melakukan perbaikan model clustering karena metode yang dikembangkan sekarang masih bersifat heuristic. Usaha-usaha untuk menghitung jumlah cluster yang optimal dan pengklasteran yang paling baik masih terus dilakukan. Dengan demikian menggunakan metode yang sekarang, tidak bisa menjamin hasil pengklasteran sudah merupakan hasil yang optimal. Namun, hasil yang dicapai biasanya sudah cukup bagus dari segi praktis.

Gambar 2.6: Clustering

Tujuan utama dari metode clustering adalah pengelompokan sejumlah data/obyek ke alam cluster (group) sehingga dalam setiap cluster akan berisi data yang semirip mungkin seperti diilustrasikan pada gambar 2.6. Dalam clustering metode ini berusaha untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu klaster dan membuat jarak antar klaster sejauh mungkin. Ini berarti obyek dalam satu cluster sangat mirip satu sama lain dan berbeda dengan obyek dalam cluster-cluster yang lain. Dalam metode ini tidak diketahui sebelumnya berapa jumlah cluster dan bagaimana pengelompokannya.

4. Software Aplikasi

Software aplikasi terdiri atas program yang berdiri sendiri yang mampu mengatasi kebutuhan bisnis tertentu. Aplikasi memfasilitasi operasi bisnis atau pengambilan keputusan manajemen maupun teknik sebagai tambahan dalam aplikasi pemrosesan data konvensional. Sofware aplikasi digunakan untuk mengatur fungsi bisnis secara real time (Pressman, 2005).

5. Desain Model Aplikasi

Desain model dari aplikasi terdiri dari physical model dan logical model. Physical model dapat digambarkan dengan bagan alir sistem. Logical model dalam sistem informasi lebih menjelaskan kepada pengguna bagaimana nantinya fungsi-fungsi di sistem informasi secara logika akan bekerja. Logical model dapat digambarkan dengan DFD (Data Flow Diagram) dan kamus data (Data Dictionary). Adapun penjelasan dari alat bantu dalam desain model adalah sebagai berikut :

A. Diagram Konteks (Context Diagram)

Diagram konteks adalah sebuah diagram sederhana yang menggambarkan hubungan antara proses dan entitas luarnya. Adapun simbol-simbol dalam diagram konteks seperti dijelaskan pada tabel 2.2

Tabel 2.2: Simbol-simbol Context Diagram

Simbol	Keterangan
	Proses, menunjukkan suatu proses untuk menerima masukkan dan menghasilkan keluaran.
	Entitas luar, merupakan sumber atau tujuan dari aliran data atau ke sistem. Entitas luar merupakan lingkungan luar sistem.
	Arus Data atau Aliran Data, yaitu komponen yang menggambarkan aliran data dari satu proses ke proses lainnya.

B. DFD (Data Flow Diagram)

DFD merupakan suatu model logika yang menggambarkan asal data dan tujuan data yang keluar dari sistem, serta menggambarkan penyimpanan data dan proses yang mentranformasikan data. DFD menunjukkan hubungan antara data pada sistem dan proses pada sistem. Beberapa simbol yang digunakan dalam DFD diterangkan pada tabel 2.3

Tabel 2.3: Simbol-simbol DFD

Simbol	Keterangan
	Proses yang berfungsi untuk menunjukkan transformasi dari masukkan menjadi keluaran
	Arus Data atau Aliran Data, yaitu komponen yang menggambarkan aliran data dari satu proses ke proses lainnya.
	Tempat penyimpanan, yaitu komponen yang digunakan untuk menyimpan kumpulan data, penyimpanan data bisa berupa file,database, maupun yang berupa record.
	Entitas luar, merupakan sumber atau tujuan dari aliran data atau ke sistem. Entitas luar merupakan lingkungan luar sistem.

C. Perancangan Perangkat Lunak

Proses perancangan sistem membagi persyaratan dalam sistem perangkat keras atau perangkat lunak. Kegiatan ini menentukan arsitektur sistem secara keseluruhan. Perancangan perangkat lunak melibatkan identifikasi dan deskripsi abstraksi sistem perangkat lunak yang mendasar dan hubungan-hubungannya (Sommerville, 2003). Sebagaimana persyaratan, desain didokumentasikan dan menjadi bagian dari konfigurasi software (Pressman, 1997). Tahap desain meliputi perancangan data, perancangan fungsional, dan perancangan antarmuka.

1. Perancangan data

Perancangan data mentransformasikan model data yang dihasilkan oleh proses analisis menjadi struktur data yang dibutuhkan pada saat pembuatan program (coding). Selain itu juga akan dilakukan desain terhadap struktur database yang akan dipakai.

2. Perancangan fungsional

Perancangan fungsional mendeskripsikan kebutuhan fungsi-fungsi utama perangkat lunak.

3. Perancangan antarmuka

Perancangan antarmuka mendefinisikan bagaimana pengguna (user) dan perangkat lunak berkomunikasi dalam menjalankan fungsionalitas perangkat lunak.

D. Implementasi dan Pengujian Unit

Pada tahap ini, perancangan perangkat lunak direalisasikan sebagai serangkaian program atau unit program. Kemudian pengujian unit melibatkan verifikasi bahwa setiap unit program telah memenuhi spesifikasinya (Sommerville, 2003).Program sebaiknya dirilis setelah dikembangkan, diuji untuk memperbaiki kesalahan yang ditemukan pada pengujian untuk menjamin kualitasnya (Padmini, 2005). Terdapat dua metode pengujian yaitu :

1. Metode white box yaitu pengujian yang berfokus pada logika internal software (source code program).

2. Metode black box yaitu mengarahkan pengujian untuk menemukan kesalahan-mesalahan dan memastikan bahwa input yang dibatasi akan memberikan hasil aktual yang sesuai dengan hasil yang dibutuhkan. Pada tahap pengujian, penulis melakukan metode black box yaitu menguji fungsionalitas dari perangkat lunak saja tanpa harus mengetahui struktur internal program (source code).

2.5 Penerapan Data Mining

Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh bidang penerapan data mining:

· Analisa pasar dan manajemen

Solusi yang dapat di selesaikan dengan Data Mining, diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer, Menilai loyalitas Customer, Informasi Summary.

A. Analisa Perusahaan dan Manajemen resiko

Solusi yang dapat diselesaikan dengan data mining diantaranya: Perencanaan keuangan dan evaluasi aset, perencanaan sumber daya (resource planning), persaingan (competition).

B. Telekomunikasi

Sebuah perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara manual

C. Keuangan

Financial Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data mining untuk menambang triliyunan dari berbagai subyek seperti property, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan (Seperti money laundry)

D. Asuransi

Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan lesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi.

E. Olahraga

IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.

2.5.1 Proses Data Mining

Fase-fase dimulai dari data mentah dan berakhir dengan pengetahuan atau informasi yang telah diolah, yang didapatkan sebagai hasil dari tahapan-tahapan berikut:

A. Data Cleansing, juga dikenal sebagai data cleansing, ini adalah sebuah fase dimana data-data tidak lengkap, mengndung error dan tidk konsisten dibuang dari koleksi data, sehingga data yang telah bersih relevan dapat digunakan untuk diproses ulang untuk penggalian pengetahuan(discovery knowledge)

B. Data Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data yang berulang(multiple data), file-file yang berulang(multiple file), dapat dikombinasikan dan digabungkan kedalam suatu sumber.

C. Data Selection, pada langkah ini, data yang relevan terhadap analisis dapat dipilih dan diterima dari koleksi data yang ada.

D. Data Transformation, juga dikenal sebagai data consolidation. Pada tahap ini, dimana data-data yang telah terpilih, ditransformasikan kedalam bentuk-bentuk yang cocok untuk prosedur penggalian (meaning proedure) dengan cara melakukan normalisasi dan agregasi data.

E. Data Mining, tahap ini adalah tahap yang paling penting, dengan menggunakan teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola potensial yang berguna.

F. Pattern Evaluation, pada tahap ini, pola-pola menarik dengan jelas mempresentasikan pengetahuan telah diidentifikasi berdasarkan measure yang telah diberikan.

G. Knowledge Representation, ini merupakan tahap terakhir dimana pengetahuan yang telah ditemukan secara visual ditampilkan kepada user.Tahap penting ini menggunakan teknik visualisasi untuk membantu user dalam mengerti dan menginterpresentasikan hasil dari data mining.

2.5.2 Jenis-jenis Data Mining

1. Market Basket Analysis

Himpunan data yang dijadikan sebagai objek penelitian pada area data mining. Market basket analysis adalah proses yang untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanjaan. Market basket analysis memamfaatkan data transaksi penjualan untuk dianalisi sehingga dapat ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah transaksi.

Selanjutnya pola yang ditemuka dapat dimamfaatkan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersama kedalam sebuah area yang berdekatan, merancang tampilan item-item di catalog,merancang kupon diskon (untuk diberikan pada pelanggan yang dibeli item tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya.

2. Memory-ased Reasoning

Metode klasifikasi yang digabungkan dengan penalaran berbasis memori. Proses menggunakan satu set data untuk membuat model dari prediksi atau asumsi-asumsi yang dapat dibuat tentang objek baru yang diperkenalkan.

Ada dua komponen dasar untuk MBR. Yang pertama adalah kesamaan fungsi, yang mengukur bagaimana anggota yang sama dari setiap pasangan object satu sama lain. Yang kedua adalah fungsi kombinasi, yang kedua adalah fungsi kombinasi, yang digunakan untuk meggabungkan hasil dari himpunan tetangga untuk sampai pada keputusan.

3. Cluster Detection

Ada dua pendekatan untuk clustering pendekatan pertama adalah dengan mengasumsi bahwa sejumlah cluter sudah tersimpan dalam data, tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain, disebut clustering agglomerative, dengan asumsi keberadaan setiap jumlah yang telah ditetapkan cluster tertentu, setiap item keluar cluster sendiri, dan proses terjadi berulang-ulang yang berupaya untuk menggabungkan cluster, meskipun proses komputasi sama.

4. Link Analysis

Proses mencari dan membangun hubungan antara object dalam kumpulan data juga mencirikan sifat yang terkait dengan hubungan antara dua object. Link Analysis berguna untuk aplikasi analisis yang mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu Link Analysis berguna untuk proses optimasi.

5. Rule Induction

Ekstraksi aturan sebab-akibat dari data secara statistic. Identifikasi aturan bisnis yang tersimpan didalam data. Metode berhubungan dengan induksi aturan yang digunakan untuk proses penemuan. Salah satu pendekatan untuk penemuan aturan adalah menggunakan pohon keputusan.

6. Neural Network

Metode prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai struktur jaringan nerual yang dapat pada mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya.

· Apa Yang Bisa Dan Tidak Bisa Dilakukan Data Mining

Secara umum, data mining dapat melakukan dua hal:

· Memberikan kesempatan untuk menemukan informasi menarik yang tidak terduga ,

· Bisa menangani data berkala besar.

Dalam menemukan informasi yang menarik ini, ciri khas data minimg adalah kemampuan pencarian secara hampir otomatis. Mengapa disebut hampir otomatis karna banyak teknik data mining ada beberapa parameter yang masih harus ditentukan secara manual atau semi manual.

Data mining juga memiliki kemampuan di antaranya :

· Mampu menangani data dalam jumlah besar

· Memungkinkan data mining untuk diterapkan pada masalah-masalah kompleks yang ukurannya tidak dibatasi oleh otak manusia.

· Selain itu penelitiantentang algoritma paraller dari data mining juga membuka jalan agar data mining diterapkan pada program skala yang lebih besar lagi.

Sebaliknya, disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan oleh data mining, antaranya:

· perlu disadari bahwa data mining bukanlah solusi yang cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik diselesaikan dengan statistic yang sederhana.

· Data mining juga tidak bisa menemukan pengetahuan yang bermanfaat secara instan.

Beberapa hal yang harus diperhatikan oleh seorang analist:

· Seorang analis data mining perlu tahu perbedaan, kelebihan,kekurangan dari teknik-teknik data mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang di hadapinya.

· Ketika menjalankan teknik data mining itu sendiri si analis juga perlu mengarahkan programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya

· Setelah data mining dilaksanakan analis harus melakukan evalusi terhadap pola-polayang dihasilkan sebelumnya bisa merumuskan hasinya.

Apa sebenarnya yang memotivasi datamining dan mengapa data mining begitu penting ?

Alasan utama mengapa data mining sangat menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna.

Data mining adalah kegiatan mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi inilah yang nantinya sangat berguna untuk pengembangan.

2.6 Aplikasi Data Mining

Berikut adalah contoh dari aplikasi data mining :

1. Association Rules dan Algoritma Apriori

Association rules merupakan salah satu teknik data mining yang berfungsi untuk menemukan asosiasi antar variabel, korelasi atau suatu struktur diantara item atau objek-objek didalam database transaksi, database relasional, maupun pada penyimpanan informasi lainnya.

Sebagai ilustrasi dalam analisis weblog dari association rules adalah sebagai berikut, pola yang mungkin adalah “jika seseorang mengunjungi website CNN, terdapat kemungkinan sebesar 60% orang tersebut mengunjungi website Detik pada bulan yang sama.” Pada ilustrasi tersebut, pola yang ditemukan berpotensi menghasilkan potongan informasi yang menarik dan dibutuhkan oleh perusahaan yang terkait.

Proses di dalam teknik assocation rules adalah mencari aturan-aturan yang memenuhi minimum support dan confidence. Algoritma yang pertama kali digunakan dalam teknik association rules dan yang paling banyak digunakan adalah algoritma apriori (Agrawal & Srikant, 1994).

2. Web Crawler

Web crawler (yang juga dikenal dengan web spider atau web robot) adalah suatu program atau script otomatis yang menjelajahi WWW dengan menggunakan sebuah metode atau cara yang otomatis. Nama-nama yang jarang digunakan pada sebuah web crawler adalah ants, automatic indexers, bots, worms (Kobayashi & Takeda, 2000)

3. Extended Log File Format

Extended Log Format dirancang untuk memenuhi beberapa kebutuhan di bawah ini (Baker & Behlendorf, 1996):

a) Memperbolehkan kontrol pada data yang direkam.

b) Memenuhi kebutuhan proxy, client dan server dalam format yang umum.

c) Menyediakan penanganan yang sempurna akan masalah penghilangan karakter.

d) Memperbolehkan dalam pertukaran demografis data. Memperbolehkan dalam menyajikan rekapitulasi data.

Beberarap domain aplikasi, antara lain:

· Biomedical and DNA data analysis

· Financial data analysis

· Retail industry

· Telecommunication industry

Biomedical and DNA Data Analysis

Urutan DNA: 4 blok dasar yang membangun DNA: (nucleotides): adenine (A), cytosine (C), guanine (G), and thymine (T).

· Gene: satu urutan/barisan dari ratusan individual nucleotides tersusun dalam urutan tertentu.

· Manusia mempunyai sekitar 30,000 genes

· Sangat banyak cara sehingga nucleotides dapat diurutkan dan dibariskan untuk membentuk genes yang berbeda.

· Integrasi semantik dari keberagaman, database genome yang terdistribusi

· Current: highly distributed, uncontrolled generation dan menggunakan data DNA yang sangat luas kebergamannya

· Metode Data cleaning dan data integration dikembangkan dalam data mining akan membantu

Contoh : Analisis DNA

· Pencarian keserupaan dan perbandingan diantara barisan DNA

· Bandingkan pola yang sering muncul dari setiap kelas (misal, penyakit dan kesehatan)

· Identifikasi pola barisan gene yang berpengaruh dalam berbagai penyakit.

· Analisis Association : Pengidentifikasian dari kemunculan barisan gen

· Sebagian penyakit tidak di triger melalui satu gen tunggal tetapi oleh kombinasi gen yang berlaku bersama.

· Analysis Association dapat membantu menentukan macam macam dari gen yang kelihatannya akan muncul secara bersamaan dalam contoh target.

· Analisis Path : menghubungkan gen ke tingkatan pengembangan penyakit yang berbeda.

· Gen yang berbeda dapat menjadi aktif pada tingkatan berbeda dari penyakit

· Mengembangkan intervensi pharmaceutical yang mentargetkan tingkatan yang berbeda secara terpisah.

· Tool Visualisasi dan analisis data genetika

Data Mining untuk Analisis Data Keuangan

· Data keuangan terkumpul di bank dan intstitusi keuangan yang pada umumnya adalah lengkap, handal dan tinggi kualitasnya.

· Desain dan konstruksi dari data warehouse untuk analisis data multidimensi dan data mining.

· View perubahan debet dan pendapatan/keuntungan berdasarkan bulan, daerah, sektor dan faktor.

· Akses informasi statistik seperti max, min, total, average, trend, dll.

· Peramalan/prediksi pembayaran pinjaman / analisis kebijaksanaan kredit konsumen.

· Pemeringkatan pemilihan fitur dan keterhubungan atribut

· Kinerja pembayaran pinjaman

· Rating kredit konsumen

Data Mining Keuangan

· Classification dan clustering dari konsumen untuk sasaran pemasaran.

· multidimensional segmentation melalui nearestneighbor, classification, decision trees, dll. Untuk mengidentifikasi kelompok konsumen atau mengasosiasi satu konsumen baru ke satu kelompok konsumen yang tepat/sesuai.

· Detection of money laundering dan kejahatan keuangan lainnya

· integration of from multiple DBs (e.g., bank transactions, federal/state crime history DBs)

· Tools: data visualization, linkage analysis, classification, clustering tools, outlier analysis, and sequential pattern analysis tools (find unusual access sequences)

STUDI KASUS

Kasus penjualan Handphone Blacberry sebagai contoh penerapan data mining. Berikut pembahasannya.

Handphone (HP) adalah perangkat telekomunikasi elektronik yang mempunyai kemampuan dasar yang sama dengan telepon konvensional saluran tetap, namun dapat dibawa ke mana-mana. Seperti yang kita ketahui saat ini handphone bukanlah lagi barang mewah yang hanya dapat dimilikinorang kaya atau kalangan berpenghasilan tinggi melainkan seudah menjadi kebutuhan setiap orang baik kalangan menengah maupun yang berpenghasilan rendah yang digunakan untuk komunikasi, bertukar dan mencari informasi melalui internet.

Untuk menarik minat pembeli, penjual menjual berbagai jenis tipe Hp dengan harga yang beragam. Dari hasil meminingkan data penjual Hp selama sebulan, kita dapat mengetahui jenis HP apa saja yang laris terjual dan dicari pembeli. Dari data tersebut kita mengetahui bahwa Hp Blackberry (BB) yang paling banyak laris terjual. Jadi untuk menaikkan jumlah keuntungan kita dapat meningkatkan jumlah produksi HpBB di bulan berikutnya dibandingkan dengan produksi tipe Hp yang lainnya. untuk menarik minat pembeli lebih banyak kita bisa menyebar brosur tentang produk Hp di toko kita tersebut dengan memasang iklan “Bagi 10 pembeli Pertama Hp BB Berbagai Tipe, Kami berikan diskon 20%”. Selain itu kita juga dapat memberikan paket dalam penjualan Hp BB tersebut. Misalnya pembeli membeli Hp BB itu penjual itu penjual memberikan dia gratis kartu “XL”, dengan begitu pembeli semakin berminat membeli Hp ditempat kita di banding toko yang lain. Selain menambah produksi Hp BB kita juga bisa menjual aksesoris Hp seperti gantungan kunci unik atau cassing unik Hp BB tersebut. Sehingga membeli Hp bisa saja pembeli tertarik membeli aksesiris yang kita sediakan ditoko tersebut. Hal tersebut dapat menambah keuntungan yang lebih besar pada bulan berikutnya bagi penjual dibanding bulan sebelumnya.

Lalu apa beda data mining dengan data warehouse dan OLAP (On-line Analytical Processing)? Secara singkat bisa dijawab bahwa teknologi yang ada di data warehouse dan OLAP dimanfaatkan penuh untuk melakukan data mining. Gambar di bawah menunjukkan posisi masing-masing teknologi:

Gambar 2.7 : Data mining dan teknologi database lainnya

Dari gambar di atas terlihat bahwa teknologi data warehouse digunakan untuk melakukan OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining, banyak lagi bidang ilmu yang turut memperkaya data mining seperti: information science (ilmu informasi), high performance computing, visualisasi, machine learning, statistik, neural networks (jaringan syaraf tiruan), pemodelan matematika, information retrieval dan information extraction serta pengenalan pola. Bahkan pengolahan citra (image processing) juga digunakan dalam rangka melakukan data mining terhadap data image/spatial.

Dengan Memadukan Teknologi OLAP Dengan Data Mining Diharapkan Pengguna Dapat Melakukan Hal-Hal Yang Biasa Dilakukan Di OLAP Seperti Drilling/Rolling Untuk Melihat Data Lebih Dalam Atau Lebih Umum, Pivoting, Slicing Dan Dicing. Semua Hal Tersebut Diharapkan Nantinya Dapat Dilakukan Secara Interaktif Dan Dilengkapi Dengan Visualisasi.

BAB III

PENUTUP

3.1 Kesimpulan

Data mining, yang hadir sebagai teknologi untuk memanfaatkan ketersediaan data bisnis yang melimpah, telah membantu para pelaku bisnis untuk mempertahankan dan mengembangkan bisnis mereka.

Akan tetapi, agar teknologi data mining ini dapat dimanfaatkan terus dengan baik, teknologi ini harus terus dapat “bekerja” berdampingan dengan bidang lain di dunia teknologi informasi yang berkembang dengan sangat cepat.

Penyempurnaan di sana-sini masih terus diperlukan, karena itu peluang riset di bidang ini masih terbuka lebar.

3.2 Saran

Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual, juga diartikan sebagai analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya

Disamping memiliki kemampuan, data mining juga memiliki keterbatasan yang tidak bisa dilakukannya.

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.

DAFTAR PUSTAKA

http://garethdata.blogspot.co.id/2010/03/pengertian-data-mining.html

Robert Bernier, “Data Mining”, http://onlamp.com

web mining.pdf (http://www.google.com/)

data mining.pdf (http://www.google.com/)

http://gunawan-ndra.blogspot.com/2013/03/pengertian-data-mining-menurut-para.html

www.spss.com/events/e_id_1471/Data Mining in Higher Education.pdf