SISTEM
INFORMASI PERUSAHAAN
DATA
MINING
Dosen
Pengampuh Mata Kuliah
Syaripuddin
Buhaira M.Kom
Di Susun Oleh : Materi
10
1) Azizatul
Maghfiroh (8040140166)
2) Nia Audina (8040140072)
3) Nurbaya (8040140151)
4) Ristiana (8040140063)
5) Widya
Septya Ningrum (8040140217)
Kelas : 03ps3
Program
Study : Sistem Informasi
Yayasan Dinamika Bangsa
Sekolah Tinggi Ilmu Komputer
STIKOM DINAMIKA BANGSA
Jambi 2016
KATA
PENGANTAR
Puji syukur kehadirat Tuhan Yang
Maha Esa yang telah memberikan taufik dan hidayahnya, sehingga kami mampu
menyelesaikan makalah ini dengan judul “ Data Mining“.
Namun penyusun menyadari bahwa
dalam penyusunan makalah ini masih jauh dari kesempurnaa. Maka dari itu
penyusun mengharapkan saran dan kritik yang sifatnya membangun
kesempurnaan makalah ini.
Dalam penyusunan makalah ini tidak
lepas dari berbagai pihak. Dari itu penyusun menyampaikan rasa terimakasih
kepada semua pihak yang telah membantu sehinnga makalah ini dapat diselesaikan
tepat pada waktunya.
Semoga makalah ini bermanfaat bagi
penulis pada khususnya dan bagi pembaca pada umumnya.
Jambi, Januari 2016
Penyusun
DAFTAR ISI
Halaman
Kata pengantar.................................................................................................... i
Daftar isi............................................................................................................. ii
BAB I
PENDAHULUAN
1.1 Latar Belakang.............................................................................................. 1
1.2 Rumusan
Masalah......................................................................................... 2
1.3 Tujuan........................................................................................................... 2
1.4 Manfaat......................................................................................................... 2
BAB II
PEMBAHASAN
2.1 Pengertian Data Mining................................................................................ 3
2.2
Fungsi dan Tujuan Data
Mining................................................................... 5
2.2.1 Fungsi Data mining............................................................................. 5
2.2.2 Tujuan Data Mining............................................................................ 7
2.3 Tahap-Tahap
Data mining............................................................................. 9
2.3.1 Disiplin
Ilmu Dan Teknik-Teknik Data Mining.................................. 12
2.3.2
Teknik Data Mining............................................................................ 14
2.3.3
Arsitektur
Sistem Data Mining........................................................... 15
2.3.4
Tugas-Tugas
Dalam Data Mining....................................................... 17
2.4
Metode-Metode Data Mining...................................................................... 18
2.5
Penerapan Data Mining................................................................................ 28
2.5.1 Proses
Data Mining............................................................................. 29
2.5.2
Jenis-jenis Data Mining....................................................................... 30
2.6 Aplikasi Data Mining.................................................................................... 33
BAB III PENUTUP
3.1 kesimpulan.................................................................................................... 39
3.2 Saran............................................................................................................. 39
DAFTAR
PUSTAKA
BAB I
PENDAHULUAN
1.1
Latar Belakang
Dewasa ini kemajuan
teknologi informasi dan komputer telah menyediakan fasilitas penyimpanan data
dalam format elektronik sehingga penyimpanan data bukan lagi menjadi satu
pekerjaan yang sulit. Sebagai konsekuensinya jumlah data yang disimpan
mengalami peningkatan yang sangat cepat dari segi kuantitas dan kualitas. Pada
institusi pendidikan tinggi data dapat diperoleh dari data historis dan data
kegiatan operasional sebuah perguruan tinggi, dimana data ini akan bertambah
secara terus menerus, sehingga proses eksplorasi data dalam menentukan hubungan
antar variabel didalam data menjadi sangat lambat dan memiliki proses yang
subjektif. Salah satu Solusi yang mungkin digunakan untuk menangani masalah ini
adalah konsep menemukan pengetahuan di dalam pangkalan data.
Ketersediaan
data yang berlimpah yang dihasilkan dari penggunaan teknologi informasi di
hampir semua bidang kehidupan, menimbulkan kebutuhan untuk dapat memanfaatkan
informasi dan pengetahuan yang terkandung di dalam limpahan data tersebut, yang
kemudian melahirkan data mining. Data mining merupakan proses untuk menemukan pengetahuan
(knowledge discovery) yang ditambang dari sekumpulan data yang volumenya sangat
besar. Aplikasi data mining pada pengelolaan bisnis, pengendalian produksi, dan
analisa pasar misalnya, memungkinkan diperolehnya pola dan hubungan yang dapat
dimanfaatkan untuk peningkatan penjualan, atau pengelolaan sumber daya dengan
lebih baik.
Data mining adalah
suatu konsep yang digunakan untuk menemukan pengetahuan yang tersembunyi di
dalam database. Data mining merupakan proses semi otomatik yang
menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan
potensial dan berguna yang tersimpan di dalam database besar. (Turban et al,
2005 ). Data mining adalah bagian dari proses KDD (Knowledge
Discovery in Databases) yang terdiri dari beberapa tahapan seperti
pemilihan data, pra pengolahan, transformasi, data mining, dan evaluasi
hasil (Maimon dan Last, 2000). KDD secara umum juga dikenal sebagai pangkalan data.
1.2
Rumusan Masalah
1.
Apa Yang Dimaksud Dengan Data
Mining?
2.
Apa Saja Fungsi Dan Tujuan Dari
Data Mining?
3.
Ada Berapakah Tahap-Tahapan di Dalam
Data Mining?
4.
Ada Berapakah Metode Dalam Data
Mining?
5.
Bagaimana Penerapan Data Mining
Dalam Kehidupan?
6.
Apa Saja Contoh Dari Aplikasi Data Mining?
1.3
Tujuan
Dari makalah yang kami
buat untuk memenuhi tugas matakuliah Sistem Informasi Perusahaan. Juga untuk
mengetahui lebih luas tentang data mining. Serta untuk menambah wawasan atau
pengetahuan penyusun atau bagi yang membacanya.
1.4
Manfaat
Hasil makalah yang
kami buat ini diharapkan dapat
memberikan manfaat-manfaat sebagai berikut
1.
Untuk mengetahui definisi atau pengertian dari Data Mining.
2.
Untuk mengetahui kegunaan Data Mining.
BAB
II
PEMBAHASAN
2.1 Pengertian Data
Mining
Banyak sekali definisi mengenai apa
itu data mining. Data Mining adalah
serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa
pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa
kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga
dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya
memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (Artificial Intelligent), machine learning,
statistik dan database.
Data mining adalah proses menerapkan metode ini untuk data dengan maksud
untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah
proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang
semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering
digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan,
penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun
oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan
perjalanan penumpang penerbangan, data sensus dan supermarket scanner data
untuk menghasilkan laporan riset pasar.
Data Mining mengeksplorasi basis data untuk menemukan
pola-pola yang tersembunyi, mencari informasi untuk memprediksi yang mungkin
saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi
mereka.
Data mining adalah proses yang menggunakan berbagai
perangkat analisis data untuk menemukan pola hubungan dalam data yang mungkin
dapat di gunakan untuk membuat prediksi yang valid.
Pengertian
data mining menurut para Ahli:
Paramudiono
(2006) : Mengemukakan bahwa data mining
adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak di ketahui secara manual.
Lalu Larose : Berpendapat bahwa data mining
adalah bidang yang di gabung dari beberapa bidang keilmuan yang menyatukan
teknik dari pembelajaran mesin, pengenalan pola, statistik, database, dan
visualisasi untuk pengenalan permasalahn pengambilan informasi dari data base
yang benar.
Turban,dkk.(2005)
: Data mining dalah proses yang menggunakan teknik statistik, matematika,
kecerdasan buatan, dan mesin learning untuk mengekstraksi dan mengidentifikasi
informasi yang bermanfaat dan pengetahuan yang terkait sebagai data base besar.
Data mining merupakan proses semi otomatik yang menggunakan teknik
statistik, matematika, kecerdasan buatan, dan machine learning untuk
mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna
yang tersimpan di dalam database besar. (Turban et al, 2005 ). Data mining adalah
bagian dari proses KDD ( Knowledge Discovery in Databases) yang terdiri
dari beberapa tahapan seperti pemilihan data, pra pengolahan, transformasi, data
mining, dan evaluasi hasil (Maimon dan Last, 2000). KDD secara umum juga
dikenal sebagai pangkalan data.
DATA MINING
Data mining merupakan proses untuk menggalian
pola-pola dari data.
Gambar
2.1 Data Mining
2.2 Fungsi dan Tujuan Data Mining
1.2.1 Fungsi
Data mining
Data Mining
mengidentifikasi fakta- fakta atau kesimpulan-kesimpulan yang di sarankan
berdasarkan penyaringan melalui data untuk menjelajahi pola-pola atau
anomali-anomali data. Data Mining mempunyai 7 fungsi:
1.
Classification
Classification, yaitu menyimpulkan
definisi-definisi karakteristik sebuah grup. Contoh: pelanggan-pelanggan perusahaan yang telah berpindah
kesaingan perusahaan yang lain.
Metode yang paling umun pada data
mining. Persoalan bisnis seperti Chrun Analiysis, dan Risk Management biasanya
melibatkan metode classification
Gambar 2.2 : Model Klasifikasi
Keuntungan Classifikasi
·
Predictive accurasy
·
Hit Rate
·
Speed
·
Model Building, Predicting
·
Robustness
·
Scalability
·
Interprability
·
Transparency, explainability
Gambar 2.3 : Keuntungan Model Klasifikasi
2.
Clustering
Clustering, yaitu
mengindentifikasikan kelompok-kelompok dari barang-barang atau produk-produk
yang mempunyai karakteristik khusus(clustering berbeda dengan classification,
dimana pada clustering tidak terdapat definisi-definisi karakteristik awak yang
di berikan pada waktu classification.)
3.
Association
Association, yaitu
mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada suatu
waktu, seperti isi-isi dari keranjang belanja.
4.
Sequencing
Hampir sama dengan association,
sequencing mengidentifikasikan hubungan-hubungan yang berbeda pada suatu
periode waktu tertentu, seperti pelanggan-pelanggan yang mengunjungi
supermarket secara berulang-ulang.
5. Regretion
Adalah proses
pemetaan data dalam suatu nilai prediksi
6.
Forecasting
Forecasting memperkirakan nilai pada
masa yang akan datang berdasarkan pola-pola dengan sekumpulan data yang besar,
seperti peramalan permintaan pasar.
7.
Solution
Solution adalah proses penemuan
akar masalah dan problem solving dari
persoalan bisnis yang dihadapkai atau paling tidak sebagai informasi dalam
pengambilan keputusan.
2.2.2 Tujuan
Data Mining
Tujuan data mining antara lain:
1.
Explanatory
Untuk menjelaskan beberapa kondisi
penelitian, seperti mengapa penjualan truk pick up meningkat di colorado.
2. Confirmatory
Untuk mempertegas hipotesis, seperti halnya 2 kali
pendapatan keluarga lebih suka di pakai untuk membeli peralatan keluarga, di
bandingkan dengan satu kali pendapatan keluarga.
3.
Exploratory
Menganalisis data untuk hubungan
yang baru yang tidak di harapkan, seperti halnya pola apa yang cocok untuk
kasus penggelapan kartu kredit.
· Kelebihan Dan Kekurangan Data Mining
A. Kelebihan
Data Mining
1.
Kemampuan dalam mengolah data dalam jumlah yang besar.
2.
Pencarian data secara otomatis.
B. Kekurangan
data mining
1.
Kendala data base (Garbage in Garbage
out).
2.
Tidak bias melakukan analisa sendiri.
· Karakteristik Data Mining
Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola
data tertentu yang tidak diketahui sebelumnya. Data mining biasa menggunakan data yang sangat besar.
Biasanya data yang besar digunakan untuk membuat hasil lebih dipercaya. Data mining
berguna untuk membuat keputusan yang kritis, terutama dalam strategi
(Davies, 2004).
· Pengenalan Pola, Data Mining, dan
Machine Learning
Pengenalan Pola
adalah suatu disiplin ilmu yang mempelajari cara-cara mengklasifikasikan obyek
ke beberapa kelas atau kategori dan mengenali kecenderungan data. Tergantung
pada aplikasinya, obyek-obyek ini bisa
berupa pasien, mahasiswa, pemohon kredit,
image atau signal
atau pengukuran lain yang perlu diklasifikasikan atau dicari fungsi
regresinya (Santoso, 2007).
Data mining, sering juga disebut knowledge discovery in database
(KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian
data historis untuk menemukan keteraturan, pola atau hubungan dalam set
data berukuran besar. Keluaran dari data
mining ini bisa dipakai untuk
memperbaiki pengambilan keputusan di masa depan. Sehingga istilah pattern recognition jarang digunakan karena termasuk bagian dari
data mining (Santoso, 2007).
Machine Learning
adalah suatu area dalam artificial intelligence atau kecerdasan buatan yang berhubungan dengan pengembangan
teknik-teknik yang bisa diprogramkan dan belajar dari data masa lalu.
Pengenalan pola, data mining dan machine learning sering dipakai untuk menyebut sesuatu yang
sama. Bidang ini bersinggungan dengan
ilmu probabilitas dan statistik kadang juga optimasi. Machine learning menjadi alat analisis dalam data mining. Bagaimana bidang-bidang ini
berhubungan bisa dilihat dalam gambar 2.4
(Santoso, 2007).
2.3 Tahap-Tahap Data mining
Sebagai
suatu rangkaian proses,
data mining dapat dibagi menjadi
beberapa tahap yang diilustrasikan di Gambar
2.4. Tahap-tahap tersebut bersifat
interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.
Gambar 2.4 Tahap-tahap Data Mining (Han. 2006)
Tahap-tahap data mining ada 7 yaitu
:
1.
Pembersihan Data Integritas Data (Data Cleaning &
Integration)
Pembersihan data merupakan proses menghilangkan noise dan data yang
tidak konsisten atau data tidak relevan.
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen,
memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang
tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang
dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi
performasi dari teknik data mining karena data yang ditangani akan berkurang
jumlah dan kompleksitasnya.(yaitu
menghapus data pengganggu (noise) dan mengisi data yang hilang.) untuk membuang data yang tidak konsisten dan
bersifat noise dari data yang
terdapat di berbagai basisdata yang mungkin berbeda format maupun platform yang
kemudian dinintegrasikan dalam satu database datawarehouse.
2.
Integrasi
data (data integration)
Integrasi
data merupakan penggabungan data dari berbagai database ke dalam satu
database baru. Tidak jarang data yang diperlukan untuk data mining
tidak hanya berasal dari satu
database tetapi juga berasal dari
beberapa database atau file teks. Integrasi data dilakukan pada
atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti
atribut nama, jenis produk, nomor
pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena
kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan
bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk
ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan
korelasi antar produk yang sebenarnya tidak ada. (
yaitu menggabungkan berbagai sumber data)
3.
Seleksi Data (Data Selection)
Data yang ada pada
database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang
sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh,sebuah kasus yang meneliti faktor kecenderungan
orang membeli dalam kasus market basket
analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja. ( yaitu memilih data yang relevan)
Beberapa cara seleksi, antara lain:
A.
Sampling, adalah seleksi subset representative dari populasi
data yang besar
B.
Denoising, adalah proses menghilangkan noise dari data yang
akan ditranformasikan
C.
Feature
extraction, adalah
proses membuka spesifikasi data yang signifikan dalam konteks tertentu.
4.
Transformasi
data (Data Transformation)
Data diubah atau digabung
ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa
metode data mining membutuhkan format data yang khusus sebelum
bisa diaplikasikan. Sebagai contoh beberapa
metode standar seperti analisis
asosiasi dan clustering hanya bisa menerima input data kategorikal.
Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi
beberapa interval. Proses ini sering disebut transformasi data.( yaitu mentransformasi data ke dalam
format untuk diproses dalam penggalian data)
Transformasi
data diperlukan sebagai tahap pre-procecing, dimana data yang siap
untuk ditambang. Beberapa cara transformasi, antara lain:
A.
Centering, mengurangi setiap data dengan rata-rata setiap
atribut yang ada
B.
Normalisation, membagi setiap data
yang dicentering dengan standar
deviasi dari atribut yang bersangkutan
C.
Scaling, mengubah data
sehingga berada dalam skala tertentu
5.
Proses
mining
Merupakan suatu
proses utama saat
metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari data. ( yaitu menerapkan metode cerdas untuk ekstraksi pola)
6.
Evaluasi
pola (pattern evaluation)
Untuk mengidentifikasi
pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil
dari teknik data mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila
ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif
yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses
data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima
hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.( yaitu mengenali pola-pola yang menarik
saja.)
7.
Presentasi
pengetahuan (knowledge presentation)
Merupakan visualisasi dan penyajian pengetahuan
mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh
pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau
aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan
orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining
dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu
tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini,
visualisasi juga bisa membantu mengkomunikasikan hasil data mining (yaitu memvisualisasi pola ke pengguna)
2.3.1
Disiplin
Ilmu Dan Teknik-Teknik Data Mining
Pengertian
Teknik Data Mining
Teknik
Data Maining digunakan untuk memeriksa basis data berukuran besar
sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan
pencarian informasi dinyatakan sebagai Data Maining. Sebagai contoh,
pencarian record individual menggunakan database management system atau
pencarian web tertentu melalui query kesemua searce engine adalah
pekerjaan pencarian informasi yang erat kaitannya dengan information
retrieval. Teknik-teknik data maining dapat digunakan untuk
meningkatkan kemampuan sistem-sistem information retrieval.
·
Data mining
dalam penerapannya menggabungkan berbagai bidang ilmu, antara lain: Sistem
basis data, statistic, sistem cerdas, pembelajaran mesin, pengenalan pola, dan
visualisasi.
Contoh aplikasi
beserta fungsi dan teknik yang dipergunakan
Contoh Aplikasi
|
Fungsi
|
Teknik
|
Basket Market Analisis
|
Assosiation
|
Statistik Dan Teori Himpunan
|
Pola Kunjungan Konsumen
|
Seccuence
|
Statistik Dan Teori Himpunan
|
Segementasi Pasar
|
Clustering
|
Jaringan Syaraf Tiruan, Statistik,
Optmalisasi, Analisis Diskriminan
|
Target Pemasaran
|
Classification
|
Pohon Keputusan Dan Jaringan Syaraf
Tiruan
|
Prediksi Penjualan
|
Regretion
|
Statistik, Regresi Linear, Regresi non
Linear, Kurva, Jaringan Syaraf Tiruan,
|
Pola Permintaan
|
Forecasting
|
Statistik, Regresi Linear, Regresi non
Linear, Kurva, Jaringan Syaraf Tiruan, Pengenalan Pola
|
Ptimasi Jumlah Produk
|
Solution
|
Regresi, Logika Samar, SistemPakar,
Algoritma Genetika
|
Tabel 2.1 : Contoh aplikasi beserta
fungsi dan teknik yang dipergunakan
2.3.2 Teknik
Data Mining
Sebelum mengetahui teknik-teknik
yang dapat digunakan dalam data mining terdapat empat operasi yang dapat dihubungkan dengan data mining sebagai
berikut.
a. Predictive modeling
Ada dua teknik yang dapat dilakukan
dalam predictive modeling, yaitu:
· Classification
Digunakan
untuk membuat dugaan awal tentang class yang spesifik untuk setiap record dalam
database dari satu setnilai class yang mungkin.
· Value
Prediction
Digunakan
untuk memperkirakan nilai numeric yang kontinu yang trasosiasi dengan record
database. Teknik ini menggunakan teknik statistic klasik dari linier regression
dan nonlinier regression.
b. Database
Segmentation
Tujuan dabase segmentation adalah
untuk mempartisi database menjadi sejumlah segmen, cluster, atau record yang sama,
dimana record tersebut diharapkan homogen.
c. Link Analysis
Tujuan link analysis adalah untuk
membuat hubungan antara record yang individual atau sekumpulan record dalam
database. Aplikasi pada link analysis meliputi product affinity analysis, direct
marketing, dan stock price movement.
d. Deviation Detection
Teknik ini sering kali merupakan
sumber dari penemuan yang benar karena teknik ini mengidentifikasi outlier yang
mengekspresikan deviasi dari ekspektasi yang telah diketahui sebelumnya.
Operasi ini dapat ditampilkan menggunakan teknik statistik dan visualisasi.
Aplikasi deviation detection
misalnya pada deteksi penipuan dalam penggunaan kartu kredit dan klaim
asuransi, quality control, dan defect tracing.
2.3.3
Arsitektur Sistem Data mining
Data
mining merupakan proses pencarian pengetahuan yang menarik
dari data berukuran besar yang disimpan dalam basis data, data warehouse atau
tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data
mining memiliki komponen-komponen utama yaitu:
1. Basis Data,
data warehouse atau tempat penyimpanan informasi lainnya.
2. Basis Data Dan Data Warehouse Server.
Komponen ini bertanggung jawab dalam pengambilan relevant data, berdasarkan
permintaan pengguna.
3. Basis Pengetahuan.
Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian
atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliputi
hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai
atribut ke dalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat
berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk
menentukan kemenarikan pola yang diperoleh. Contoh lain dari domain knowledge adalah threshold dan metadata
yang menjelaskan data dari berbagai sumber yang heterogen.
4. Data
mining engine. Bagian ini merupakan komponen penting dalam
arsitektur sistem data mining. Komponen ini terdiri modul-modul
fungsional data mining seperti karakterisasi, asosiasi, klasifikasi, dan
analisis cluster.
5. Modul Evaluasi Pola.
Komponen ini menggunakan ukuran-ukuran kemenarikan dan berinteraksi dengan
modul data mining dalam pencarian pola-pola menarik. Modul evaluasi pola
dapat menggunakan threshold kemenaikan untuk mem-filter pola-pola yang
diperoleh.
6. Antarmuka Pengguna Grafis.
Modul ini berkomunikasi dengan pengguna dan sistem data mining. Melalui
modul ini, pengguna berinteraksi dengan sistem mengan menentukan kueri atau
task data mining. Antarmuka juga menyediakan informasi untuk memfokuskan
pencarian dan melakukan eksplorasi data mining berdasarkan hasil data
mining antara. Komponen ini juga memungkinkan pengguna untuk mencari
(browse) basis data dan skema data warehouse atau struktur data,
evaluasi pola yang diperoleh dan visualisasi pola dalam berbagai bentuk.
Data
mining dapat diaplikasikan pada berbagai jenis penyimpanan
data seperti basis data relational, data warehouse, transactional
database, object-oriented and object-relational databases, spatial databases,
time-series data and temporal data, text databases and multimedia databases,
heterogeneous and legacy databases dan WWW.
1. Basis
data Relasional Basis data relasional merupakan koleksi dari table. Setiap
table berisi atribut (field) dan biasanya menyimpan sejumlah besar tuple (record).
Setiap tuple dalam table relasional merepesentasikan sebuah objek yang
diidentifikasikan oleh kunci unik dan dideskripsikan oleh sekumpulan nilai
atribut. Data relasional dapat diakses oleh kueri basis data yang ditulis dalam
bahasa kueri relasional seperti SQL atau dengan bantuan antarmuka pengguna
grafis.
2.
Data warehouse Data warehouse merupakan
tempat penyimpanan informasi yang dikumpulkan dari berbagai sumber, disimpan
dalam skema yang dipersatukan (unified schema) dan biasanya bertempat pada
tempat penyimpanan tunggal. Data warehouse dikonstruksi melalui sebuah
proses data cleaning, data transformation, data integration,
data loading dan periodic data refreshing.
Data warehouse biasanya
dimodelkan oleh struktur basis data multidimensional, dimana setiap dimensi
berkaitan dengan sebuah atribut atau sekumpulan atribut dalam skema, dan setiap
sel menyimpan nilai dari ukuran agregasi seperti count dan sales_amount.
Struktur fisik dari data warehouse dapat berupa penyimpanan basis data
relasional atau sebuah kubus data multidimensional.
Selain data
warehouse, terdapat istilah penyimpanan data yang lain yaitu data mart.
Sebuah data warehouse mengumpulkan informasi mengenai subjek-subjek yang
menjangkau seluruh organisasi, dengan demikian cakupannya enterprise-wide.
Sedangkan data mart merupakan sub bagian dari data warehouse.
Fokus data mart adalah pada subjek yang dipilih dan dengan demikian
cakupannya adalah department-wide.
3. Basis
data Transaksional Secara umum, basis data transaksional terdiri dari sebuah
file dimana setiap record merepresentasikan transaksi. Sebuah transaksi
biasanya meliputi bilangan identitas transaksi yang unik (trans_id), dan sebuah
daftar dari item yang membuat transaksi (seperti item yang dibeli dalam sebuah
took). Basis data transaksi dapat memiliki tabel tambahan, yang mengandung
informasi lain berkaitan dengan penjualan seperti tanggal transaksi, customer
ID number, ID number dari sales person dan dari kantor cabang (branch) dimana
penjualan terjadi.
2.3.4
Tugas-tugas dalam Data mining
Tugas-tugas dalam data mining secara umum
dibagi ke dalam dua kategori utama:
1.
Prediktif.
Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut
tertentu berdasarkan pada nilai dari atribut-atribut lain. Atribut yang
diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan
atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory
atau variabel bebas.
2.
Deskriptif.
Tujuan dari tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend,
cluster, trayektori, dan anomali) yang meringkas hubungan yang pokok
dalam data. Tugas data mining deskriptif sering merupakan penyelidikan
dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan
hasil.
Berikut adalah tugas dalam data mining:
Analisis Asosiasi (Korelasi dan
kausalitas)
Analisis asosiasi adalah pencarian
aturan-aturan asosiasi yang menunjukkan kondisi-kondisi nilai atribut yang
sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering
digunakan untuk menganalisa market basket dan data transaksi.
Aturan-aturan asosiasi memiliki
bentuk X ⇒
Y, bahwa A1 ∧
A2 ∧ … ∧ Am → B1 ∧ B2 ∧ … ∧ Bn, dimana Ai (untuk i
= 1, 2, …, m) dan Bj (untuk j = 1, 2, …, n) adalah pasangan-pasangan nilai
atribut. Aturan asosiasi X ⇒
Y diinterpretasikan sebagai tuple-tuple basis data yang memenuhi
kondisi-kondisi dalam X juga mungkin memenuhi kondisi dalam Y.
2.4 Metode-Metode Data Mining
Dengan
definisi data mining yang luas, ada banyak jenis metode analisis yang dapat
digolongkan dalam data mining.
1. Association Rules
Association rules (aturan asosiasi) atau affinity analysis (analisis afinitas) berkenaan dengan studi
tentang “apa bersama apa”. Sebagai
contoh dapat berupa berupa studi transaksi di supermarket, misalnya seseorang
yang membeli susu bayi juga membeli sabun mandi. Pada kasus ini berarti
susu bayi bersama dengan sabun mandi. Karena awalnya berasal dari studi
tentang database transaksi pelanggan untuk menentukan
kebiasaan suatu produk dibeli bersama produk apa, maka aturan asosiasi juga
sering dinamakan market basket analysis. Aturan asosiasi ingin
memberikan informasi tersebut dalam bentuk hubungan “if-then” atau “jika-maka”.
Aturan ini dihitung dari data yang sifatnya probabilistik (Santoso, 2007). Analisis asosiasi dikenal juga sebagai
salah satu metode data mining yang menjadi dasar dari berbagai metode data mining lainnya. Khususnya salah
satu tahap dari analisis asosiasi yang disebut analisis pola frekuensi
tinggi (frequent pattern mining) menarik perhatian banyak peneliti untuk
menghasilkan algoritma yang efisien. Penting
tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support
(nilai penunjang) yaitu prosentase kombinasi item tersebut. dalam database dan confidence (nilai kepastian) yaitu kuatnya hubungan antar
item dalam aturan assosiatif. Analisis asosiasi didefinisikan suatu proses
untuk menemukan semua aturan assosiatif yang memenuhi syarat minimum untuk
support (minimum support) dan syarat minimum untuk confidence (minimum
confidence) (Pramudiono, 2007).
Ada beberapa algoritma
yang sudah dikembangkan mengenai aturan asosiasi, namun ada satu algoritma
klasik yang sering dipakai yaitu algoritma
apriori. Ide dasar dari algoritma ini adalah dengan mengembangkan frequent
itemset. Dengan menggunakan satu item dan secara rekursif
mengembangkan frequent itemset dengan
dua item, tiga item dan seterusnya hingga
frequent itemset dengan semua ukuran. Untuk mengembangkan frequent set
dengan dua item, dapat menggunakan frequent set item. Alasannya
adalah bila set satu item tidak melebihi support minimum, maka sembarang ukuran
itemset yang lebih besar tidak akan melebihi support minimum tersebut. Secara
umum, mengembangkan set dengan fc-item menggunakan frequent set dengan k – 1
item yang dikembangkan dalam langkah sebelumnya. Setiap langkah memerlukan
sekali pemeriksaan ke seluruh isi database.
Dalam asosiasi terdapat
istilah antecedent dan
consequent, antecedent untuk mewakili bagian “jika” dan consequent
untuk mewakili bagian “maka”. Dalam analisis ini, antecedent
dan consequent adalah sekelompok item yang tidak punya
hubungan secara bersama (Santoso, 2007).
Dari jumlah besar aturan yang mungkin dikembangkan, perlu memiliki
aturan-aturan yang cukup kuat tingkat ketergantungan antar item dalam
antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, digunakan
ukuran support dan confidence. Support adalah rasio antara jumlah transaksi
yang memuat antecedent dan consequent dengan jumlah transaksi. Confidence
adalah rasio antara jumlah transaksi yang meliputi semua item dalam antecedent
dan consequent dengan jumlah
transaksi yang meliputi semua item dalam antecedent.
|
Langkah
pertama algoritma apriori adalah, support
dari setiap item dihitung dengan men-scan database. Setelah support dari setiap item didapat, item yang memiliki support lebih
besar dari minimum support dipilih
sebagai pola frekuensi tinggi dengan panjang 1 atau sering disingkat 1-itemset.
Singkatan k-itemset berarti satu set yang terdiri dari k item. Iterasi
kedua menghasilkan 2-itemset yang tiap
set-nya memiliki dua item. Pertama dibuat kandidat 2-itemset dari kombinasi
semua 1-itemset. Lalu untuk tiap kandidat 2-itemset ini dihitung support-nya dengan men-scan database.
Support artinya jumlah transaksi
dalam database yang mengandung
kedua item dalam kandidat 2-itemset. Setelah
support dari semua kandidat
2-itemset didapatkan, kandidat 2-itemset yang memenuhi syarat minimum
support dapat ditetapkan sebagai
2-itemset yang juga merupakan pola frekuensi tinggi dengan panjang 2.(Pramudiono, 2007). Untuk
selanjutnya iterasi iterasi ke-k dapat
dibagi lagi menjadi beberapa bagian :
1. Pembentukan Kandidat Itemset
Kandidat
k-itemset dibentuk dari kombinasi (k-1)-itemset yang didapat dari iterasi
sebelumnya. Satu ciri dari algoritma
apriori adalah adanya pemangkasan
kandidat k-itemset yang subset-nya yang berisi k-1 item tidak termasuk dalam
pola frekuensi tinggi dengan panjang k-1.
2. Penghitungan
Support Dari Tiap Kandidat (K-Itemset)
Support
dari tiap kandidat k-itemset didapat dengan men-scan database untuk menghitung
jumlah transaksi yang memuat semua item di dalam kandidat k-itemset tersebut.
Ini adalah juga ciri dari algoritma apriori yaitu diperlukan penghitungan
dengan scan seluruh database sebanyak k-itemset terpanjang.
3. Tetapkan Pola
Frekuensi Tinggi
Pola
frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari kandidat
k-itemset yang support-nya lebih besar dari minimum support. Kemudian dihitung confidence masing-masing
kombinasi item. Iterasi berhenti ketika semua item telah dihitung sampai tidak
ada kombinasi item lagi. (Pramudiono,
2007)
Secara
ringkas algoritma apriori sebagai berikut :
Create L1 = set of supported itemsets of
cardinality one
Set k to 2
while (Lk−1 _= ∅)
{
Create Ck from Lk−1
Prune all the itemsets in Ck that are not
supported, to create Lk
Increase k by 1
}
The set of all supported itemsets is L1 ∪
L2 ∪
· · · ∪
Lk
Selain
algoritma apriori, terdapat juga
algoritma lain seperti FP-Grwoth.
Perbedaan algoritma apriori dengan
FP-Growth pada banyaknya scan database. Algoritma apriori melakukan
scan database setiap kali iterasi sedangkan algoritma FP-Growth hanya melakukan
sekali di awal (Bramer, 2007).
2. Decision Tree
Dalam decision tree tidak menggunakan vector jarak untuk mengklasifikasikan obyek. Seringkali data observasi mempunyai atribut-atribut yang bernilai nominal. Seperti yang diilustrasikan pada gambar 2.5, misalkan obyeknya adalah sekumpulan buah-buahan yang bisa dibedakan berdasarkan atribut bentuk, warna, ukuran dan rasa. Bentuk, warna, ukuran dan rasa adalah besaran nominal, yaitu bersifat kategoris dan tiap nilai tidak bisa dijumlahkan atau dikurangkan. Dalam atribut warna ada beberapa nilai yang mungkin yaitu hijau, kuning, merah. Dalam atribut ukuran ada nilai besar, sedang dan kecil. Dengan nilai-nilai atribut ini, kemudian dibuat decision tree untuk menentukan suatu obyek termasuk jenis buah apa jika nilai tiap-tiap atribut diberikan (Santoso, 2007).
Level 0
Level 1
Besar
Sedang Kecil
Besar
Kecil
Bulat Lonjong Level 2
Level 3
Gambar
2.5 Decision Tree
Ada beberapa macam
algoritma decision tree diantaranya CART dan C4.5. Beberapa isu utama
dalam decision tree yang menjadi perhatian yaitu seberapa
detail dalam mengembangkan decision
tree, bagaimana mengatasi atribut yang bernilai continues, memilih ukuran yang
cocok untuk penentuan atribut, menangani data training yang mempunyai data yang
atributnya tidak mempunyai nilai, memperbaiki efisiensi perhitungan (Santoso, 2007). Decision tree sesuai digunakan untuk kasus-kasus yang
keluarannya bernilai diskrit. Walaupun banyak variasi model decision tree
dengan tingkat kemampuan dan syarat yang berbeda,
Pada umumnya beberapa ciri yang
cocok untuk diterapkannya decision tree adalah sebagai berikut :
1. Data dinyatakan dengan pasangan atribut dan
nilainya
2. Label/keluaran data biasanya bernilai diskrit
3. Data mempunyai missing value (nilai dari
suatu atribut tidak diketahui)
Dengan
cara ini akan mudah mengelompokkan obyek ke dalam beberapa kelompok. Untuk
membuat decision tree perlu memperhatikan hal-hal berikut ini :
1. Atribut mana yang akan dipilih untuk
pemisahan obyek
2. Urutan atribut mana yang akan dipilih
terlebih dahulu
3. Struktur tree
4. Kriteria pemberhentian
5. Pruning
Decision tree mempunyai beberapa
keuntungan sebagai berikut :
1.
Decision tree mudah dimengerti dan diinterprestasikan.
2.
Penyiapan data untuk decision tree adalahutama dan
tidak dibutuhkan.
3.
Decision tree dapat mengatasi, baik data nominal
maupun kategorial.
4.
Decision tree merupakan model white box.
5.
Decision tree dapat melakukan validasi terhadap model
dengan tes statistik.
Hal itu akan memungkinan untuk
menghitung reliabilitad model.
Decision tree meruakan teknik yang kuat, dapat
bekerja baik dengan data yang besar dalam waktu yang singkat.
Manfaat pohon
keputusan Decision
tree
·
Mem-break down
proses pengambilan keputusan yang kompleks
menjadi lebih simpel sehingga mengambil keputusan akan lebih
menginterpretasikan solusi dari permasalahn
·
Pohon keputusan
juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara
sejumlah calon variabel input dengan sebuah variabel target.
·
Pohon keputusan
memadukan antara eksplorasi data dengan pemodelan, sehingga sangat bagus
sebagai langkah awal dalam proses pemodelan bahkan ketika di jadikan sebagai
model akhir dari beberapa teknik lain
3. Clustering
Clustering
termasuk metode yang sudah cukup dikenal dan banyak dipakai dalam data mining.
Sampai sekarang para ilmuwan dalam bidang data miningmasih melakukan berbagai
usaha untuk melakukan perbaikan model
clustering karena metode yang dikembangkan sekarang masih bersifat heuristic. Usaha-usaha untuk menghitung
jumlah cluster yang optimal dan pengklasteran yang paling
baik masih terus dilakukan. Dengan demikian menggunakan metode yang sekarang,
tidak bisa menjamin hasil pengklasteran sudah merupakan hasil yang optimal.
Namun, hasil yang dicapai biasanya sudah cukup bagus dari segi praktis.
Gambar
2.6: Clustering
Tujuan utama dari metode clustering
adalah pengelompokan sejumlah data/obyek ke alam cluster (group) sehingga dalam
setiap cluster akan berisi data yang semirip mungkin
seperti diilustrasikan pada gambar 2.6. Dalam clustering metode ini
berusaha untuk menempatkan obyek yang mirip (jaraknya dekat) dalam satu
klaster dan membuat jarak antar klaster sejauh mungkin. Ini berarti obyek dalam
satu cluster sangat mirip satu sama lain dan berbeda
dengan obyek dalam cluster-cluster yang
lain. Dalam metode ini tidak
diketahui sebelumnya berapa
jumlah cluster dan bagaimana pengelompokannya.
4. Software Aplikasi
Software aplikasi terdiri atas program yang berdiri
sendiri yang mampu mengatasi kebutuhan
bisnis tertentu. Aplikasi memfasilitasi operasi bisnis atau pengambilan
keputusan manajemen maupun teknik sebagai tambahan dalam aplikasi pemrosesan
data konvensional. Sofware aplikasi digunakan untuk mengatur fungsi bisnis
secara real time (Pressman, 2005).
5. Desain Model Aplikasi
Desain model dari
aplikasi terdiri dari physical model dan
logical model. Physical model dapat digambarkan dengan bagan alir sistem.
Logical model dalam sistem informasi
lebih menjelaskan kepada pengguna
bagaimana nantinya fungsi-fungsi di sistem informasi secara logika akan bekerja.
Logical model dapat digambarkan dengan DFD (Data Flow Diagram)
dan kamus data (Data Dictionary). Adapun penjelasan dari alat bantu dalam
desain model adalah sebagai berikut :
A.
Diagram Konteks (Context Diagram)
Diagram
konteks adalah sebuah diagram sederhana yang menggambarkan hubungan antara
proses dan entitas luarnya. Adapun simbol-simbol dalam diagram konteks seperti
dijelaskan pada tabel 2.2
Tabel 2.2:
Simbol-simbol Context Diagram
Simbol
|
Keterangan
|
Proses, menunjukkan suatu proses untuk
menerima masukkan dan menghasilkan keluaran.
|
|
Entitas luar, merupakan sumber atau tujuan dari
aliran data atau ke sistem. Entitas luar merupakan lingkungan luar sistem.
|
|
Arus Data atau Aliran Data, yaitu komponen yang menggambarkan aliran data dari satu proses ke proses lainnya.
|
B. DFD (Data Flow Diagram)
DFD merupakan suatu model logika yang
menggambarkan asal data dan tujuan data
yang keluar dari sistem, serta menggambarkan penyimpanan data dan proses yang
mentranformasikan data. DFD menunjukkan hubungan antara data pada sistem dan proses pada sistem.
Beberapa simbol yang digunakan dalam DFD diterangkan pada tabel 2.3
Tabel 2.3: Simbol-simbol DFD
Simbol
|
Keterangan
|
Proses yang berfungsi untuk menunjukkan
transformasi dari masukkan menjadi keluaran
|
|
Arus Data atau Aliran Data, yaitu komponen yang menggambarkan aliran data dari satu proses ke proses
lainnya.
|
|
Tempat penyimpanan, yaitu komponen yang digunakan untuk
menyimpan kumpulan data, penyimpanan data bisa berupa file,database, maupun yang berupa record.
|
|
Entitas
luar, merupakan sumber atau tujuan dari
aliran data atau ke sistem. Entitas luar merupakan lingkungan luar sistem.
|
C. Perancangan Perangkat Lunak
Proses
perancangan sistem membagi persyaratan dalam sistem perangkat keras atau
perangkat lunak. Kegiatan ini menentukan arsitektur sistem secara keseluruhan.
Perancangan perangkat lunak melibatkan
identifikasi dan deskripsi abstraksi sistem perangkat lunak yang mendasar dan
hubungan-hubungannya (Sommerville, 2003).
Sebagaimana persyaratan, desain didokumentasikan dan menjadi bagian dari
konfigurasi software (Pressman, 1997).
Tahap desain meliputi perancangan data, perancangan fungsional, dan perancangan
antarmuka.
1.
Perancangan data
Perancangan data
mentransformasikan model data yang dihasilkan oleh proses analisis menjadi
struktur data yang dibutuhkan pada saat pembuatan program (coding). Selain itu
juga akan dilakukan desain terhadap struktur
database yang akan dipakai.
2.
Perancangan fungsional
Perancangan fungsional
mendeskripsikan kebutuhan fungsi-fungsi utama perangkat lunak.
3.
Perancangan antarmuka
Perancangan
antarmuka mendefinisikan bagaimana
pengguna (user) dan perangkat lunak berkomunikasi dalam menjalankan fungsionalitas
perangkat lunak.
D. Implementasi dan Pengujian Unit
Pada
tahap ini, perancangan perangkat lunak direalisasikan sebagai serangkaian
program atau unit program. Kemudian
pengujian unit melibatkan verifikasi bahwa setiap unit program telah
memenuhi spesifikasinya (Sommerville, 2003).Program sebaiknya
dirilis setelah dikembangkan, diuji untuk memperbaiki kesalahan yang ditemukan
pada pengujian untuk menjamin kualitasnya
(Padmini, 2005). Terdapat dua metode pengujian yaitu :
1. Metode white box yaitu pengujian yang berfokus pada logika
internal software (source code program).
2. Metode black box yaitu mengarahkan pengujian untuk menemukan
kesalahan-mesalahan dan memastikan bahwa
input yang dibatasi akan
memberikan hasil aktual yang sesuai dengan hasil yang dibutuhkan. Pada tahap
pengujian, penulis melakukan metode
black box yaitu menguji
fungsionalitas dari perangkat lunak saja tanpa harus mengetahui struktur
internal program (source code).
2.5 Penerapan Data Mining
Dalam bidang apasaja data mining dapat diterapkan? Berikut beberapa contoh
bidang penerapan data mining:
·
Analisa pasar dan manajemen
Solusi yang dapat di selesaikan dengan Data Mining,
diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke
waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer,
Menilai loyalitas Customer, Informasi Summary.
A. Analisa Perusahaan dan Manajemen resiko
Solusi yang dapat diselesaikan dengan
data mining diantaranya: Perencanaan keuangan dan evaluasi aset, perencanaan
sumber daya (resource planning), persaingan
(competition).
B. Telekomunikasi
Sebuah perusahaan telekomunikasi
menerapkan data mining untuk melihat dari jutaan transaksi yang masuk,
transaksi mana sajakah yang masih harus ditangani secara manual
C. Keuangan
Financial Crimes Enforcement Network
di Amerika Serikat baru-baru ini menggunakan data mining untuk menambang
triliyunan dari berbagai subyek seperti property, rekening bank dan transaksi
keuangan lainnya untuk mendeteksi transaksi-transaksi keuangan yang
mencurigakan (Seperti money laundry)
D. Asuransi
Australian Health Insurance
Commision menggunakan data mining untuk mengidentifikasi layanan lesehatan yang
sebenarnya tidak perlu tetapi tetap dilakukan oleh peserta asuransi.
E. Olahraga
IBM Advanced Scout menggunakan data
mining untuk menganalisis statistik permainan NBA (jumlah shots blocked,
assists dan fouls) dalam rangka mencapai keunggulan bersaing (competitive
advantage) untuk tim New York Knicks dan Miami Heat.
2.5.1 Proses
Data Mining
Fase-fase dimulai dari data mentah
dan berakhir dengan pengetahuan atau informasi yang telah diolah, yang
didapatkan sebagai hasil dari tahapan-tahapan berikut:
A. Data Cleansing, juga dikenal sebagai data
cleansing, ini adalah sebuah fase dimana data-data tidak lengkap, mengndung
error dan tidk konsisten dibuang dari koleksi data, sehingga data yang telah
bersih relevan dapat digunakan untuk diproses ulang untuk penggalian
pengetahuan(discovery knowledge)
B. Data Integration, pada tahap ini terjadi integrasi
data,dimana sumber-sumber data yang berulang(multiple data), file-file yang
berulang(multiple file), dapat dikombinasikan dan digabungkan kedalam suatu
sumber.
C. Data Selection, pada langkah ini, data yang relevan
terhadap analisis dapat dipilih dan diterima dari koleksi data yang ada.
D. Data Transformation, juga dikenal sebagai data
consolidation. Pada tahap ini, dimana data-data yang telah terpilih,
ditransformasikan kedalam bentuk-bentuk yang cocok untuk prosedur penggalian
(meaning proedure) dengan cara melakukan normalisasi dan agregasi data.
E. Data Mining, tahap ini adalah tahap yang paling
penting, dengan menggunakan teknik-teknik yang diaplikasikan untuk mengekstrak
pola-pola potensial yang berguna.
F. Pattern Evaluation, pada tahap ini, pola-pola menarik
dengan jelas mempresentasikan pengetahuan telah diidentifikasi berdasarkan
measure yang telah diberikan.
G. Knowledge Representation, ini
merupakan tahap terakhir dimana pengetahuan yang telah ditemukan secara visual
ditampilkan kepada user.Tahap penting ini menggunakan teknik visualisasi untuk
membantu user dalam mengerti dan menginterpresentasikan hasil dari data mining.
2.5.2
Jenis-jenis Data Mining
1.
Market
Basket Analysis
Himpunan
data yang dijadikan sebagai objek penelitian pada area data mining. Market
basket analysis adalah proses yang untuk menganalisis kebiasaan pelanggan dalam
menyimpan item-item yang akan dibeli ke dalam keranjang belanjaan. Market
basket analysis memamfaatkan data transaksi penjualan untuk dianalisi sehingga
dapat ditemukan pola berupa item-item yang cenderung muncul bersama dalam
sebuah transaksi.
Selanjutnya
pola yang ditemuka dapat dimamfaatkan untuk merancang strategi penjualan atau pemasaran yang
efektif, yaitu dengan menempatkan item-item yang sering dibeli bersama kedalam
sebuah area yang berdekatan, merancang tampilan item-item di catalog,merancang
kupon diskon (untuk diberikan pada pelanggan yang dibeli item tertentu),
merancang penjualan item-item dalam bentuk paket, dan sebagainya.
2.
Memory-ased Reasoning
Metode
klasifikasi yang digabungkan dengan penalaran berbasis memori. Proses
menggunakan satu set data untuk membuat model dari prediksi atau asumsi-asumsi
yang dapat dibuat tentang objek baru yang diperkenalkan.
Ada
dua komponen dasar untuk MBR. Yang pertama adalah kesamaan fungsi, yang
mengukur bagaimana anggota yang sama dari setiap pasangan object satu sama
lain. Yang kedua adalah fungsi kombinasi, yang kedua adalah fungsi kombinasi,
yang digunakan untuk meggabungkan hasil dari himpunan tetangga untuk sampai
pada keputusan.
3.
Cluster Detection
Ada dua pendekatan
untuk clustering pendekatan pertama adalah dengan mengasumsi bahwa sejumlah
cluter sudah tersimpan dalam data,
tujuannya adalah untuk memecah data ke dalam cluster. Pendekatan lain, disebut
clustering agglomerative, dengan asumsi keberadaan setiap jumlah yang telah
ditetapkan cluster tertentu, setiap item keluar cluster sendiri, dan proses
terjadi berulang-ulang yang berupaya untuk menggabungkan cluster, meskipun proses
komputasi sama.
4.
Link
Analysis
Proses
mencari dan membangun hubungan antara object dalam kumpulan data juga
mencirikan sifat yang terkait dengan
hubungan antara dua object. Link Analysis berguna untuk aplikasi analisis yang
mengandalkan teori grafik untuk mengambil kesimpulan. Selain itu Link Analysis
berguna untuk proses optimasi.
5.
Rule Induction
Ekstraksi
aturan sebab-akibat dari data secara statistic. Identifikasi aturan bisnis yang
tersimpan didalam data. Metode berhubungan dengan induksi aturan yang digunakan
untuk proses penemuan. Salah satu pendekatan untuk penemuan aturan adalah
menggunakan pohon keputusan.
6.
Neural Network
Metode
prediksi non linear yang melakukan pembelajaran melalui latihan dan menyerupai
struktur jaringan nerual yang dapat pada
mahluk hidup. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas
dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang
sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik
komputer lainnya.
·
Apa Yang Bisa Dan Tidak Bisa Dilakukan Data Mining
Secara
umum, data mining dapat melakukan dua hal:
·
Memberikan
kesempatan untuk menemukan informasi menarik yang tidak terduga ,
·
Bisa menangani
data berkala besar.
Dalam
menemukan informasi yang menarik ini, ciri khas
data minimg adalah kemampuan pencarian secara hampir otomatis. Mengapa
disebut hampir otomatis karna banyak
teknik data mining ada beberapa parameter yang masih harus ditentukan secara
manual atau semi manual.
Data mining juga memiliki kemampuan di antaranya :
·
Mampu menangani
data dalam jumlah besar
·
Memungkinkan
data mining untuk diterapkan pada masalah-masalah kompleks yang ukurannya tidak
dibatasi oleh otak manusia.
·
Selain itu
penelitiantentang algoritma paraller
dari data mining juga membuka jalan agar data mining diterapkan pada program
skala yang lebih besar lagi.
Sebaliknya,
disamping memiliki kemampuan ada beberapa hal yang tidak bisa dilakukan
oleh data mining, antaranya:
·
perlu disadari
bahwa data mining bukanlah solusi yang
cocok untuk setiap masalah. Ada banyak masalah yang justru lebih baik
diselesaikan dengan statistic yang sederhana.
·
Data mining juga
tidak bisa menemukan pengetahuan yang bermanfaat secara instan.
Beberapa hal yang harus diperhatikan oleh seorang
analist:
·
Seorang analis
data mining perlu tahu perbedaan, kelebihan,kekurangan dari teknik-teknik data
mining yang ada sebelumnya mengaplikasikan yang paling cocok untuk masalah yang
di hadapinya.
·
Ketika
menjalankan teknik data mining itu sendiri si analis juga perlu mengarahkan
programnya dengan melakukan persiapan-persiapan dan pemilihan parameternya
·
Setelah data
mining dilaksanakan analis harus melakukan evalusi terhadap pola-polayang
dihasilkan sebelumnya bisa merumuskan hasinya.
Apa
sebenarnya yang memotivasi datamining dan mengapa data mining begitu penting ?
Alasan utama mengapa data mining sangat
menarik perhatian industri informasi dalam beberapa tahun belakangan ini adalah
karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan
untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna.
Data mining adalah kegiatan
mengekstraksi atau menambang pengetahuan dari data yang berukuran/berjumlah
besar, informasi inilah yang nantinya sangat berguna untuk pengembangan.
2.6 Aplikasi
Data Mining
Berikut adalah contoh dari
aplikasi data mining :
1. Association
Rules dan Algoritma Apriori
Association rules merupakan salah satu teknik data
mining yang berfungsi untuk menemukan asosiasi antar variabel, korelasi atau
suatu struktur diantara item atau objek-objek didalam database transaksi,
database relasional, maupun pada penyimpanan informasi lainnya.
Sebagai ilustrasi dalam analisis weblog dari
association rules adalah sebagai berikut, pola yang mungkin adalah “jika
seseorang mengunjungi website CNN, terdapat kemungkinan sebesar 60% orang
tersebut mengunjungi website Detik pada bulan yang sama.” Pada ilustrasi
tersebut, pola yang ditemukan berpotensi menghasilkan potongan informasi yang menarik
dan dibutuhkan oleh perusahaan yang terkait.
Proses di dalam teknik assocation rules adalah mencari
aturan-aturan yang memenuhi minimum support dan confidence. Algoritma yang
pertama kali digunakan dalam teknik association rules dan yang paling banyak
digunakan adalah algoritma apriori (Agrawal & Srikant, 1994).
2. Web Crawler
Web crawler (yang juga dikenal
dengan web spider atau web robot) adalah suatu program atau script otomatis
yang menjelajahi WWW dengan menggunakan sebuah metode atau cara yang otomatis.
Nama-nama yang jarang digunakan pada sebuah web crawler adalah ants, automatic
indexers, bots, worms (Kobayashi & Takeda, 2000)
3. Extended Log File Format
Extended Log Format dirancang untuk memenuhi beberapa
kebutuhan di bawah ini (Baker & Behlendorf, 1996):
a)
Memperbolehkan kontrol pada data yang direkam.
b)
Memenuhi kebutuhan proxy, client dan server dalam
format yang umum.
c)
Menyediakan penanganan yang sempurna akan masalah
penghilangan karakter.
d)
Memperbolehkan dalam pertukaran demografis data.
Memperbolehkan dalam menyajikan rekapitulasi data.
Beberarap domain aplikasi, antara lain:
·
Biomedical and DNA data analysis
·
Financial data analysis
·
Retail industry
·
Telecommunication industry
Biomedical
and DNA Data Analysis
Urutan DNA:
4 blok dasar yang membangun DNA: (nucleotides): adenine (A), cytosine (C),
guanine (G), and thymine (T).
·
Gene: satu urutan/barisan dari ratusan individual
nucleotides tersusun dalam urutan tertentu.
·
Manusia mempunyai sekitar 30,000 genes
·
Sangat banyak cara sehingga nucleotides dapat
diurutkan dan dibariskan untuk membentuk genes yang berbeda.
·
Integrasi semantik dari keberagaman, database genome
yang terdistribusi
·
Current: highly distributed, uncontrolled generation
dan menggunakan data DNA yang sangat luas kebergamannya
·
Metode Data cleaning dan data integration dikembangkan
dalam data mining akan membantu
Contoh : Analisis DNA
·
Pencarian keserupaan dan perbandingan diantara barisan
DNA
·
Bandingkan pola yang sering muncul dari setiap kelas
(misal, penyakit dan kesehatan)
·
Identifikasi pola barisan gene yang berpengaruh dalam
berbagai penyakit.
·
Analisis Association : Pengidentifikasian dari kemunculan
barisan gen
·
Sebagian penyakit tidak di triger melalui satu gen
tunggal tetapi oleh kombinasi gen yang berlaku bersama.
·
Analysis Association dapat membantu menentukan macam
macam dari gen yang kelihatannya akan muncul secara bersamaan dalam contoh
target.
·
Analisis Path : menghubungkan gen ke tingkatan
pengembangan penyakit yang berbeda.
·
Gen yang berbeda dapat menjadi aktif pada tingkatan
berbeda dari penyakit
·
Mengembangkan intervensi pharmaceutical yang
mentargetkan tingkatan yang berbeda secara terpisah.
·
Tool Visualisasi dan analisis data genetika
Data Mining
untuk Analisis Data Keuangan
·
Data keuangan terkumpul di bank dan intstitusi
keuangan yang pada umumnya adalah lengkap, handal dan tinggi kualitasnya.
·
Desain dan konstruksi dari data warehouse untuk
analisis data multidimensi dan data mining.
·
View perubahan debet dan pendapatan/keuntungan
berdasarkan bulan, daerah, sektor dan faktor.
·
Akses informasi statistik seperti max, min, total,
average, trend, dll.
·
Peramalan/prediksi pembayaran pinjaman / analisis
kebijaksanaan kredit konsumen.
·
Pemeringkatan pemilihan fitur dan keterhubungan
atribut
·
Kinerja pembayaran pinjaman
·
Rating kredit konsumen
Data Mining
Keuangan
·
Classification dan clustering dari konsumen untuk
sasaran pemasaran.
·
multidimensional segmentation melalui nearestneighbor,
classification, decision trees, dll. Untuk mengidentifikasi kelompok konsumen
atau mengasosiasi satu konsumen baru ke satu kelompok konsumen yang
tepat/sesuai.
·
Detection of money laundering dan kejahatan keuangan
lainnya
·
integration of from multiple DBs (e.g., bank
transactions, federal/state crime history DBs)
·
Tools: data visualization, linkage analysis,
classification, clustering tools, outlier analysis, and sequential pattern
analysis tools (find unusual access sequences)
STUDI KASUS
Kasus penjualan
Handphone Blacberry sebagai contoh penerapan data mining. Berikut
pembahasannya.
Handphone
(HP) adalah perangkat telekomunikasi
elektronik yang mempunyai kemampuan dasar yang sama dengan telepon konvensional
saluran tetap, namun dapat dibawa ke mana-mana. Seperti yang kita ketahui saat
ini handphone bukanlah lagi barang mewah yang hanya dapat dimilikinorang kaya
atau kalangan berpenghasilan tinggi melainkan seudah menjadi kebutuhan setiap
orang baik kalangan menengah maupun yang berpenghasilan rendah yang digunakan
untuk komunikasi, bertukar dan mencari informasi melalui internet.
Untuk
menarik minat pembeli, penjual menjual berbagai jenis tipe Hp dengan harga yang
beragam. Dari hasil meminingkan data penjual Hp selama sebulan, kita dapat
mengetahui jenis HP apa saja yang laris terjual dan dicari pembeli. Dari data
tersebut kita mengetahui bahwa Hp Blackberry (BB) yang paling banyak laris
terjual. Jadi untuk menaikkan jumlah keuntungan kita dapat meningkatkan jumlah
produksi HpBB di bulan berikutnya dibandingkan dengan produksi tipe Hp yang
lainnya. untuk menarik minat pembeli lebih banyak kita bisa menyebar brosur
tentang produk Hp di toko kita tersebut dengan memasang iklan “Bagi 10 pembeli
Pertama Hp BB Berbagai Tipe, Kami berikan diskon 20%”. Selain itu kita juga
dapat memberikan paket dalam penjualan Hp BB tersebut. Misalnya pembeli membeli
Hp BB itu penjual itu penjual memberikan dia gratis kartu “XL”, dengan begitu
pembeli semakin berminat membeli Hp ditempat kita di banding toko yang lain.
Selain menambah produksi Hp BB kita juga bisa menjual aksesoris Hp seperti
gantungan kunci unik atau cassing unik
Hp BB tersebut. Sehingga membeli Hp bisa saja pembeli tertarik membeli
aksesiris yang kita sediakan ditoko tersebut. Hal tersebut dapat menambah
keuntungan yang lebih besar pada bulan berikutnya bagi penjual dibanding bulan
sebelumnya.
Lalu apa
beda data mining dengan data warehouse dan OLAP (On-line Analytical
Processing)? Secara singkat bisa dijawab bahwa teknologi yang ada di data
warehouse dan OLAP dimanfaatkan penuh untuk melakukan data mining. Gambar di
bawah menunjukkan posisi masing-masing teknologi:
Gambar
2.7 : Data mining dan teknologi database lainnya
Dari gambar
di atas terlihat bahwa teknologi data warehouse digunakan untuk melakukan OLAP,
sedangkan data mining digunakan untuk melakukan information discovery yang
informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst
(dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga
mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih
khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan
satu-satunya bidang ilmu yang mempengaruhi data mining, banyak lagi bidang ilmu
yang turut memperkaya data mining seperti: information science (ilmu
informasi), high performance computing, visualisasi, machine learning,
statistik, neural networks (jaringan syaraf tiruan), pemodelan matematika,
information retrieval dan information extraction serta pengenalan pola. Bahkan
pengolahan citra (image processing) juga digunakan dalam rangka melakukan data
mining terhadap data image/spatial.
Dengan
Memadukan Teknologi OLAP Dengan Data Mining Diharapkan Pengguna Dapat Melakukan
Hal-Hal Yang Biasa Dilakukan Di OLAP Seperti Drilling/Rolling Untuk Melihat
Data Lebih Dalam Atau Lebih Umum, Pivoting, Slicing Dan Dicing. Semua Hal
Tersebut Diharapkan Nantinya Dapat Dilakukan Secara Interaktif Dan Dilengkapi
Dengan Visualisasi.
BAB
III
PENUTUP
3.1
Kesimpulan
Data mining, yang hadir
sebagai teknologi untuk memanfaatkan ketersediaan data bisnis yang melimpah,
telah membantu para pelaku bisnis untuk mempertahankan dan mengembangkan bisnis
mereka.
Akan tetapi, agar teknologi data
mining ini dapat dimanfaatkan terus dengan baik, teknologi ini harus terus
dapat “bekerja” berdampingan dengan bidang lain di dunia teknologi informasi
yang berkembang dengan sangat cepat.
Penyempurnaan di sana-sini masih
terus diperlukan, karena itu peluang riset di bidang ini masih terbuka lebar.
3.2
Saran
Data mining adalah
serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa
pengetahuan yang selama ini tidak diketahui secara manual, juga diartikan
sebagai analisa otomatis dari data yang berjumlah besar atau kompleks dengan
tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak
disadari keberadaannya
Disamping memiliki
kemampuan, data mining juga memiliki keterbatasan yang tidak bisa dilakukannya.
Salah satu tuntutan dari
data mining ketika diterapkan pada data berskala besar adalah diperlukan
metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga
ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya
sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data
mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan
tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya.
DAFTAR PUSTAKA
http://garethdata.blogspot.co.id/2010/03/pengertian-data-mining.html
Robert Bernier, “Data Mining”, http://onlamp.com
Ari Fadli : Konsep Data Minning, Komunitas eLearning
IlmuKomputer.Com Copyright © 2003-2011 IlmuKomputer.Com
www.spss.com/events/e_id_1471/Data
Mining in Higher Education.pdf