Berikut salah satu contoh penggunaan teorema bayes untuk menentukan klasifikasi suatu dokumen.
Permasalahan:
Suatu program SMS Gateway dikelola oleh Pemerintah Daerah apakah merupakan sebuah spam atau bukan. SMS Gateway ini menerima sms-sms dari masyarakat mengenai kebijakan Pemerintah Daerah. Pemerintah Daerah kemudian akan meneruskan sms-sms tersebut dinas/instansi terkait yang bertanggungjawab terhadap isi sms tersebut. Dalam kasus ini kita akan mengambil contoh dari 2 instansi, yaitu sms yang ditujukan untuk Dinas Pendidikan dan untuk Satuan Polisi Pamong Praja (Satpol PP)
Pertama-tama kita mulai dengan mengumpulkan (mengklasifikasikan secara manual) data sms yang ditujukan kepada Dinas Pendidikan dan Satpol PP. Dengan demikian kita memiliki dua buah corpus (kumpulan dokumen) dimana satu merupakan kumpulan sms untuk Dinas Pendidikan dan Satpol PP. Sms dari masing-masing corpus tersebut akan dijadikan sebagai training data (data latihan) pengklasifikasi dokumen yang akan dibuat.
Selanjutnya kita hitung jumlah kata-kata yang ada di masing-masing corpus tersebut. jumlah banyaknya kata yang muncul dalam masing-masing corpus tersebut akan menjadi dasar penentuan probabilitas awal (prior probability) dari suatu kata di masing-masing corpus.
, dimana Wi merupakan kata ke-i dalam corpus C.
Sebagai contoh, untuk lebih memudahkan, saya ambil masing-masing dua buah sms Dinas Pendidikan dan Satpol PP sebagai ilustrasi untuk dijadikan corpus. (corpus sendiri seharusnya berisi lebih banyak sms atau bahkan ribuan sms untuk meningkatkan ketepatan kemampuan pengklasifikasian dokumen).
Sms Dinas Pendidikan 1
Kepada bapak bupati tolong di tinjau terutama pengunaan dana BOS. karna kami wali murid merasa terbebani dengan banyaknya pungutan biaya.
Sms Dinas Pendidikan 2
Bagaimana tentang Bos buku di SD ada atau tidak? msh ada SD yang mewajibkan muridnya beli buku.
Sms Satpol PP 1
Pak bupati, mohon PKL untuk ditertibkan/bongkar tanpa pilih kasih.
Sms Satpol PP 2
Pak bupati,coba ditertibkan PKL yang dipinggir Jalan Johar/Kertabumi.
Selanjutnya, kita ambil masing-masing kata dengan jumlah kemunculannya untuk mmbuat tabel probabilitas.
Catatan:
Banyak cara membuat probabilitas. Disini probabilitas suatu kata dihitung dengan membagi banyaknya kata dengan banyaknya dokumen dalam corpus yang bersangkutan. Dalam hal ini adalah 2 karena setiap corpus berisi 2 dokumen sms.
Probabilitas sendiri tidak dapat bernilai lebih dari satu. Oleh karena itu, sebagaimana yang dilakukan oleh Paul Graham (dalam tulisannya Plan for Spam), hasil pembagian yang menghasilkan angka >= 1, maka probalitasnya adalah 0,99. sedangkan hasil pembagian yang menghasilkan angka <= 0, probabilitasnya adalah 0,01
|
No |
Kata |
Dinas Pendidikan |
Satpol PP |
||
|
Jml Kata |
Probabilitas |
Jml Kata |
Probabilitas |
||
|
1 |
Ada |
2 |
0,99 |
0 |
0,01 |
|
2 |
Atau |
1 |
0.50 |
0 |
0,01 |
|
3 |
Bagaimana |
1 |
0.50 |
0 |
0,01 |
|
4 |
Banyaknya |
1 |
0.50 |
0 |
0,01 |
|
5 |
Bapak |
1 |
0.50 |
0 |
0,01 |
|
6 |
Beli |
1 |
0.50 |
0 |
0,01 |
|
7 |
Biaya |
1 |
0.50 |
0 |
0,01 |
|
8 |
Bongkar |
0 |
0.00 |
1 |
0.50 |
|
9 |
Bos |
2 |
0,99 |
0 |
0,01 |
|
10 |
Buku |
2 |
0,99 |
0 |
0,01 |
|
11 |
Bupati |
1 |
0.50 |
2 |
0,99 |
|
12 |
Coba |
0 |
0,01 |
1 |
0.50 |
|
13 |
Dana |
1 |
0.50 |
0 |
0,01 |
|
14 |
Dengan |
1 |
0.50 |
0 |
0,01 |
|
15 |
Di |
1 |
0.50 |
0 |
0,01 |
|
16 |
Dipinggir |
0 |
0,01 |
1 |
0.50 |
|
17 |
Ditertibkan |
0 |
0,01 |
2 |
0,99 |
|
18 |
Ditinjau |
1 |
0.50 |
0 |
0,01 |
|
19 |
Jalan |
0 |
0,01 |
1 |
0.50 |
|
20 |
Johar |
0 |
0,01 |
1 |
0.50 |
|
21 |
Kami |
1 |
0.50 |
0 |
0,01 |
|
22 |
Karena |
1 |
0.50 |
0 |
0,01 |
|
23 |
Kasih |
0 |
0,01 |
1 |
0.50 |
|
24 |
Kepada |
1 |
0.50 |
0 |
0,01 |
|
25 |
Kertabumi |
0 |
0,01 |
1 |
0.50 |
|
26 |
Masih |
1 |
0.50 |
0 |
0,01 |
|
27 |
Merasa |
1 |
0.50 |
0 |
0,01 |
|
28 |
Mewajibkan |
1 |
0.50 |
0 |
0,01 |
|
29 |
Mohon |
0 |
0,01 |
1 |
0.50 |
|
30 |
Murid |
1 |
0.50 |
0 |
0,01 |
|
31 |
Muridnya |
1 |
0.50 |
0 |
0,01 |
|
32 |
Pak |
0 |
0,01 |
2 |
0,99 |
|
33 |
Penggunaan |
1 |
0.50 |
0 |
0,01 |
|
34 |
Pilih |
0 |
0,01 |
1 |
0.50 |
|
35 |
PKL |
0 |
0,01 |
2 |
0,99 |
|
36 |
Pungutan |
1 |
0.50 |
0 |
0,01 |
|
37 |
Sd |
2 |
0,99 |
0 |
0,01 |
|
38 |
Tanpa |
0 |
0,01 |
1 |
0.50 |
|
39 |
Tentang |
1 |
0.50 |
0 |
0,01 |
|
40 |
Terbebani |
1 |
0.50 |
0 |
0,01 |
|
41 |
Terutama |
1 |
0.50 |
0 |
0,01 |
|
42 |
Tidak |
1 |
0.50 |
0 |
0,01 |
|
43 |
Tolong |
1 |
0.50 |
0 |
0,01 |
|
44 |
Untuk |
0 |
0,01 |
1 |
0.50 |
|
45 |
Wali |
1 |
0.50 |
0 |
0,01 |
|
46 |
Yang |
1 |
0.50 |
1 |
0.50 |
* Tunggu bahasan selanjutnya!
Januari 17, 2008 pukul 10:52 am
Buset dah…, lo ini nulis apaan sih Wan ???
, kagak ngarti gw…, atau lo ini sedang mendalami sesuatu yak???
Januari 25, 2008 pukul 11:50 am
eh,lam knl…
btw aq blh minta tlg g?terangin lebih detail tentang metode bayez dunk…
plzzzz…….
Februari 1, 2008 pukul 8:57 am
Wah wan, untuk materis si bayes ini sih, tangan gw ngacung deh dua – duanya, istilah aceh-nya sih two thumbs up:p. Ditunggu lanjutannya yah, lumayan dah lama gak nemu yang beginian……
Februari 11, 2008 pukul 9:52 am
sip, lanjutannya mudah-mudahan segera menyusul. buat naxnix, kita sama-sama belajar ya. trims.
Februari 22, 2008 pukul 10:04 pm
iya, tolong dong beri contoh kasus lagi tentang bayesian ini. please… tell me by yahoo messenger or email
YM: nadeshiko_rei
Februari 23, 2008 pukul 6:08 am
hehehe3x, iya neeh, lanjutannya lagi dikembangkan, tapi byk kendala.
banjir terus di Karawang, walaupun bukan di daerah rumah, tp cukup menghabiskan waktu ku. kita sama-sama belajar ya brill’s
November 27, 2008 pukul 9:09 am
Mau dunk diajarin tentang probabilitas. tentang penurunan rumus dan tentang menghitung 0,1 dan 0,9 …
tolong dunk,, urgent.. klo bisa kirim email a.s.a.p.
thank you.