Berikut salah satu contoh penggunaan teorema bayes untuk menentukan klasifikasi suatu dokumen.
Permasalahan:
Suatu program SMS Gateway dikelola oleh Pemerintah Daerah apakah merupakan sebuah spam atau bukan. SMS Gateway ini menerima sms-sms dari masyarakat mengenai kebijakan Pemerintah Daerah. Pemerintah Daerah kemudian akan meneruskan sms-sms tersebut dinas/instansi terkait yang bertanggungjawab terhadap isi sms tersebut. Dalam kasus ini kita akan mengambil contoh dari 2 instansi, yaitu sms yang ditujukan untuk Dinas Pendidikan dan untuk Satuan Polisi Pamong Praja (Satpol PP)
Pertama-tama kita mulai dengan mengumpulkan (mengklasifikasikan secara manual) data sms yang ditujukan kepada Dinas Pendidikan dan Satpol PP. Dengan demikian kita memiliki dua buah corpus (kumpulan dokumen) dimana satu merupakan kumpulan sms untuk Dinas Pendidikan dan Satpol PP. Sms dari masing-masing corpus tersebut akan dijadikan sebagai training data (data latihan) pengklasifikasi dokumen yang akan dibuat.
Selanjutnya kita hitung jumlah kata-kata yang ada di masing-masing corpus tersebut. jumlah banyaknya kata yang muncul dalam masing-masing corpus tersebut akan menjadi dasar penentuan probabilitas awal (prior probability) dari suatu kata di masing-masing corpus.
, dimana Wi merupakan kata ke-i dalam corpus C.
Sebagai contoh, untuk lebih memudahkan, saya ambil masing-masing dua buah sms Dinas Pendidikan dan Satpol PP sebagai ilustrasi untuk dijadikan corpus. (corpus sendiri seharusnya berisi lebih banyak sms atau bahkan ribuan sms untuk meningkatkan ketepatan kemampuan pengklasifikasian dokumen).
Sms Dinas Pendidikan 1
Kepada bapak bupati tolong di tinjau terutama pengunaan dana BOS. karna kami wali murid merasa terbebani dengan banyaknya pungutan biaya.
Sms Dinas Pendidikan 2
Bagaimana tentang Bos buku di SD ada atau tidak? msh ada SD yang mewajibkan muridnya beli buku.
Sms Satpol PP 1
Pak bupati, mohon PKL untuk ditertibkan/bongkar tanpa pilih kasih.
Sms Satpol PP 2
Pak bupati,coba ditertibkan PKL yang dipinggir Jalan Johar/Kertabumi.
Selanjutnya, kita ambil masing-masing kata dengan jumlah kemunculannya untuk mmbuat tabel probabilitas.
Catatan:
Banyak cara membuat probabilitas. Disini probabilitas suatu kata dihitung dengan membagi banyaknya kata dengan banyaknya dokumen dalam corpus yang bersangkutan. Dalam hal ini adalah 2 karena setiap corpus berisi 2 dokumen sms.
Probabilitas sendiri tidak dapat bernilai lebih dari satu. Oleh karena itu, sebagaimana yang dilakukan oleh Paul Graham (dalam tulisannya Plan for Spam), hasil pembagian yang menghasilkan angka >= 1, maka probalitasnya adalah 0,99. sedangkan hasil pembagian yang menghasilkan angka <= 0, probabilitasnya adalah 0,01
|
No |
Kata |
Dinas Pendidikan |
Satpol PP |
||
|
Jml Kata |
Probabilitas |
Jml Kata |
Probabilitas |
||
|
1 |
Ada |
2 |
0,99 |
0 |
0,01 |
|
2 |
Atau |
1 |
0.50 |
0 |
0,01 |
|
3 |
Bagaimana |
1 |
0.50 |
0 |
0,01 |
|
4 |
Banyaknya |
1 |
0.50 |
0 |
0,01 |
|
5 |
Bapak |
1 |
0.50 |
0 |
0,01 |
|
6 |
Beli |
1 |
0.50 |
0 |
0,01 |
|
7 |
Biaya |
1 |
0.50 |
0 |
0,01 |
|
8 |
Bongkar |
0 |
0.00 |
1 |
0.50 |
|
9 |
Bos |
2 |
0,99 |
0 |
0,01 |
|
10 |
Buku |
2 |
0,99 |
0 |
0,01 |
|
11 |
Bupati |
1 |
0.50 |
2 |
0,99 |
|
12 |
Coba |
0 |
0,01 |
1 |
0.50 |
|
13 |
Dana |
1 |
0.50 |
0 |
0,01 |
|
14 |
Dengan |
1 |
0.50 |
0 |
0,01 |
|
15 |
Di |
1 |
0.50 |
0 |
0,01 |
|
16 |
Dipinggir |
0 |
0,01 |
1 |
0.50 |
|
17 |
Ditertibkan |
0 |
0,01 |
2 |
0,99 |
|
18 |
Ditinjau |
1 |
0.50 |
0 |
0,01 |
|
19 |
Jalan |
0 |
0,01 |
1 |
0.50 |
|
20 |
Johar |
0 |
0,01 |
1 |
0.50 |
|
21 |
Kami |
1 |
0.50 |
0 |
0,01 |
|
22 |
Karena |
1 |
0.50 |
0 |
0,01 |
|
23 |
Kasih |
0 |
0,01 |
1 |
0.50 |
|
24 |
Kepada |
1 |
0.50 |
0 |
0,01 |
|
25 |
Kertabumi |
0 |
0,01 |
1 |
0.50 |
|
26 |
Masih |
1 |
0.50 |
0 |
0,01 |
|
27 |
Merasa |
1 |
0.50 |
0 |
0,01 |
|
28 |
Mewajibkan |
1 |
0.50 |
0 |
0,01 |
|
29 |
Mohon |
0 |
0,01 |
1 |
0.50 |
|
30 |
Murid |
1 |
0.50 |
0 |
0,01 |
|
31 |
Muridnya |
1 |
0.50 |
0 |
0,01 |
|
32 |
Pak |
0 |
0,01 |
2 |
0,99 |
|
33 |
Penggunaan |
1 |
0.50 |
0 |
0,01 |
|
34 |
Pilih |
0 |
0,01 |
1 |
0.50 |
|
35 |
PKL |
0 |
0,01 |
2 |
0,99 |
|
36 |
Pungutan |
1 |
0.50 |
0 |
0,01 |
|
37 |
Sd |
2 |
0,99 |
0 |
0,01 |
|
38 |
Tanpa |
0 |
0,01 |
1 |
0.50 |
|
39 |
Tentang |
1 |
0.50 |
0 |
0,01 |
|
40 |
Terbebani |
1 |
0.50 |
0 |
0,01 |
|
41 |
Terutama |
1 |
0.50 |
0 |
0,01 |
|
42 |
Tidak |
1 |
0.50 |
0 |
0,01 |
|
43 |
Tolong |
1 |
0.50 |
0 |
0,01 |
|
44 |
Untuk |
0 |
0,01 |
1 |
0.50 |
|
45 |
Wali |
1 |
0.50 |
0 |
0,01 |
|
46 |
Yang |
1 |
0.50 |
1 |
0.50 |
* Tunggu bahasan selanjutnya!