Arsip untuk Maret, 2008

Penggunaan Teorema Bayes Untuk Mengklasifikasikan Dokumen (2)

Maret 1, 2008

Tulisan ini merupakan lanjutan dari tulisan sebelumnya,

penggunaan-teorema-bayes-untuk-mengklasifikasikan-dokumen-1

Fakta berikutnya adalah probabilitas suatu sms apakah ditujukan untuk Dinas Pendidikan atau untuk Satpol PP. berdasarkan data sms yang kita punyai sebelumnya terlihat bahwa dari:

  • 2 dari 4 sms yang masuk adalah ditujukan untuk Dinas Pendidikan, dengan demikian probabilitas suatu sms yang masuk ditujukan kepada Dinas Pendidikan adalah 2/4 = 0.5 (50 persen).

  • 2 dari 4 sms yang masuk adalah ditujukan untuk Satpol PP, dengan demikian pobabilitas suatu sms yang masuk ditujukan kepada Satpol PP adalah 2/4 = 0.5 (50 persen).

Dari fakta tersebut diatas diketahui bahwa bahwa sebuah sms yang masuk adalah ditujukan untuk Dinas Pendidikan adalah P(S) = 0.5, sedangkan probabilitas untuk Satpol PP adalah P(~S)= 0.5. Fakta ini merupakan probabilitas awal (prior probability) dari suatu sms yang masuk.

Langkah selanjutnya adalah mengambil salah satu sms yang akan digunakan sebagai sample untuk ditentukan klasifikasinya.

Sms Sampel 1

Pak, di SD Tarumanegara masih ada pungutan, padahal sudah ada dana BOS.

Sms Sampel 2

PKL di alun-alun sudah mengganggu lalu lintas, tolong ditertibkan.

Uji Sms Sampel 1

Buat matriks kata-kata dengan probabilitas sesuai dengan corpus. Untuk kata-kata yang baru (tidak ada dalam corpus) probabilitas bernilai 0,50. hal ini merupakan nilai pertengahan (dalam arti kata tersebut memiliki peluang yang sama besar apakah Dinas Pendidikan atau Satpol PP), sehingga kata baru ini dinilai mempunyai probabilitas yang sama besar apakah termasuk corpus yang dimaksud atau tidak. Probilitas dibandingkan dengan probabilitas total.

No

Kata

Prob

DInas Pendidikan

Prob

Satpol PP

1

Pak

0,01

0,99

2

Di

0,50

0,01

3

SD

0,99

0,01

4

Tarumanegara

0,50

0,50

5

Masih

0,50

0,01

6

Ada

0,99

0,01

7

Pungutan

0,50

0,01

8

Padahal

0,50

0,50

9

Sudah

0,50

0,50

10

Dana

0,50

0,01

11

Bos

0,99

0,01

¶p(wi|C)

7.58046E-05

1.2E-15

Bandingkan kata-kata yang ada dalam SMS tersebut dengan teorema bayes, sesuai dengan probabilitas yang ada dalam matriks probabilitas corpus.

Pertama kita bandingkan kata-kata yang ada dengan probabilitas di corpus Dinas Pendidikan.

Hasilnya adalah =

= 7.58046E-05

dan

= 1.2E-15

Dari hasil tersebut dapat kita tuliskan

= (0.5 / 1) * 7.58046E-05

= 3.79023E-05

Dan

= (0.5 / 1) * 1.2E-15

= 6.1875E-16

Selanjutnya hasil tersebut kita masukkan kedalam rumus NBC, yaitu

Atau

Ln (3.79023E-05 / 6.1875E-16) = 24.83833172

Karena 24.83833172 > 0, maka sms yang kita uji tersebut dapat kita nyatakan sebagai sms yang ditujukan untuk Dinas Pendidikan.

Dari hasil tersebut terlihat bahwa probabilitas sebelumnya (prior probability) menunjukan bahwa sms yang masuk memiliki peluang yang kurang dapat ditentukan (masing-masing 50 persen), sehingga perlu direvisi kembali untuk melihat kemungkinan lain dari sms tersebut (posterior probability). Melalui NBC posterior probability tersebut dimanfaatkan untuk menentukan sms tersebut secara matematis.

 

Masih belum jelas, anda dapat berlatih dengan menggunakan sample sms yang kedua.