Tulisan ini merupakan lanjutan dari tulisan sebelumnya,
penggunaan-teorema-bayes-untuk-mengklasifikasikan-dokumen-1
Fakta berikutnya adalah probabilitas suatu sms apakah ditujukan untuk Dinas Pendidikan atau untuk Satpol PP. berdasarkan data sms yang kita punyai sebelumnya terlihat bahwa dari:
- 2 dari 4 sms yang masuk adalah ditujukan untuk Dinas Pendidikan, dengan demikian probabilitas suatu sms yang masuk ditujukan kepada Dinas Pendidikan adalah 2/4 = 0.5 (50 persen).
- 2 dari 4 sms yang masuk adalah ditujukan untuk Satpol PP, dengan demikian pobabilitas suatu sms yang masuk ditujukan kepada Satpol PP adalah 2/4 = 0.5 (50 persen).
Dari fakta tersebut diatas diketahui bahwa bahwa sebuah sms yang masuk adalah ditujukan untuk Dinas Pendidikan adalah P(S) = 0.5, sedangkan probabilitas untuk Satpol PP adalah P(~S)= 0.5. Fakta ini merupakan probabilitas awal (prior probability) dari suatu sms yang masuk.
Langkah selanjutnya adalah mengambil salah satu sms yang akan digunakan sebagai sample untuk ditentukan klasifikasinya.
Sms Sampel 1
Pak, di SD Tarumanegara masih ada pungutan, padahal sudah ada dana BOS.
Sms Sampel 2
PKL di alun-alun sudah mengganggu lalu lintas, tolong ditertibkan.
Uji Sms Sampel 1
Buat matriks kata-kata dengan probabilitas sesuai dengan corpus. Untuk kata-kata yang baru (tidak ada dalam corpus) probabilitas bernilai 0,50. hal ini merupakan nilai pertengahan (dalam arti kata tersebut memiliki peluang yang sama besar apakah Dinas Pendidikan atau Satpol PP), sehingga kata baru ini dinilai mempunyai probabilitas yang sama besar apakah termasuk corpus yang dimaksud atau tidak. Probilitas dibandingkan dengan probabilitas total.
|
No |
Kata |
Prob DInas Pendidikan |
Prob Satpol PP |
|
1 |
Pak |
0,01 |
0,99 |
|
2 |
Di |
0,50 |
0,01 |
|
3 |
SD |
0,99 |
0,01 |
|
4 |
Tarumanegara |
0,50 |
0,50 |
|
5 |
Masih |
0,50 |
0,01 |
|
6 |
Ada |
0,99 |
0,01 |
|
7 |
Pungutan |
0,50 |
0,01 |
|
8 |
Padahal |
0,50 |
0,50 |
|
9 |
Sudah |
0,50 |
0,50 |
|
10 |
Dana |
0,50 |
0,01 |
|
11 |
Bos |
0,99 |
0,01 |
|
¶p(wi|C) |
|
7.58046E-05 |
1.2E-15 |
Bandingkan kata-kata yang ada dalam SMS tersebut dengan teorema bayes, sesuai dengan probabilitas yang ada dalam matriks probabilitas corpus.
Pertama kita bandingkan kata-kata yang ada dengan probabilitas di corpus Dinas Pendidikan.
Hasilnya adalah =

= 7.58046E-05
dan
![]()
= 1.2E-15
Dari hasil tersebut dapat kita tuliskan
![]()
= (0.5 / 1) * 7.58046E-05
= 3.79023E-05
Dan
![]()
= (0.5 / 1) * 1.2E-15
= 6.1875E-16
Selanjutnya hasil tersebut kita masukkan kedalam rumus NBC, yaitu
![]()
Atau
Ln (3.79023E-05 / 6.1875E-16) = 24.83833172
Karena 24.83833172 > 0, maka sms yang kita uji tersebut dapat kita nyatakan sebagai sms yang ditujukan untuk Dinas Pendidikan.
Dari hasil tersebut terlihat bahwa probabilitas sebelumnya (prior probability) menunjukan bahwa sms yang masuk memiliki peluang yang kurang dapat ditentukan (masing-masing 50 persen), sehingga perlu direvisi kembali untuk melihat kemungkinan lain dari sms tersebut (posterior probability). Melalui NBC posterior probability tersebut dimanfaatkan untuk menentukan sms tersebut secara matematis.
Masih belum jelas, anda dapat berlatih dengan menggunakan sample sms yang kedua.
Maret 3, 2008 pukul 10:27 pm
Sampe sekarang aku masih bingung ih tentang penggunaan teorema bayes. Itu nanti bisa dilanjutkan ke certainty factor ga?
Maret 6, 2008 pukul 8:33 am
wah3x, good question!
aku coba liat-liat dulu ya,
Maret 6, 2008 pukul 8:58 am
Terkait Certainty Factor, coba baca dulu artikel ini.
http://www.rattlesnake.com/notions/black-white-correspondence.html
Juni 7, 2008 pukul 2:05 pm
Salam kenal,
penjelasan anda benar-benar membuat saya ngerti akan penggunaan teorema bayes namun jika teori tersebut diterapkan dalam kamus digital bisa tidak?maksud saya bisa tidak menggunakan teorema bayes untuk mengklasifikasi kata-kata yang ada didalam kamus digital.
contoh kasus:
masukkan keyword “selamat”, lalu gunakan teorema bayes untuk memperoleh kata-kata yang berhubungan dengan kata “selamat” sehingga menghasilkan kata “selamat pagi”,”selamat malam”,”selamat siang” dll.
dari kata-kata tersebut baru pengguna memiliki pingin mencari arti dari kumpulan kata “selamat” yang diperoleh, secara teroritis bisa diterapkan tidak teorema bayes didalamnya? mohon arahannya dan terima kasih.
Juni 9, 2008 pukul 1:21 pm
good question again, akan saya reply secepatnya.
Tetapi sebagai gambaran, akan diperlukan corpus yang cukup besar dalam penerapannya.
November 6, 2008 pukul 3:44 pm
nice artikel…wah keren ada rumusnya…btw rumusnya tu apaan ya???rumus di atas bwt ngitung ap???