Information Retrieval: Tutorial Stemming Porter untuk Bahasa Indonesia Bagian II

Share :

Postingan kali ini merupakan lanjutan dari artikel yang pernah saya tulis sebelumnya tentang salah satu implementasi proses Stemming yaitu Stemming Porter untuk bahasa Indonesia . πŸ™‚ Di postingan tersebut telah dibahas bagaimana melakukan stemming pada sebuah kata untuk menghasilkan “kata dasar”.

Masih inget kan kemarin proses-proses Indexing pada Information Retrieval ? hehe.. yup, proses-proses tersebut diantaranya: Word Token/Tokenize, Stopword Removal, Stemming dan Word Weighting .Β Nah pada kesempatan kali ini yang akan saya bahas adalah proses Stopword Removal, kemudian melakukan stemming pada kalimat/paragram yang sudah kita lakukan Stopword Removal-nya. πŸ™‚

Stopword Removal merupakan proses yang dilakukan untuk menghilangkan kata-kata “stopword” pada sebuah kalimat/paragraf. Stopword sendiri merupakan kata yang sering atau lazim digunakan dalam kalimat/paragraf. Sehingga pada tahap pertama yang harus kita lakukan adalah mengumpulkan daftar “stopword” atau Stopword List. Contoh dari Stopword List dalam bahasa indonesia antara lain:

  1. Kata penghubung (sesudah,selesai,sebelum)
  2. Kata tugas (bagi, dari, dengan, pada)
  3. Kata keterangan (sangat, hanya, lebih)
  4. Kata bilangan ( beberapa, banyak, sedikit)
  5. Kata ganti ( kami, mereka, kita, itu)
  6. dan lain sebagainya.

Dalam implementasinya, kita dapat menyimpan daftar Stopword tersebut kedalam sebuah tabel sendiri di database. Kemudian melakukan pengecekan satu persatu kata-kata yang ada di dalam kalimat/paragraf dengan data yang ada di database Stopword tersebut. kita bisa melakukan replace (penghapusan) secara langsung jika Stopword tersebut ditemukan di database.

Setelah proses Stopword Removal dilakukan, tahap selanjutnya adalah melakukan Stemming. Stemming yang dilakukan masih menggunakan algoritma porter untuk bahasa indonesia dengan PHP dan MYSQL, Namun pada implementasi kali ini stemming yang dilakukan tidak hanya satu kata, tapi bisa beberapa kata/kalimat/paragraf sekaligus. Untuk selengkapnya bisa anda coba aplikasinya di sini.

Kemudian untuk contoh implementasinya bisa anda download di sini: Stemming Porter Bahasa Indonesia. Di paket tersebut saya sertakan juga database SQL yang sudah saya tambahkan tabel StopWord List-nya. Ok, selanjutnya saya ucapkan selamat belajar dan mencoba, semoga bermanfaat πŸ™‚

This entry was posted on Friday, April 6th, 2012 at 8:00 am and is filed under Programming. You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.

9 Responses to “Information Retrieval: Tutorial Stemming Porter untuk Bahasa Indonesia Bagian II”

  1. alif Says:

    mas, porter sampean kan langsung nyetiming, apakah sampaen bisa porternya di ubah menjadi function masing2x tahapanya???saya udah coba, tapi ga bisa bisa..tolong bantuanya mas..

  2. alif Says:

    alhamdulillah function nya barusan saya coba danternyata dh bisa mas..mkc ya mas…

  3. alif Says:

    mas, gmana caranya mencari presisi kata mas???

  4. admin Says:

    @alif, sip.. semoga membantu. yang dimaksud presisi kata seperti apa ya?

  5. alif Says:

    maksudnya, jika saya masukan sebuah paragraf “aku hanya akan menikah dengan dia dalam keadaan mendadak”

    jika di lakukan stemming, maka akan menghasilkan “tikah ada tdadak”

    nah, karena, asli dari kata dar nya adalah nikah dan dadak,
    maka kata yang bnar = 0 dan kata yang salah=2 yaitu kata tikah dan tdadak..gitu maksudnya mas..

  6. reza Says:

    mas stemmingnya da dalam bhs c gak? perlu ni untuk buat tugas kirim ke reza0reza@gmail.com

  7. na2ng Says:

    mas stemmingnya dalam bentuk vb6 gimana? perlu ne buat tugas

  8. wildan Says:

    mas saya sudah download
    dan menggunakan xammp
    tapi saat proses berlangsung tidak bisa mas
    semua syntax function keluar semua di browser
    itu kenapa ya mas?

  9. tata Says:

    mas, link download nya knp tdk bisa? saya sudah coba yg bagian 1, skrng sy butuh yang bagian 2. bisa dikirim ga mas ke email sy tataarpandi@gmail.com
    trmksih

Leave a Reply

CommentLuv badge