Information Retrieval: Tutorial Stemming Porter untuk Bahasa Indonesia Bagian II

Postingan kali ini merupakan lanjutan dari artikel yang pernah saya tulis sebelumnya tentang salah satu implementasi proses Stemming yaitu Stemming Porter untuk bahasa Indonesia . :) Di postingan tersebut telah dibahas bagaimana melakukan stemming pada sebuah kata untuk menghasilkan “kata dasar”.

Masih inget kan kemarin proses-proses Indexing pada Information Retrieval ? hehe.. yup, proses-proses tersebut diantaranya: Word Token/Tokenize, Stopword Removal, Stemming dan Word Weighting . Nah pada kesempatan kali ini yang akan saya bahas adalah proses Stopword Removal, kemudian melakukan stemming pada kalimat/paragram yang sudah kita lakukan Stopword Removal-nya. :)

Stopword Removal merupakan proses yang dilakukan untuk menghilangkan kata-kata “stopword” pada sebuah kalimat/paragraf. Stopword sendiri merupakan kata yang sering atau lazim digunakan dalam kalimat/paragraf. Sehingga pada tahap pertama yang harus kita lakukan adalah mengumpulkan daftar “stopword” atau Stopword List. Contoh dari Stopword List dalam bahasa indonesia antara lain:

  1. Kata penghubung (sesudah,selesai,sebelum)
  2. Kata tugas (bagi, dari, dengan, pada)
  3. Kata keterangan (sangat, hanya, lebih)
  4. Kata bilangan ( beberapa, banyak, sedikit)
  5. Kata ganti ( kami, mereka, kita, itu)
  6. dan lain sebagainya.

Dalam implementasinya, kita dapat menyimpan daftar Stopword tersebut kedalam sebuah tabel sendiri di database. Kemudian melakukan pengecekan satu persatu kata-kata yang ada di dalam kalimat/paragraf dengan data yang ada di database Stopword tersebut. kita bisa melakukan replace (penghapusan) secara langsung jika Stopword tersebut ditemukan di database.

Setelah proses Stopword Removal dilakukan, tahap selanjutnya adalah melakukan Stemming. Stemming yang dilakukan masih menggunakan algoritma porter untuk bahasa indonesia dengan PHP dan MYSQL, Namun pada implementasi kali ini stemming yang dilakukan tidak hanya satu kata, tapi bisa beberapa kata/kalimat/paragraf sekaligus. Untuk selengkapnya bisa anda coba aplikasinya di sini.

Kemudian untuk contoh implementasinya bisa anda download di sini: Stemming Porter Bahasa Indonesia. Di paket tersebut saya sertakan juga database SQL yang sudah saya tambahkan tabel StopWord List-nya. Ok, selanjutnya saya ucapkan selamat belajar dan mencoba, semoga bermanfaat :)

9 thoughts on “Information Retrieval: Tutorial Stemming Porter untuk Bahasa Indonesia Bagian II

  1. alif

    mas, porter sampean kan langsung nyetiming, apakah sampaen bisa porternya di ubah menjadi function masing2x tahapanya???saya udah coba, tapi ga bisa bisa..tolong bantuanya mas..

    Reply
  2. alif

    maksudnya, jika saya masukan sebuah paragraf “aku hanya akan menikah dengan dia dalam keadaan mendadak”

    jika di lakukan stemming, maka akan menghasilkan “tikah ada tdadak”

    nah, karena, asli dari kata dar nya adalah nikah dan dadak,
    maka kata yang bnar = 0 dan kata yang salah=2 yaitu kata tikah dan tdadak..gitu maksudnya mas..

    Reply
  3. wildan

    mas saya sudah download
    dan menggunakan xammp
    tapi saat proses berlangsung tidak bisa mas
    semua syntax function keluar semua di browser
    itu kenapa ya mas?

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *