REVIEW JURNAL PERINGKASAN DOKUMEN TEXT

1. Peringkasan Teks Otomatis Berita Berbahasa Indonesia Menggunakan Metode Maximum Marginal Relevance

  • Penulis : Muchammad Mustaqhfiri, Zainal Abidin, Ririen Kusumawati
  • Penerbit : Jurnal Ilmu Komputer dan Teknologi Informasi (MATICS)
  • Tahun : 2011
  • Volume : Vol. 4 No. 4; 09-2011
  • Tujuan : Untuk membantu pencarian isi berita berupa deskripsi singkat (summary).
  • Metode Penelitian : Metode Maximum Marginal Relevance.
  • Langkah Penelitian : Penelitian diawali dengan lima tahap text preprocessing: pemecahan kalimat,case folding, tokenizing, filtering, dan stemming. Proses selanjutnya menghitung bobot tf-idf, bobot query relevance dan bobot similarity. Ringkasan dihasilkan dari ekstraksi kalimat dengan menggunakan metode maximum marginal relevance.
  • Hasil Uji Coba : Uji coba dilakukan dengan menguji tiap teks berita. Pengujian dilakukan dengan memasukkan isi dari teks berita dan query. Query merupakan judul dari berita. Kalimat-kalimat yang terambil sebagai ringkasan merupakan kalimat yang merepresentasikan query, karena memiliki kesamaan kata-kata pada kalimat query, dan memiliki bobot MMR maksimum antara nilai bobot maksimum 1 hingga bobot minimum 0. Semakin banyak kata-kata yang sama dengan query maka semakin besar peluang kalimat terambil sebagai ringkasan.
  • Kesimpulan : Metode maximum marginal relevance dapat digunakan untuk meringkas single dokumen secara otomatis dengan menggunakan judul artikel berita sebagai query, hasil dari uji coba yang dilakukan menghasilkan rata-rata recall 60%, precision 77%, dan f-measure 66% berdasarkan perbandingan sistem dengan ringkasan manual.

2. PERINGKASAN DOKUMEN BAHASA INDONESIA BERBASISNON-NEGATIVE MATRIX FACTORIZATION ( NMF)

  • Penulis : Achmad Ridok
  • Penerbit : Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK)
  • Tahun : 2014
  • Volume & Halaman : Vol. 1, No. 1, April 2014, hlm. 39-44
  • Tujuan : Memberikan ringkasan suatu dokumen dapat disajikan inti dokumen secara singkat namun memenuhi keperluan pembaca untuk mengetahui secaracepat isi dokumen tanpa harus membaca seluruh dokumen. Peringkasan berbasis computer yang mampu membangkitkan ringksasandokumen secara otomatis.
  • Metode Penelitian : NON-NEGATIVE MATRIX FACTORIZATION ( NMF)
  • Langkah Penelitian : Pada tahap pra proses suatu dokumen teks dipecah ke dalam kalimat-kalimat tunggal dan semua stopword dibuang berdasarkan daftar kata stop hasil. Langkah selanjutnya dilakukan proses steaming untuk mendapatkan akar kata masing-masing term menggunakan algoritma Porter. Selanjutnya bobot masing-masing term akan disimpan dalam matrik A. Proses peringkasan dimulai dengan mengolah matrik A menggunakan algoritma MNF untuk mendapatkan matrik fitur semantik non-negatif W dan matrik variable semantik non negative H. Selanjutnya berdasarkan hasil perhitungan algoritma MNF dihitung relevasi kalimatnya. Nilai bobot relevansi kalimat ini akan digunakan untuk memilih kalimat yang akan dijadikan ringkasan. Algoritma NMF dimulai dengan menginisialisai secara acak matrik Wmxk dan Hkxn, k adalah jumlah kalimat yang akan diekstrak. Proses perhitungan dilakukan untuk menentukan matrik H dan W sampai jumlah maksimum ulangan yang diberikan. Evaluasi yang digunakan pada pernelitian ini bersifat intrinsik, yaitu pengevaluasi dengan cara membuat ringkasan yang ideal kemudian hasilnya dibandingkan dengan ringkasan sistem.
  • Hasil Uji Coba : Secara umum peringkasan dokumen secara otomatis menggunakan NMF ini hasilnya kurang memuaskan. Hal ini ditandai dengan rendahnya nilai rata-rata presisi dan recall. Penyebab terjadinya hal ini adalah sumber data acuan sebagai benchmarkyaitu hasil ringkasan pakar mempunyai nilai rata-rata presisi 0.68667 dan recall 0.70642. Rendahnya nilai presisi dan recall ini menandakan bahwa antara para pakar sendiripun masih terdapat bias antara satu dengan yang lain dalam membuat suatu ringkasan. Dengan nilai presisi dan recall tersebut dapat diartikan jika 2 orang pakar membuat ringkasan suatu teks dengan masing-masin6 6 kalimat dan 7 kalimat, maka 4 kalimat saja yang benar sedangkan 2 dan 3 kalimat tidak sama. Dengan data acuan seperti ini tentu hasil sistem akan lebih banyak bias yang ditimbulkan.
  • Kesimpulan : Pada penelitian ini belum dilakukan uji coba terhadap sensitifitas steaming terhadap sistem secara keseluruhan. Untuk itu pada penelitian berikutnya perlu diuji sejauh mana pengaruh steming terhadap sistem peringkasan menggunakan metode ini. Sebagaimana dijelaskan pada bagain pembahasan, pada penelitian ini nilai H dan W sudah ditetapkan pada awal proses. Untuk itu masih perludiuji sejauh mana pengaruh inisialisai dengan nilai acak pada marik H dan W terhadap kinerja sistem.