Review: Jurnal Peringkasan Dokumen Teks

  1. “Rancang Bangun Sistem Peringkasan Teks Multi-Dokumen” [1]

Dalam penelitian ini membahas tentang peringkasan multi-dokumen berdasarkan pendekatan clustering dan pemilihan kalimat yang diharapkan nantinya akan mampu menghasilkan sebuah ringkasan yang mencakup sebanyak mungkin informasi-informasi penting, keberagaman yang baik, dan koherensi antar kalimat yang tinggi. Pada tahap prepengolahan teks dimana merupakan tahaap awal dalam pemrosesan dokumen, dilakukan pengubahan bentuk dokumen yang semula tidak terstruktur menjadi bentuk terstruktur. Hal tersebut bertujuan guna menghilangkan noise saat pengambilan informasi. Adapun proeses tersebut meliputi segmentasi kalimat, case folding, tokenizing, filtering dan stemming. Setelah dilakukan prapengolahan teks didapatkan hasil berupa matriks yang berisi frekuensi kemunculan term didalam kalimat. Setelah tahap prapengolahan, selanjutnya dilakukan clustering kalimat. Clustering pada proses peringkasan teks bertujuan untuk mengetahui tiap kalimat dalam set dokumen masuk dalam cluster yang tepat.

Pada paper ini mengusulkan metode Similarity Based Histogram Clustering (SHC). Metode ini menggunakan pendekatan cluster similarity histogram dalam menjamin koherensi sebuah cluster. Dalam menghitung tingkat kemiripan suatu kalimat terhadap yang lain pada proses SHC ini digunakan pendekatan semantik menggunakan Latent Semantic Indexing (LSI) yang mana dapat membangun hubungan antara istilah yang satu dengan yang lain dalam konteks kalimat yang serupa. Kemudian dalam proses pengurutan cluster, yaitu pengurutan menggunakan cluster importance. Cluster importance ini merupakan suatu pembobotan cluster berdasarkan jumlah bobot suatu term dalam cluster yang memiliki frekuensi kemunculan diatas batas ambang/ threshold. Selanjutnya adalah proses pemilihan kalimat, pada pemilihan representatif kalimat yang dijadikan kandidat ringkasan dalam suatu cluster merupakan tahapan penting sebuah metode pemilihan representatif kalimat berdasarkan positional text graph dalam menentukan kalimat-kalimat yang informatif. Metode tersebut adalah Sentence Information Density (SID), dimana nilai SID dihitung berdasarkan nilai kemiripan pasangan-pasangan kalimat dalam suatu cluster yang membentuk sebuah graph. Dari penelitian tersebut didapatkan kesimpulan bahwa peringkasan teks multidokumen menggunakan metode LSI dan SHC mampu menjaga koherensi dalam cluster kalimat sehingga menghasilkan ringkasan dengan cakupan yang luas dan memiliki koherensi yang tinggi. Selain itu, penggunakan metode SID juga membantu dalam memilih kalimat mana yang akan dijadikan perwakilan cluster.

  1. Peringkasan Teks Ekstraktif Menggunakan Binary Firefly Algorithm. [2]

Pada penelitian mengenai peringkasan teks ekstraktif menggunakan Binary Firefly Algorithm ini, terdapat banyak algoritma yang digunakan dalam penelitian ini, seperti algoritme NLP, binary firefly, TF-IDF, dan ROUGE. Data latih yang digunakan dalam penelitian diambil dari IndoSum yang berisi artikel berita dan rangkuman berbahasa Indonesia. Sedangkan data uji yang digunakan dalam penelitian ini berupa artikel berita dari internet. Pada penelitian penulis terlihat bahwa apabila ringkasan ekstraktif dibandingkan terhadap ringkasan abstraktif, ringkasan ekstraktif memberikan relative improvement sebesar 47,06% pada ROUGE-1, 34,4% pada ROUGE-2, dan 44,92% pada ROUGE-L. Hasil penelitian menunjukkan bahwa hasil ringkasan menggunakan peringkas ekstraktif masih jauh lebih mirip dengan ringkasan manusia dibandingkan dengan ringkasan hasil dari peringkas abstraktif karena peringkas abstraktif mengandalkan dictionary words untuk merangkai katakata dalam ringkasan. Guna mendapatkan dictionary words yang berkualitas, peringkas abstraktif harus sering dilatih dengan data latih. Meskipun demikian, tetap ada kemungkinan ringkasan hasil dari peringkas abstraktif memiliki unknown word serta terjadi pengulangan frasa terutama ketika data uji yang digunakan berbeda topik dengan data latih yang selama ini dilatih pada peringkas abstraktif. Sehingga mendapat sebuah kesimpula bahwa ringkasan ekstraktif lebih baik dari abstraktif.

Referensi :

[1]     G. Christopher and N. Yusliani, “Rancang Bangun Sistem Peringkasan Teks Multi-Dokumen,” Annual Research Seminar (ARS), vol. 2, no. 1, Art. no. 1, Jan. 2017.

[2]     A. N. Ammar and S. Suyanto, “Peringkasan Teks Ekstraktif Menggunakan Binary Firefly Algorithm,” Indonesia Journal on Computing (Indo-JC), vol. 5, no. 2, Art. no. 2, Oct. 2020, doi: 10.34818/INDOJC.2020.5.2.440.