Review Jurnal Peringkasan Dokumen

Hampir semua dokumen, artikel, berita dll sudah di simpen dalam sebuah mesin komputer dan juga online. biasanya dokumen yang kita tulis ataupun yang tersedia di sebuah internet memuat informasi yang berlebihan yang mengakibatkan orang yang membaca dokumen kita menjadi susah memahaminya.

Dalam memahami sebuah dokumen yang panjang pasti harus membaca keseluruhan dan memahami perkalimat agar dapat memahami inti sebuah dokumen tersebut. Akan tetapi memahami dokumen dengan metode tersebut kurang maksimal karena membutuhkan waktu membaca yang lama, oleh karena itu dibutuhkan lah sebuah teknik peringkasan dokumen.

Peringkasan dokumen adalah salah satu bidang Natural Language Processing (NLP) yang dapat mengekstrak informasi penting dari teks asli untuk menghasilkan sebuah ringkasan. Sedangkan menurut Najibullah dan Mingyan (2015), peringkasan dokumen adalah proses penyajian kembali dokumen dalam bentuk yang lebih singkat tanpa membuang informasi penting yang terdapat pada dokumen tersebut.

Tujuan dari peringkasan dokumen ialah untuk memperoleh informasi yang penting dari sebuah dokumen (teks) yang akan disajikan kepada pembaca, karena peringkasan teks otomatis mampu menghilangkan kata, kalimat yang dianggap tidak relevan atau redundan dengan tetap menjaga inti makna dari dokumen. Selain itu mempermudah pembaca agar lebih cepat menangkap ide pokok atau isi yang dianggap penting pada dokumen atau teks tanpa membaca dokumen secara keseluruhan.

Banyak metode yang di gunakan untuk meringkas sebuah dokumen, salah satu contoh metode yaitu :

A.Latent Semantic Analysis

B.Cross Latent Semantic Analysis

A.Latent Semantic Analysis

Latent Semantic Analysis (LSA) menurut bahasa terbagi atas beberapa kata yang penting yaitu latent dan semantic, latent yang memiliki arti tersembunyi atau sesuatu yang masih belum terlihat, sedangkan semantic berasal dari bahasa yunani β€œsemanticos” yang berarti memberi tanda, penting atau cabang linguistik yang mempelajari arti dan makna dari suatu bahasa, kode atau jenis representasi lainnya. Dari pengertian dapat ditarik kesimpulan bahwa, LSA adalah menguraikan atau menganalisa makna yang masih tersembunyi dari suatu bahasa, kode atau jenis representasi lainya, guna memperoleh informasi yang penting. Sedangkan menurut Rasha, LSA adalah metode yang didasarkan pada perhitungan untuk mengekstrak dan mewakili makna kontektual dari kata dan kesamaan kalimat. Kesamaan kata dan kalimat diperoleh dengan cara menggunakan Singular Value Decomposition (SVD), di mana SVD mempunyai kapasitas untuk mereduksi noise, sehingga dapat meningkatkan hasil akurasi pada ringkasan.

Konsep LSA direlisasikan dengan menggunakan dua fitur utama yaitu matriks dan SVD, struktur bahasa dalam hal ini ialah, kalimat atau kata diubah menjadi sebuah matriks, sedangkan SVD bertugas untuk mengolah komponen matriks kata dan kalimat guna menemukan hubungan kesamaan antara kata dan kalimat. Teori Aljabar Liner SVD membagi matriks A menjadi tiga bagian yaitu matriks orthogonal U, matriks diagonal S dan matriks orthogonal transpose V secara matematis dapat ditulis dengan Rumus .

𝐴 = π‘ˆπ‘†π‘‰π‘‡

A adalah matriks dokumen yang mewakili kalimat atau kata yang dikenal dengan matriks Amn, U mendiskripsikan matriks orthogonal π‘š Γ— π‘š yang dikenal dengan istilah left singular vector, di mana U dihasilkan dari perkalian antara π‘ˆ = 𝐴.𝑉.π‘†βˆ’1. Right Singular Vektor (V) merupakan matriks orthogonal 𝑛 Γ— 𝑛 yang diperoleh dari eigenvector matriks ATA, sedangkan matriks diagonal S dihasilkan dari eigenvalue matriks ATA yang diakarkan. Adapun langkah-langkah LSA sebagai berikut :

1. Membentuk matriks Amn.

2. Membuat matriks V dan eigenvalue, di mana matriks V adalah hasil dari eigenvector matriks ATA.

3. Membentuk matriks S dengan cara mengurutkan nilai tertinggi eigenvalue kemudian diakarkan.

4. Menghitung length pada setiap nilai matriks VT dengan menggunakan Rumus ,

5. Menentukan hasil ringkasan berdasarkan skor tertinggi dari dokumen kalimat.

Di mana π‘†π‘˜ adalah panjang vektor k pada kalimat yang dimodifikasi oleh laten vektor. n adalah jumlah ruang demensi baru. Hasil dari length terbesar pada setiap dokumen kalimat akan jadikan ringkasan.

B.Cross Latent Semantic Analysis

Cross Latent Semantic Analysis (CLSA) merupakan pengembangan dari algoritma terdahulu yaitu LSA. Secara bahasa cross memiliki arti memotong, menyembrangi atau menyilang. Maka dapat ditarik kesimpulan bahwa, CLSA menurut bahasa adalah suatu proses silang pada LSA dengan mempercepat atau menggubah beberapa proses pada LSA. Cikal bakal CLSA pertama kali diusulkan oleh Steinberger dan Jezek (2004), Steinberger dan Jezek menilai kesamaan pada topik dan signifikasi kata, akan tetapi pada penelitian Steinberger dan Jezek CLSA belum sama sekali dikenal, namun beberapa proses di LSA dalam hal ini pemanfaatan SVD mengalami perubahan yang berbeda seperti proses peringkasan yang tidak hanya dilihat dari kemiripan antar dokumen kalimat dengan judul berita, melainkan panjang dari sebuah dokumen kalimat juga menjadi faktor yang penting dalam menentukan hasil peringkasan yang lebih baik, penelitian Geetha dan Deepmala (2015) menawarakan pembanding antara LSA pada peringkasan yang buat oleh Steinberger dengan hasil eksperimenya yaitu CLSA. Pada dasarnya Geetha menambah beberapa perubahan di penelitian Steinberger untuk menemukan CLSA.

Berikut langkahlangkah CLSA dalam peringkasan dokumen :

1. Membentuk matriks Amn.

2. Menemukan eigenvector (matriks V) dan eigenvalue dari matriks ATA.

3. Mencari nilai singular (matriks S), dengan cara mengurutkan nilai yang paling tertinggi dan diakarkan.

4. Melakukan Transpose pada eigevector untuk membentuk matriks VT.

5. Menghitung nilai rata-rata dari matriks VT, seperti pada Tabel 1.

6. Melakukan seleksi pada setiap nilai matriks VT, apabila nilai tersebut lebih kecil dari nilai ratarata pada setiap dokumen kalimat, maka nilai pada matriks VT diubah menjadi 0 dan membentuk matriks V yang baru seperti pada Tabel 2.

7. Menghitung nilai length pada setiap matriks VT dengan menggunakan Rumus 4 untuk memperoleh skor dari tiap-tiap dokumen kalimat.

8. Menentukan hasil ringkasan berdasarkan skor tertinggi dari dokumen kalimat.

Nilai yang dicoret pada Tabel 1 adalah nilai yang lebih kecil dari rata-ratanya, seperti dokumen kalimat d0 = 8.2269-03 lebih kecil dari hasil rata-rata d0 yaitu 0,1526 maka nilai VT tersebut diubah menjadi 0 (lihat Tabel 1 dan Tabel 2).

Hasil Pengujian :

Hasil peringkasan CLSA  dan LSA menggunakan 240 artikel berita dengan compression rate 30% oleh dua pakar dapat dilihat pada Tabel 3 dan Tabel 4.

Dari kedua hasil pengujian ringkasan Pakar-1 dan Pakar-2, setelah dirata-ratakan memperoleh akurasi F-Measure CLSA 0,7240 sedangkan LSA 0,7005. Terlihat bahwa meskipun CLSA memiliki akurasi yang lebih tinggi dari LSA, namun hasil tersebut tidak terlalu jauh berbeda seperti pada Tabel 5. Selain itu, pada penelitian ini juga menemukan bahwa umumnya hasil ringkasan CLSA jauh lebih pendek dari pada LSA seperti pada Gambar 3.

Kesimpulan :

Peringkasan suatu dokumen sangat membantu dalam mengartikan isi sebuah dokumen. banyak metode dalam peringkasan salah satu contohnya yaitu Latent Semantic Analysis dan Cross Latent Semantic Analysis. kedua metode tersebut jika di coba dengan dataset yang sama akan mendapatkan nilai rata-rata yang berbeda akan tetapi jarak selisihnya tidak terlalu jauh antara keduanya. jika di liat dari nilai rata-ratanya CLSA lebih unggul sedikit dari nilai rata-rata LSA, jadi metode CLSA lebih optimal walapun jarak selisihnya sedikit.

Reference jurnal

Mandar, G., & Gunawan, G. (2017). Peringkasan dokumen berita Bahasa Indonesia menggunakan metode Cross Latent Semantic Analysis. Register: Jurnal Ilmiah Teknologi Sistem Informasi, 3(2), 94-104.

Gotami, N. S. W., & Indriati, R. K. D. (2018). Peringkasan Teks Otomatis Secara Ekstraktif Pada Artikel Berita Kesehatan Berbahasa Indonesia Dengan Menggunakan Metode Latent Semantic Analysis. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN, 2548, 964X.

Posted onJanuary 1, 2021AuthorGigih Yudhamara

Post navigation

PREVIOUS

Previous post:

Perbandingan Google Web Search dan Bing Web Search

Proudly powered by WordPress