Path: Top > Tugas Akhir - D3 > Jurusan Teknik Komputer dan Informatika > Program Studi Teknik Informatika > REGULER > 2014

Pencarian Dokumen Laporan Tugas Akhir Dengan Pemodelan Topik Menggunakan Metode PLSA (Probabilistic Latent Semantic Analysis) Dan Identifikasi Copy-Paste Pada Kalimat

Searching Final Project Document By Topic Modeling Using PLSA (Probabilistic Latent Semantic Analysis) And Identifying Copy-Paste Of Sentences

Tugas Akhir, 012 / 2014 / JTK
Undergraduate Theses from JBPTPPOLBAN / 2018-04-09 14:59:03
Oleh : Gentur Dwi Teguh S. - 111511039, Putri Noor Frida - 111511048, & Sayidiman Rukhiatna - 111511056 (guntutur@gmail.com)
Dibuat : 2018-04-09, dengan 4 file

Keyword : aplikasi pencarian, dokumen laporan TA, Probabilistic Latent Semantic Analysis, pemodelan topik, penyalinan dokumen, copy paste
Subjek : search engine software, Final Project report, Probabilistic Latent Semantic Analysis, topic modeling, document copying, copy and paste

Laporan TA merupakan karya tulis ilmiah yang dijadikan sebagai salah satu syarat dalam menyelesaikan pendidikan Diploma III (atau setara). Dalam pengerjaannya, mahasiswa membutuhkan banyak referensi, salah satunya adalah dokumen Laporan TA tahun-tahun sebelumnya. Permasalahan yang ditemui saat ini adalah sulit nya mencari dan mengakses dokumen Laporan TA di JTK (Jurusan Teknik Komputer) Polban, karena belum ada nya system yang terkomputasi secara digital serta pencarian yang masih dilakukan secara manual, yaitu dengan cara melihat judul dari katalog yang disediakan. Namun, pada kenyataannya kegiatan pencarian dokumen yang dilakukan terkadang memberikan hasil yang kurang relevan. Hal tersebut dikarenakan pencarian dilakukan berdasarkan pada judul saja, sementara judul tidak begitu merepresentasikan isi dari sebuah Laporan TA. Selain itu, dalam proses pembuatan Laporan TA, diinginkan pencegahan tindakan plagiarism dari Laporan TA tahun-tahun sebelumnya. Tugas Akhir (TA) ini bertujuan untuk mengatasi dua masalah tersebut dengan membuat aplikasi pengolahan dokumen Laporan TA yang memiliki dua fitur Utama. Yang pertama, fitur untuk melakukan pencarian berdasarkan Author dan Judul dengan metode String Compare, sementara untuk melakukan pencarian berdasarkan kata yang terdapat dalam dokumen, dilakukan pemodelan topic menggunakan formula pLSA (Probabilistic Latent Semantic Analysis) untuk memberikan hasil pencarian yang lebih relevan. Fitur yang kedua, mampu mengidentifikasi tindakan penyalinan (copy paste), yang merupakan salah satu tindakan plagiarism. Untuk memenuhi fitur kedua ini, dilakukan perbandingan sekuen kalimat berdasarkan posisi kata dan posisi kalimat. Proses-proses yang terlibat untuk mengolah dokumen laporan TA adalah, melakukan akuisisi dokumen yang didalamnya terdiri dari ekstraksi dokumen ke dalam bentuk kata-kata dan frekuensi nya dengan menggunakan matriks Inverted Index. Ekstraksi dokumen yang dilakukan juga harus mampu menyimpan informasi posisi kata dan posisi kalimat. Kemudian data yang sudah tersimpan pada matriks nantinya akan dipergunakan untuk keperluan topic modeling menggunakan perhitungan formula pLSA. Kemudian hasil perhitungan nya akan digunakan untuk pencarian dokumen berdasarkan kata yang hasil nya ditampilkan melalui system ranking. Uji coba dilakukan terhadap 17 Laporan TA dari tahun-tahun yang berbeda untuk keragaman topic. Aplikasi memberikan hasil pencarian yang lebih relevan dalam lingkup kelompok topic, bila kata-kunci adalah kata tunggal. Hal ini disebabkan system ranking yang digunakan masih sederhana. Aplikasi ini pun dapat memberikan informasi terkait dokumen mana saja yang melakukan tindakan penyalinan (copy-paste) dengan indicator sekuen kalimat yang sama persis. Kata Kunci: aplikasi pencarian, dokumen laporan TA, Probabilistic Latent Semantic Analysis, pemodelan topik, penyalinan dokumen, copy paste.

Deskripsi Alternatif :

Final Project report is a scientific paper which is used as a prerequisite for completing the Diploma III (or equivalent). In the process, students need a lot of references, one such reference is Final Project report of the previous years. Problem arise when people need to search and access the report since the searching is still done manually, and just by the title of documents via catalogue provided by the Polban Central Library and the administrative staff in the Faculty (in this case: Department of Computer Engineering in Polban). In fact, the searching by title was less relevant to the topic the user need. That is because the title doesn’t always represent the contents of the Final Project itself. Moreover, in the process of conducting Final Project, it is desired to prevent the act of plagiarism. This Final Project aims to address these two problems by making a document processing software application of Final Project. Thus, this software application has two main features. The first feature is to search the Final Project report based on Author, Title and by Words. Searching by Author and Title is accomplished using String Compare method. Meanwhile for searching by words contained in the document, topic modeling is performed using the formula of pLSA (Probabilistic Latent Semantic Analysis) to provide more relevant search results than search words syntactically. The second feature, the application can perform the sequence comparison of sentence to identify copy and paste sentences from other documents, which is one of the acts of plagiarism. To accomplish this second feature, the sequence comparison of sentences is performed based on the position of the word and sentence. The processes involved to develop this application are documents acquisition and query processing. Document acquisition involves extracting documents to terms and their frequency of each document in the form of Inverted Index matrix. The extraction must also be able to save the information of words and sentences position into the matrix. The matrix then will be used to calculate topic modeling using pLSA formula. In turn, this topic modeling will be used to search by words for documents and presented through ranking system. The experiment carried out on 17 documents of the Final Project report from different years for the diversity of topics. The application gives more relevant results within the scope of the cluster of topic based on single keyword. This is due to the using of simple ranking system. Applications can also provide information related to any documents which do copy-paste sentences with exactly the same sequence of words as indicator. Keywords: search engine software, Final Project report, Probabilistic Latent Semantic Analysis, topic modeling, document copying, copy and paste.

Beri Komentar ?#(0) | Bookmark

PropertiNilai Properti
ID PublisherJBPTPPOLBAN
Organisasi
Nama KontakErlin Arvelina
AlamatJl. Trsn. Gegerkalong Hilir Ds. Ciwaruga
KotaBandung
DaerahJawa Barat
NegaraIndonesia
Telepon022 201 3789 ext. 168, 169, 239
Fax022 201 3889
E-mail Administratorerlin.arvelina@polban.ac.id
E-mail CKOerlin.arvelina@polban.ac.id

Print ...

Kontributor...

  • Pembimbing 1: Urip Teguh Setijohatmo, B.S.C.S., M.Kom.

    Pembimbing 2: Setiadi Rachmat, B.Eng., M.Eng., Editor: Erlin Arvelina

Download...