Path: Top > Skripsi - D4 > 2017 > Jurusan Teknik Komputer & Informatika > Program Studi Teknik Informatika > 2023

Ekstraksi Informasi Tabel pada Gambar Tabel Persuratan Militer di PT Len Industri (Persero)

Table Information Extraction on Military Correspondence Table Image at PT Len Industri (Persero)

Skripsi, 021 / 2023 / TI4
Undergraduate Theses from JBPTPPOLBAN / 2024-05-27 15:32:22
Oleh : 191524045 - Herlana & 191524047 - Kayis Shalahuddin (herlana.tif419@polban.ac.id)
Dibuat : 2024-05-27, dengan 4 file

Keyword : Ekstraksi informasi; Citra tabel; Table Information Extraction; Table Structure Recognition; Data Transformation
Subjek : Table Image; Table Information Extraction; Table Structure Recognition; Data Transformation

Pada dokumen aset militer, salah satu format data yang digunakan adalah format data tabular. Tabel menawarkan sarana untuk merepresentasikan dan mengomunikasikan data terstruktur secara efisien. Ekstraksi informasi dari dokumen tabel memiliki tantangan tersendiri, yaitu keragaman tata letak yang tinggi (rowspans dan colspans), gaya konten yang beragam, dan sel tidak berisi (empty cells). Dalam rangka mengatasi masalah tersebut, PT Len Industri (Persero) menginisiasi pengembangan Intelligence Document Processing (IDP), yang mencakup pengembangan modul Table Information Extraction (TIE). Tujuan Modul TIE adalah untuk mengekstraksi informasi dari citra tabel dengan hasil keluaran berupa JSON. Modul TIE terdiri dari dua proses utama, yaitu table structure recognition (TSR) dan data transformation (DT). Proses TSR menggunakan tools PaddleOCR untuk mengenali struktur tabel dari citra input. Dengan bantuan PaddleOCR, modul TIE dapat mengekstraksi tabel sampai ke tingkat sel pada tabel yang memiliki struktur kompleks, termasuk rowspans dan colspans. Proses DT bertujuan untuk mentransformasi data tabel yang telah diekstraksi dalam bentuk Excel ke dalam format JSON. Selain itu, modul TIE mampu menangani input citra tabel lebih dari satu dengan melakukan penggabungan citra (image concatenation). Image concatenation membantu dalam pengenalan tata letak tabel yang kompleks. Dalam pengembangan modul TIE, frontend dikembangkan menggunakan React TypeScript, sesuai dengan kebutuhan dari mitra. Sementara itu, backend dikembangkan menggunakan Python karena kebutuhan library dan tools, seperti Pandas dan PaddleOCR. Database yang digunakan yaitu MongoDB karena kebutuhan database schemaless. Pengujian modul TIE dilakukan pada tiga jenis dokumen yang menjadi studi kasus. Evaluasi dilakukan dengan membandingkan jumlah hasil ekstraksi sel yang tepat dengan jumlah sel total pada tabel. Hasil pengujian menunjukkan bahwa rata-rata akurasi tanpa toleransi kesalahan adalah 87,67%, sedangkan rata-rata akurasi dengan toleransi kesalahan typo spasi mencapai 95%. Dengan demikian, dapat disimpulkan bahwa pengembangan modul TIE dengan input berupa citra tabel dan output berupa hasil ekstraksi dalam format JSON, mampu mengatasi tantangan TSR dan DT dalam ekstraksi informasi tabel. Selain itu, penggunaan format JSON pada modul TIE bertujuan untuk memudahkan dalam penyimpanan data pada MongoDB dan data menjadi lebih mudah untuk dipahami.

Deskripsi Alternatif :

In military asset documents, one of the data formats used is the tabular data format. Tables offer a means to efficiently represent and communicate structured data. Extracting information from tabular documents has its own challenges, namely high layout diversity (rowspans and colspans), diverse content styles, and empty cells. To overcome these problems, PT Len Industri (Persero) initiated the development of Intelligence Document Processing (IDP), which includes the development of the Table Information Extraction (TIE) module. The purpose of the TIE Module is to extract information from table images with JSON output results. The TIE module consists of two main processes, namely table structure recognition (TSR) and data transformation (DT). The TSR process uses the PaddleOCR tool to recognize the table structure of the input image. With the help of PaddleOCR, the TIE module can extract tables down to the cell level in tables that have complex structures, including rowspans and colspans. The DT process aims to transform the extracted table data in excel into JSON format. In addition, the TIE module is capable of handling more than one table image input by performing image concatenation. Image concatenation helps in the recognition of complex table layouts. In the development of the TIE module, the frontend was developed using React TypeScript, according to the needs of the partners. Meanwhile, the backend was developed using Python due to the need for libraries and tools, such as Pandas and PaddleOCR. The database used is MongoDB because of the need for a schemaless database. Testing of the TIE module was carried out on three types of documents that became case studies. Evaluation is done by comparing the number of correct cell extraction results with the total number of cells in the table. The test results show that the average accuracy without error tolerance is 87.67%, while the average accuracy with typo space error tolerance reaches 95%. Thus, it can be concluded that the development of the TIE module with input in the form of table images and output in the form of extraction results in JSON format, is able to overcome the challenges of TSR and DT in the extraction of table information. In addition, the use of JSON format in the TIE module aims to facilitate the storage of data in MongoDB and the data becomes easier to understand.

Beri Komentar ?#(0) | Bookmark

PropertiNilai Properti
ID PublisherJBPTPPOLBAN
Organisasi
Nama KontakErlin Arvelina
AlamatJl. Trsn. Gegerkalong Hilir Ds. Ciwaruga
KotaBandung
DaerahJawa Barat
NegaraIndonesia
Telepon022 201 3789 ext. 168, 169, 239
Fax022 201 3889
E-mail Administratorerlin.arvelina@polban.ac.id
E-mail CKOerlin.arvelina@polban.ac.id

Print ...

Kontributor...

  • Pembimbing 1: Suprihanto, BSEE., M.Sc.

    Pembimbing 2: Muhammad Rizqi Sholahuddin, S.Si., M.T., Editor: Erlin Arvelina

Download...