Skip to main content

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Complex Document Labelling: An appraisal on the efficacy of supervised and unsupervised methods for automated organization and information retrieval

Pegoraro, Thomas LU and Trindade Leite, Willian LU (2023) STAN40 20231
Department of Statistics
Abstract
With the rapid growth of data automation, organizing and extracting valuable information from Portable Document Format (PDF) data, such as price quotation sheets, becomes an essential yet challenging task. This study aims to identify effective methods for organizing diverse price quotation documentation to enhance information retrieval from this type of document, using both unsupervised and supervised techniques. The research focuses on partitional clustering techniques and gradient boosted classification methods, aiming to create a versatile and robust framework applicable across various industries and sectors. The study offers a refined classification system that aligns with contemporary statistical advancements in natural language... (More)
With the rapid growth of data automation, organizing and extracting valuable information from Portable Document Format (PDF) data, such as price quotation sheets, becomes an essential yet challenging task. This study aims to identify effective methods for organizing diverse price quotation documentation to enhance information retrieval from this type of document, using both unsupervised and supervised techniques. The research focuses on partitional clustering techniques and gradient boosted classification methods, aiming to create a versatile and robust framework applicable across various industries and sectors. The study offers a refined classification system that aligns with contemporary statistical advancements in natural language processing. The paper also explores the effectiveness of these methods and discusses the performance metrics, shortcomings, and successes.

The unsupervised partitional K-Means clustering results proved unable to encapsulate the classes, and it was determined that classification was required. The original technical and price quotations were easily separated with simple classification utilizing basic features. Although to classify the price quotation sheets, more was required. Six classifications were performed based on document types, and information level. In both cases, document embeddings extracted utilizing the large language model XLM-RoBERTa proved to be the best suited candidate to label said documents, with the best model boasting approximately 97% average precision. Results from this paper could be utilized for similar document classification in the future, and resulting feature extraction methods can be replicated for other documents, and textual classification. (Less)
Abstract (Portuguese)
Com o rápido crescimento da automação de dados, organizar e extrair informações valiosas de dados em Portable Document Format (PDF), como planilhas de cotação de preços, torna-se uma tarefa essencial, porém desafiadora. Este estudo tem como objetivo identificar métodos eficazes para organizar diversas documentações de cotação de preços para melhorar a recuperação de informações desse tipo de documento, usando técnicas não supervisionadas e supervisionadas. A pesquisa se concentra em técnicas de agrupamento particional e métodos de classificação impulsionados por gradiente, com o objetivo de criar uma estrutura versátil e robusta aplicável em várias indústrias e setores. O estudo oferece um sistema de classificação refinado que se alinha... (More)
Com o rápido crescimento da automação de dados, organizar e extrair informações valiosas de dados em Portable Document Format (PDF), como planilhas de cotação de preços, torna-se uma tarefa essencial, porém desafiadora. Este estudo tem como objetivo identificar métodos eficazes para organizar diversas documentações de cotação de preços para melhorar a recuperação de informações desse tipo de documento, usando técnicas não supervisionadas e supervisionadas. A pesquisa se concentra em técnicas de agrupamento particional e métodos de classificação impulsionados por gradiente, com o objetivo de criar uma estrutura versátil e robusta aplicável em várias indústrias e setores. O estudo oferece um sistema de classificação refinado que se alinha com os avanços estatísticos contemporâneos no processamento de linguagem natural. O documento também explora a eficácia desses métodos e discute as métricas de desempenho, deficiências e sucessos.

Os resultados do agrupamento K-Means particional não supervisionado mostraram-se incapazes de encapsular as classes e foi determinado que a classificação era necessária. As cotações técnicas e de preços originais foram facilmente separadas com classificação simples utilizando recursos básicos. Porém, para classificar as planilhas de cotação de preços, era preciso mais. Seis classificações foram realizadas com base nos tipos de documento e nível de informação. Em ambos os casos, as incorporações de documentos extraídas utilizando o LLM XLM-RoBERTa provaram ser o candidato mais adequado para rotular esses documentos, com o melhor modelo apresentando precisão média de aproximadamente 97%. Os resultados deste artigo podem ser utilizados para classificação de documentos semelhantes no futuro, e os métodos de extração de recursos resultantes podem ser replicados para outros documentos e classificação textual. (Less)
Please use this url to cite or link to this publication:
author
Pegoraro, Thomas LU and Trindade Leite, Willian LU
supervisor
organization
alternative title
Rotulagem de Documentos Complexos: Uma avaliação sobre a eficácia de métodos supervisionados e não supervisionados para organização automatizada e recuperação de informações
course
STAN40 20231
year
type
H1 - Master's Degree (One Year)
subject
keywords
Price Quotation Sheets, Document Clustering, K-Means, Gradient Boosted Methods, XLM-RoBERTa, NLP
language
English
additional info
The two authors contributed equally to the article.
id
9120900
date added to LUP
2023-06-28 09:34:46
date last changed
2023-06-28 09:34:46
@misc{9120900,
  abstract     = {{With the rapid growth of data automation, organizing and extracting valuable information from Portable Document Format (PDF) data, such as price quotation sheets, becomes an essential yet challenging task. This study aims to identify effective methods for organizing diverse price quotation documentation to enhance information retrieval from this type of document, using both unsupervised and supervised techniques. The research focuses on partitional clustering techniques and gradient boosted classification methods, aiming to create a versatile and robust framework applicable across various industries and sectors. The study offers a refined classification system that aligns with contemporary statistical advancements in natural language processing. The paper also explores the effectiveness of these methods and discusses the performance metrics, shortcomings, and successes. 

The unsupervised partitional K-Means clustering results proved unable to encapsulate the classes, and it was determined that classification was required. The original technical and price quotations were easily separated with simple classification utilizing basic features. Although to classify the price quotation sheets, more was required. Six classifications were performed based on document types, and information level. In both cases, document embeddings extracted utilizing the large language model XLM-RoBERTa proved to be the best suited candidate to label said documents, with the best model boasting approximately 97% average precision. Results from this paper could be utilized for similar document classification in the future, and resulting feature extraction methods can be replicated for other documents, and textual classification.}},
  author       = {{Pegoraro, Thomas and Trindade Leite, Willian}},
  language     = {{eng}},
  note         = {{Student Paper}},
  title        = {{Complex Document Labelling: An appraisal on the efficacy of supervised and unsupervised methods for automated organization and information retrieval}},
  year         = {{2023}},
}