Closed-Loop Prompt Optimization for Enhanced Accuracy in Extractive Question Answering

Fontes, Arild

Closed-Loop Prompt Optimization for Enhanced Accuracy in Extractive Question Answering

Mark

Fontes, Arild ^LU (2025) In CODEN:LUTEDX/TEIE EIEL05 20251
Industrial Electrical Engineering and Automation

Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities
across various Natural Language Processing (NLP) tasks. However, their performance is highly sensitive to the input prompt used to query them. Manual
prompt engineering, while effective, is often time-consuming and requires significant expertise. This thesis investigates Prompt Optimization, focusing on
a closed-loop, automated approach to discover prompts that maximize LLM
performance for specific tasks.
We implement and evaluate a system that iteratively refines an initial
question based on the LLMs generated answers compared against a known
ground truth. The system utilizes an LLM (specifically, OpenAI’s gpt-4o
model) for both generating answers in an... (More); Large Language Models (LLMs) have demonstrated remarkable capabilities
across various Natural Language Processing (NLP) tasks. However, their performance is highly sensitive to the input prompt used to query them. Manual
prompt engineering, while effective, is often time-consuming and requires significant expertise. This thesis investigates Prompt Optimization, focusing on
a closed-loop, automated approach to discover prompts that maximize LLM
performance for specific tasks.
We implement and evaluate a system that iteratively refines an initial
question based on the LLMs generated answers compared against a known
ground truth. The system utilizes an LLM (specifically, OpenAI’s gpt-4o
model) for both generating answers in an extractive Question Answering
(QA) task and proposing refinements to the prompt itself. While there are
scores that are non-binary based and can capture semantic similarity, the
optimization goal is to maximize lexical similarity metrics, primarily F1-
score, between the generated answer and the ground truth.
Our methodology involves an iterative loop managed by a QuestionOptimizer
component, which integrates modules for answer generation (AnswerGenerator),
answer evaluation (AnswerEval), including F1-score and Exact Match (EM),
and prompt refinement (PromptRefiner). The system’s performance is compared against an open-loop baseline where no prompt refinement occurs. Experiments are conducted using a specific instance from a biomedical abstract context, focusing on retrieving a precise sample volume.
The results demonstrate that the closed-loop optimization process significantly improves performance, consistently achieving high F1 and EM scores
(often reaching 1.0) compared to the suboptimal baseline performance (F1 approx. 0.4). Analysis of the optimization iterations reveals how the system
automatically generates increasingly specific and effective question phrasing. However, this accuracy improvement comes at the cost of increased
computational resources (time, token usage, Application Programming Interface (API) calls). This work highlights the potential of automated, closed-loop systems for
optimizing prompts for specific, accuracy-critical QA tasks, while also underscoring the efficiency trade-off’s involved. (Less)
Abstract (Swedish): Stora språkmodeller (LLM) har uppvisat anmärkningsvärda förmågor inom
en rad olika uppgifter inom naturlig språkbehandling (NLP). Deras prestanda är dock mycket känslig för den inledande prompt som används för att
fråga dem. Manuell promptkonstruktion, även om den är effektiv, är ofta
tidskrävande och kräver betydande expertis. Denna avhandling undersöker
promptoptimering, med fokus på en automatiserad metod för att upptäcka
prompter som maximerar LLM-prestanda för specifika uppgifter.
Vi implementerar och utvärderar ett system som iterativt förfinar en
initial fråga baserat på LLM:s genererade svar jämfört med ett känt svar.
Systemet använder en LLM (specifikt OpenAI:s gpt-4o-modell) för både generering av svar i en extraktiv... (More); Stora språkmodeller (LLM) har uppvisat anmärkningsvärda förmågor inom
en rad olika uppgifter inom naturlig språkbehandling (NLP). Deras prestanda är dock mycket känslig för den inledande prompt som används för att
fråga dem. Manuell promptkonstruktion, även om den är effektiv, är ofta
tidskrävande och kräver betydande expertis. Denna avhandling undersöker
promptoptimering, med fokus på en automatiserad metod för att upptäcka
prompter som maximerar LLM-prestanda för specifika uppgifter.
Vi implementerar och utvärderar ett system som iterativt förfinar en
initial fråga baserat på LLM:s genererade svar jämfört med ett känt svar.
Systemet använder en LLM (specifikt OpenAI:s gpt-4o-modell) för både generering av svar i en extraktiv frågesvarsuppgift (QA) och för att föreslå
förbättringar av själva prompten. Även om det finns gradering som är icke-binär och kan fånga semantisk likhet, är optimeringsmålet att maximera
lexikala likhetsmått, främst F1-score, mellan det genererade svaret och det
kända svaret.
Vår metodik innefattar en iterativ slinga som hanteras av en
QuestionOptimizer-komponent, vilken integrerar moduler för svarsgenerering AnswerGenerator, svarsutvärdering AnswerEval, inklusive F1-score
och Exact Match (EM), samt promptförfining PromptRefiner. Systemets
prestanda jämförs med en basmodell där ingen optimering sker. Experiment
utförs med hjälp av ett specifikt exempel från ett biomedicinskt abstractsammanhang, med fokus på att hämta en exakt provvolym.
Resultaten visar att optimeringsprocessen signifikant förbättrar prestandan och konsekvent uppnår höga F1- och EM-poäng (ofta 1,0) jämfört med
den suboptimala basmodellprestandan (F1 cirka 0,4). Analys av optimeringsiterationerna avslöjar hur systemet automatiskt genererar alltmer specifika
och effektiva frågeformuleringar. Denna noggrannhetsförbättring sker dock
på bekostnad av ökade beräkningsresurser (tid, tokenanvändning, anrop till
applikationsprogrammeringsgränssnitt (API)).
Detta arbete belyser potentialen hos automatiserade system för att optimera prompter för specifika, noggrannhetskritiska QA-uppgifter, samtidigt som det understryker de effektivitetsavvägningar som är involverade. (Less)

Please use this url to cite or link to this publication: http://lup.lub.lu.se/student-papers/record/9194871

author

Fontes, Arild ^LU

supervisor

Kristian Soltesz ^LU

organization

Industrial Electrical Engineering and Automation

alternative title

Promptoptimering med sluten loop för förbättrad noggrannhet vid extraktivt frågebesvarande

course

EIEL05 20251

year

2025

type

M2 - Bachelor Degree

subject

Technology and Engineering

keywords

Prompt Optimization, Prompt Engineering, Large Language Models, Question Answering, Feedback Systems, Automated Prompt Refinement.

publication/series

CODEN:LUTEDX/TEIE

report number

3143

language

English

id

9194871

date added to LUP

2025-06-23 16:47:56

date last changed

2025-06-23 16:47:56

@misc{9194871,
  abstract     = {{Large Language Models (LLMs) have demonstrated remarkable capabilities
across various Natural Language Processing (NLP) tasks. However, their performance is highly sensitive to the input prompt used to query them. Manual
prompt engineering, while effective, is often time-consuming and requires significant expertise. This thesis investigates Prompt Optimization, focusing on
a closed-loop, automated approach to discover prompts that maximize LLM
performance for specific tasks.
We implement and evaluate a system that iteratively refines an initial
question based on the LLMs generated answers compared against a known
ground truth. The system utilizes an LLM (specifically, OpenAI’s gpt-4o
model) for both generating answers in an extractive Question Answering
(QA) task and proposing refinements to the prompt itself. While there are
scores that are non-binary based and can capture semantic similarity, the
optimization goal is to maximize lexical similarity metrics, primarily F1-
score, between the generated answer and the ground truth.
Our methodology involves an iterative loop managed by a QuestionOptimizer
component, which integrates modules for answer generation (AnswerGenerator),
answer evaluation (AnswerEval), including F1-score and Exact Match (EM),
and prompt refinement (PromptRefiner). The system’s performance is compared against an open-loop baseline where no prompt refinement occurs. Experiments are conducted using a specific instance from a biomedical abstract context, focusing on retrieving a precise sample volume.
The results demonstrate that the closed-loop optimization process significantly improves performance, consistently achieving high F1 and EM scores
(often reaching 1.0) compared to the suboptimal baseline performance (F1 approx. 0.4). Analysis of the optimization iterations reveals how the system
automatically generates increasingly specific and effective question phrasing. However, this accuracy improvement comes at the cost of increased
computational resources (time, token usage, Application Programming Interface (API) calls). This work highlights the potential of automated, closed-loop systems for
optimizing prompts for specific, accuracy-critical QA tasks, while also underscoring the efficiency trade-off’s involved.}},
  author       = {{Fontes, Arild}},
  language     = {{eng}},
  note         = {{Student Paper}},
  series       = {{CODEN:LUTEDX/TEIE}},
  title        = {{Closed-Loop Prompt Optimization for Enhanced Accuracy in Extractive Question Answering}},
  year         = {{2025}},
}

LUP Student Papers

LUND UNIVERSITY LIBRARIES

Closed-Loop Prompt Optimization for Enhanced Accuracy in Extractive Question Answering