Generación de informes radiológicos mediante el reconocimiento de voz

Benalcázar Cando, Ilan Patricio

Generación de informes radiológicos mediante el reconocimiento de voz

Para citar o enlazar este item, por favor use el siguiente identificador: http://dspace.ups.edu.ec/handle/123456789/31680

Título :	Generación de informes radiológicos mediante el reconocimiento de voz
Autor :	Benalcázar Cando, Ilan Patricio
Director de Tesis:	Narváez Espinoza, Fabián Rodrigo
Resumen traducido:	The generation of radiology reports is a critical process that, in many departments, still relies on manual dictation and transcription or on generic ASR solutions poorly adapted to clinical Spanish. These approaches have recurrent drawbacks: high latency in report preparation, spelling and accentuation errors, terminological inconsistencies (acronyms and abbreviations), style variability, and, when cloud-based services are used, privacy concerns and dependency on connectivity. Dialectal variability, background noise, and lack of standardization further aggravate the problem, increasing the radiologist’s post-editing workload and reducing workflow efficiency. Therefore, a local, modular, and specialized solution is required—one that minimizes errors, preserves radiology records, and ensures data confidentiality. In this project, we implemented an on-premise automatic system for generating radiology reports in Spanish from dictated input, composed of five stages: (i) audio acquisition and acoustic preprocessing (normalization and resampling) to reduce input variability; (ii) automatic transcription using Whisper-small (a multilingual Transformer) configured for Spanish, with word-level timestamps to ensure traceability; (iii) lexical review assisted by a biomedical RoBERTa-based model aimed at normalizing clinical terms, diacritics, acronyms, and measurement units; (iv) stylistic adaptation using Gemma-2B-IT fine-tuned with LoRA/QLoRA (4-bit quantization for efficiency) to preserve the typical structure and tone of radiology reports without introducing undictated findings; and (v) postprocessing and report delivery through a graphical interface that displays intermediate versions (draft, corrected, and final) and facilitates expert post-editing. Evaluation was conducted on a set of 100 reports consisting of prompt–target pairs (error-prone dictation vs. expert-corrected version). Compared to the baseline configuration without specialization, the proposed system showed substantial improvements in automatic metrics: up to +112 % increase in BLEU and +77 % in ROUGE-2, along with consistent gains in ROUGE-1 and ROUGE-L. These results indicate reduced correction effort and better preservation of the narrative structure (finding → location → characteristics). The local architecture proved deployable on modest CPU/GPU setups, reducing reliance on external services and enhancing confidentiality. Overall, the proposal demonstrates both the technical feasibility and applied usefulness of the approach to accelerate report generation, improve terminological consistency, and reduce post-editing workload—laying a solid foundation for future extensions by subspecialty and the integration of clinical performance metrics.
Resumen :	La generación de informes radiológicos es un proceso crítico que, en muchos servicios, aún depende del dictado y la redacción manual o de soluciones ASR genéricas poco adaptadas al español clínico. Estos enfoques presentan desventajas recurrentes: latencias elevadas en la elaboración del reporte, errores ortográficos y de acentuación, confusiones terminológicas (acrónimos y abreviaturas), inconsistencias de estilo y, cuando se recurre a servicios en la nube, restricciones de privacidad y dependencia de conectividad. La variabilidad dialectal, el ruido ambiental y la falta de estandarización agravan el problema, incrementando la carga de posedición del radiólogo y afectando la eficiencia del flujo de trabajo. Por ello, se requiere una solución local, modular y especializada que reduzca errores, mantenga el registro radiológico y respete la confidencialidad de los datos. En este proyecto se implementó un sistema automático y on-premise para la generación de informes radiológicos en español a partir de dictado, integrado por cinco etapas: (i) adquisición de audio y preprocesamiento acústico (normalización y remuestreo) para reducir la variabilidad de entrada; (ii) transcripción automática con Whisper-small (Transformer multilingüe) configurado para español y con marcas temporales por palabra para asegurar trazabilidad; (iii) revisión léxica asistida por un modelo biomédico tipo RoBERTa, destinado a normalizar términos clínicos, diacríticos, acrónimos y unidades; (iv) adecuación estilística mediante Gemma-2B-IT ajustado finamente con LoRA/QLoRA (cuantización de 4 bits para eficiencia), con el fin de mantener la estructura y el tono propios del informe radiológico sin introducir hallazgos no dictados; y (v) postprocesamiento y entrega del informe con una interfaz gráfica que expone versiones intermedias (borrador, correcciones y final) y facilita la pos–edición por el especialista. La evaluación se realizó sobre un conjunto de 100 informes con pares prompt–target (dictado con errores vs. versión corregida por experto). Frente a la configuración base sin especialización, el sistema propuesto mostró mejoras sustanciales en métricas automáticas: incrementos de hasta +112 % en BLEU y +77 % en ROUGE-2, además de aumentos consistentes en ROUGE-1 y ROUGE-L, lo que se traduce en menor necesidad de correcciones y mejor preservación de la estructura narrativa (hallazgo → localización → características). La arquitectura local demostró ser desplegable en CPU/GPU modestas, disminuyendo la dependencia de servicios externos y fortaleciendo la confidencialidad. En conjunto, la propuesta confirma la factibilidad técnica y la utilidad aplicada del enfoque para acelerar la elaboración de informes, elevar la consistencia terminológica y reducir la carga de pos–edición, sentando una base robusta para extensiones futuras por subespecialidad y para la incorporación de métricas clínicas específicas.
Palabras clave :	BIOMEDICINA INTELIGENCIA ARTIFICIAL MODELOS DE LENGUAJE FINE-TUNING
Fecha de publicación :	2025
URI :	http://dspace.ups.edu.ec/handle/123456789/31680
Idioma:	spa
Pertenece a las colecciones:	Grado

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TTQ2518.pdf	Texto completo	6,21 MB	Adobe PDF	Visualizar/Abrir

Mostrar metatados (Dublin Core) Estadísticas Ver en Google Scholar

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons