1. Home
  2. /
  3. Publicaciones
  4. /
  5. Hombre
  6. /
  7. Historia
  8. /
  9. Transcriben 32.000 manuscritos medievales...

Investigadores europeos han logrado transcribir más de 32.000 códices antiguos en solo cuatro meses, abriendo una ventana masiva al conocimiento medieval, una hazaña sin precedentes.

Durante siglos, los secretos de la Edad Media permanecieron guardados pergaminos difíciles de leer, llenos de abreviaturas extrañas y caligrafías que varían de un copista a otro. Sin embargo, un proyecto revolucionario llamado CoMMA (Corpus of Multilingual Medieval Archives) ha cambiado las reglas del juego. Utilizando inteligencia artificial avanzada, un equipo liderado por el instituto francés Inria ha logrado transcribir 32.763 manuscritos digitalizados, una tarea que a un humano le habría tomado varias vidas completar.

El reto de «leer» el pasado

Transcribir un manuscrito medieval no es como escanear un libro moderno. En la Edad Media, no existía una ortografía estándar y los escribas utilizaban un sinfín de símbolos para ahorrar espacio. Como explica Thibault Clérice, investigador de humanidades computacionales en Inria: «Automatizar la transcripción requiere aprendizaje automático (machine learning), y para esto se necesitan estándares».

Para superar este obstáculo, el equipo utilizó primero un proyecto base llamado CATMuS, que reunió 300 manuscritos ya transcritos (unas 200.000 líneas) para «entrenar» a la IA. El sistema aprendió a reconocer idiomas como el latín y el francés antiguo (ancien français), además de dialectos del español, italiano y veneciano, abarcando documentos desde el siglo VIII hasta el XVI.

Texto medieval original y transcrito. Crédito de imagen: Medievalists.net
Texto medieval original y transcrito. Crédito de imagen: Medievalists.net

Tecnología de precisión y «restricción»

La tecnología detrás de este hito utiliza herramientas como eScriptorium y el motor de transcripción Kraken. Lo que hace especial a este modelo es su enfoque en la «restricción»: la IA se limita a reconocer lo que realmente está en la página en lugar de intentar «adivinar» o entender el contexto lingüístico profundo. Esto evita que la máquina invente palabras cuando se encuentra con una mancha de tinta o una letra borrosa.

El resultado es impresionante. Tras analizar más de 32.000 manuscritos procedentes de bibliotecas como la Bibliothèque nationale de France (BnF), el equipo comprobó la precisión manualmente. El margen de error es de apenas un 9,7%, una cifra notable considerando que muchos textos están escritos en cursiva medieval, una de las caligrafías más difíciles de descifrar incluso para expertos humanos.

Un tesoro de datos para el futuro

El impacto de CoMMA es colosal. Antes de este proyecto, el mayor corpus de textos en francés antiguo tenía 11 millones de palabras; ahora, los investigadores tienen acceso a 516 millones. En el caso del latín, la cifra saltó de 226 millones a 2.700 millones de palabras.

Para la profesora Elena Pierazzo, de la Universidad de Tours, este avance es un cambio de paradigma: «CoMMA permitirá a especialistas en historia del arte, medicina o filosofía trabajar juntos utilizando una herramienta interdisciplinaria que cubre prácticamente todo el conocimiento disponible de la Edad Media». Gracias a esta «llave» digital, los manuscritos que antes estaban olvidados en los estantes ahora son buscables por tema o periodo, permitiendo que la historia hable de nuevo con una claridad nunca antes vista.

Con información de Inria Research Reports.

Por Danny Ayala Hinojosa

Director de Ciencia1.comApasionado por la ciencia y la tecnología, los viajes y la exploración de ideas en general. Profesional en IT: aplicaciones web y análisis de datos. Hoy emprendiendo en periodismo digital.