Introducción - LexiMus USAL

¿Qué es este proyecto y cómo funciona la IA en el análisis de textos históricos?

Imagina que tienes miles de periódicos históricos de los siglos XVIII, XIX y XX consevados en una hemeroteca, y quieres encontrar toda la información sobre música que contienen. Hacerlo manualmente sería una tarea que tomaría décadas. Aquí es donde entra la Inteligencia Artificial: como un asistente incansable capaz de leer, analizar y extraer información de enormes cantidades de texto en cuestión de horas.

La IA no "piensa" como los humanos, pero sí puede reconocer patrones en el lenguaje. Cuando le damos instrucciones específicas ("prompts"), puede identificar qué textos tratan de música, extraer nombres de compositores, obras, instrumentos, géneros musicales, y mucho más. Es como tener un investigador especializado que puede procesar millones de palabras buscando exactamente lo que necesitamos.

LexiMus USAL es parte de un proyecto coordinado que utiliza estas capacidades de la IA para recuperar y analizar el patrimonio musical español a través de la prensa histórica digitalizada. Forma parte del proyecto nacional "LexiMus: Léxico y ontología de la música en español", junto al Instituto Complutense de Ciencias Musicales y la Universidad de La Rioja. En esta web encontrarás dos secciones fundamentales: la primera es un buscador de noticias musicales y la segunda está dedicada al análisis iniciales de estas ricas fuentes históricas.

1. Buscador de Noticias Musicales

Detección Automática de Contenido Musical

¿Qué encontrarás aquí? Una repositorio en constante crecimiento con noticias, anuncios y artículos sobre música extraídos automáticamente de periódicos históricos españoles. El contenido es posteriormente revisado y validado por musicólogos especializados en cada época histórica, garantizando así la precisión de la información presentada.

¿Cómo se han extraído estos datos?

El proceso de extracción se realizó utilizando Claude Code, una herramienta de IA especializada en programación y análisis de documentos. El procedimiento fue el siguiente:

📂 Scripts de Análisis Disponibles

Todos los scripts Python utilizados para la extracción y análisis de estos datos están disponibles públicamente en:

Ver Scripts de Análisis en GitHub →

Incluye 23 scripts organizados en 4 categorías: análisis de revistas musicales, análisis de prensa, procesamiento y extracción de datos, y generadores de interfaces web.

Fuentes originales

Se trabajó con números de periódicos y revistas musicales digitalizados en formato PDF alojados en la Hemeroteca de la Biblioteca Nacional de España (BNE).

Prompts especializados

Para cada fuente histórica (Diario de Madrid, El Debate, España, El Sol, etc), se diseñaron instrucciones específicas adaptadas al estilo periodístico y características de cada publicación.

Detección automática

Claude Code analizó cada PDF, identificando automáticamente secciones, párrafos y menciones relacionadas con música: conciertos, óperas, críticas musicales, anuncios de partituras, biografías de músicos, etc.

Transcripción inteligente

La IA no solo detectó el contenido musical, sino que lo transcribió de forma completa, conservando información como fechas, nombres propios, lugares y contexto.

Corpus actuales disponibles:

Diario de Madrid (1788-1823): Noticias y anuncios de la vida musical madrileña

El Debate (1881-1883): Publicación liberal con contenido musical diverso

España (semanario): Revista de la "edad de plata" intelectual española

El Sol (1918-1932): Con críticas musicales de Adolfo Salazar

2. Análisis inicial

Descubrimiento de Patrones en Textos No Estructurados

¿Qué encontrarás aquí? Análisis computacionales que revelan tendencias, patrones y evolución del discurso musical español a través del tiempo.

¿Cómo se han extraído estos datos?

Este análisis trabajó con textos no estructurados (es decir, textos completos sin clasificar ni etiquetar previamente) para que la IA encontrara patrones de forma autónoma:

1. Análisis inicial con Claude

Se utilizó Claude para procesar los corpus textuales completos. La IA identificó automáticamente:

Temáticas principales (ópera, música religiosa, música popular, etc.)
Compositores y obras más mencionados
Tipos de música y géneros predominantes
Evolución del vocabulario musical
Tendencias temporales y geográficas

2. Precisión estadística con Voyant Tools

Para complementar el análisis cualitativo de Claude, se utilizó esta plataforma especializada en análisis textual que ofrece:

Frecuencia exacta de términos musicales
Visualizaciones de datos (nubes de palabras, gráficos temporales)
Análisis de coocurrencias (qué palabras aparecen juntas)
Estadísticas de distribución textual

3. Análisis avanzado con Sketch Engine

Esta herramienta profesional de corpus lingüísticos permitió:

Análisis semántico profundo del vocabulario musical
Identificación de colocaciones y expresiones típicas
Comparaciones entre diferentes períodos históricos
Extracción de terminología especializada

Metodología empleada:

Enfoque no supervisado: La IA encontró patrones sin categorías predefinidas
Validación cruzada: Los resultados de Claude se contrastaron con las herramientas estadísticas
Validación por expertos: Los hallazgos fueron revisados y validados por musicólogos especializados en cada período histórico
Contextualización histórica: Cada hallazgo se situó en su contexto musicológico correspondiente

Resultado: Un Laboratorio Digital para la Historia Musical Española

Este proyecto representa una nueva forma de acceder a los datos en musicología, donde la IA actúa como una lupa digital que nos permite ver patrones y tendencias que serían muy complicadas de detectar manualmente. Los resultados no solo nos muestran qué se escribió sobre música en la prensa histórica, sino cómo evolucionó el discurso musical español, qué obras y compositores dominaron cada época, y cómo se transformó el vocabulario musical a lo largo del tiempo. A partir de ahí el investigador puede interpretar esos datos de forma más precisa y completa en sus trabajos.

La web está en constante actualización, incorporando nuevos corpus y refinando los análisis para ofrecer una visión cada vez más completa del patrimonio musical español documentado en la prensa histórica.

Si utilizas las fuentes de este espacio en tu investigación, por favor cita:
Prensa musical e Inteligencia Artificial. Proyecto LexiMus: Léxico y ontología de la música en español (PID2022-139589NB-C33), Universidad de Salamanca.
Disponible en: https://leximus.usal.es
© 2025 Universidad de Salamanca.

Recursos y Tutoriales

Para facilitar el uso de estas herramientas por otros usuarios musicólogos, sin conocimientos de informática, hemos desarrollado los siguientes tutoriales de ayuda:

Tutoriales de Herramientas de Análisis Textual

Guías paso a paso para utilizar las principales plataformas de análisis de corpus textuales:

Tutorial Sketch Engine

Aprende a utilizar esta potente herramienta profesional de análisis lingüístico para estudiar corpus musicales.

Acceder al Tutorial →

Tutorial Voyant Tools

Descubre cómo realizar análisis estadísticos y visualizaciones de datos textuales de forma intuitiva.

Acceder al Tutorial →

Tutorial Distant Reader

Guía completa para utilizar esta plataforma de lectura distante y análisis automatizado de textos.

Acceder al Tutorial →

Tutoriales de Scripts (para personas sin conocimientos de informática)

Instrucciones detalladas para ejecutar scripts de análisis específicos, pensados para usuarios sin experiencia en programación:

Buscador de Palabras en Corpus

Script sencillo para buscar y analizar la frecuencia de términos específicos en grandes corpus textuales.

Acceder al Script →

Todos los Repositorios LexiMus USAL

Accede a todos los repositorios del proyecto con scripts, datos y documentación completa.

Ver Repositorios →

👥 Conoce a Nuestro Equipo

El proyecto LexiMus USAL está formado por un equipo multidisciplinar de investigadores e investigadoras especializados en musicología, humanidades digitales, etnomusicología y análisis de prensa histórica. Conoce a las personas que hacen posible este proyecto.

Ver Equipo Completo →