Procesamiento de Lenguaje Natural aplicado a las ciencias sociales. Detección de tópicos en letras de tango
PDF

Palabras clave

procesamiento de lenguaje natural
tango
modelado de tópicos
web scraping
minería de texto

Resumen

En este artículo, se presenta una aplicación de una técnica de Procesamiento de Lenguaje Natural (modelado de tópicos) sobre un corpus de letras de tango. Introduce un flujo de trabajo posible para el análisis textual computacional y en una técnica específica para la detección de tópicos: Latent Dirichlet Allocation (LDA). Se trabajará sobre un corpus de 5.617 letras buscando detectar de forma semiautomática sus temas. Los tópicos detectados abarcan desde imágenes de la iudad, sobre el tango mismo, sobre emociones negativas y positivas, etc. Se analiza su evolución temporal y se muestra el cambio relativo de los tópicos en las letras de tango. También se valida el modelo analizando la composición de tópicos de algunos tangos canónicos. El trabajo busca ilustrar las potencialidades que estas técnicas tienen para el análisis de datos textuales en ciencias sociales: su escalabilidad y sus posibilidades de replicabilidad. Se marcan, finalmente, algunas limitaciones de este enfoque.

PDF