Dockins: machine learning para periodistas

A inicios de este año, MuckRock recibió la invitación para ser parte del JournalismAI Collab, y trabajar con organizaciones en las Américas para exportar, probar y desarrollar nuevas formas de aplicar inteligencia artificial y machine learning en algunos de los retos que enfrenta el periodismo de investigación. Nos asociamos con CLIP, Ojo Público, y La Nación para retroalimentarnos y continuar desarrollando Sidekick. En estos artículos compartimos los resultados de esta colaboración. Puedes leer todos los materiales en inglés y en español en la página del proyecto DockIns.

El acceso a la información pública tiene un rol fundamental en la exigibilidad de otros derechos y es una de las herramientas principales que la sociedad civil requiere para controlar e influir en los gobiernos.

De acuerdo con la UNESCO, América Latina fue una de las regiones qué más rápidamente aprobó normas constitucionales y jurídicas que garantizan y promueven el derecho de acceso a la información pública. Actualmente, solo seis países en la región no tienen aún legislación sobre este tema. A pesar de que la región se ha adherido sin demoras al movimiento de datos abiertos, las ONG, organizaciones y activistas señalan que las leyes de acceso a la información pública han tenido importantes retrocesos. Especialmente durante la pandemia, los gobiernos han blindado información pública sobre la gestión en general ,las campañas de vacunación, la gestión del sistema sanitario y las compras públicas.

Los datos que surgen de los contratos son de muy difícil acceso. En casi todos los casos, estos datos no son de fácil acceso, o bien, no están estructurados, suelen estar ocultos en grandes conjuntos de documentos incompletos y además, pueden encontrarse publicados en dos o tres fuentes diferentes. Desafortunadamente, esta situación no puede resolverse con pedidos de acceso a la información, ya que las respuestas suelen estar en archivos pdf, textos o, incluso, copias escaneadas. Así que, por más que el mundo avanza con los estándares abiertos en los procesos de contrataciones, seguimos considerando que esto no es suficiente.

Cuando evaluamos diferentes soluciones de inteligencia artificial (IA) para extraer información o para ayudarnos a clasificar estas pilas de documentos, con frecuencia vemos que tienen un buen rendimiento solo en inglés, por lo que, probarlas y aplicarlas en otros idiomas ( en nuestro caso el español), supone otro desafío.

Para hacer frente a esta situación y encontrar una solución, cuatro organizaciones de medios de comunicación de las Américas unieron sus fuerzas en el marco del Journalism AI collab y testearon diferentes herramientas con el fin de construir una plataforma que ayude a los periodistas de investigación a comprender y procesar documentos poco estructurados y obtener de ellos información útil.

DockIns, una plataforma que aloja, lee y clasifica documentos, nos ayudará a investigar en grandes conjuntos de documentos de texto poco estructurados, tanto en inglés como en español.

Por el momento, esta herramienta no está orientada al usuario final, es necesaria cierta experiencia en programación para ejecutar los diferentes programas. Pero estamos haciendo nuestro máximo esfuerzo para diseñar una plataforma con interfaz de usuario final. Se puede encontrar una idea en este enlace.

¿Qué tecnología se usa y cómo funciona?

DockIns usa técnicas de aprendizaje automático (Machine Learning) y procesamiento de lenguaje natural (Natural Language Processing) para clasificar documentos de textos poco estructurados y brindar conocimiento sobre diferentes tipos de documentos (contrato, correo electrónico, carta, etc.), sus tópicos y entidades.

Para clasificar los documentos, se usa una herramienta ya desarrollada por MuckRock, llamada SideKick. Es una plataforma de aprendizaje automático integrada a DocumentCloud diseñada para formar rápida y eficientemente nuevos modelos basados en la misma plataforma DocumentCloud. En este enlace podrá acceder a una guía de cómo usar la herramienta.

Además, el Reconocimiento de Entidades Nombradas (Named Entity Recognition - NER) puede ser muy útil para identificar con facilidad elementos clave en un grupo de documentos, tales como nombres de personas, lugares, marcas comerciales o cifras. Sabemos que esta técnica es muy útil solo para textos en inglés y ha causado algunos problemas con los textos escritos en otros idiomas.

Por eso testeamos dos modelos de NER con documentos en español: SpaCy y DocumentCloud, que usa Google Cloud Natural Language. En este enlace hemos detallado el proceso que seguimos y algunas conclusiones sobre el rendimiento de ambos modelos.

¿Cómo probamos la herramienta?

Para crear la herramienta y testear las diferentes tecnologías ya desarrolladas, tuvimos que elegir un grupo de documentos para analizar. Decidimos concentrarnos en licitaciones, contratos y compras del Ministerio de Seguridad y sus cinco fuerzas (Gendarmería Nacional, Policía Federal Argentina, Servicio Penitenciario, Prefectura Naval y Policía de Seguridad Aeroportuaria), dado que todas las organizaciones manifestaron que este tipo de información era de muy difícil acceso en sus países. Obtuvimos 10.133 documentos incluidos entre los años 2014 y septiembre de 2021 que provenían del Boletín Oficial de la República Argentina (BORA), que es el documento oficial en donde el gobierno argentino publica las leyes sancionadas y otros actos de gobierno, de los poderes ejecutivo, legislativo y judicial.

Este boletín incluye una sección en donde se publican casi todas las licitaciones y contrataciones, pero en textos poco estructurados. Hemos elegido estos documentos porque hay una plataforma oficial donde se publican los contratos en formato abierto, pero donde tampoco se pueden encontrar todos. Luego subimos los documentos a la plataforma DocumentCloud para ejecutar SideKick. Para saber cómo comenzar a usar este programa, se puede hacer clic aquí.

Comenzamos a etiquetar algunos de los documentos para poder entrenar SideKick. En este caso, las etiquetas estaban relacionadas con el tipo de producto que el Ministerio estaba comprando. Luego, ejecutamos el algoritmo de aprendizaje de SideKick para calificar todos los documentos que no habían sido marcados específicamente en el paso de etiquetado. Y, a continuación, lo ejecutamos casi diez veces para aumentar su rendimiento.

Simultáneamente, empezamos a probar dos modelos de Reconocimiento de Nombres de Entidades en una muestra del mismo conjunto de documentos usado para SideKick. En este enlace, podrá conocer los dos modelos y cómo realizamos esta comparación.

En este grupo aprendimos y continuamos dando pasos hacia este objetivo.

This project is part of the 2021 JournalismAI Collab Challenges, a global initiative that brings together media organizations to explore innovative solutions to improve journalism via the use of AI technologies.

It was developed as part of the Americas cohort of the Collab Challenges that focused on “How might we use AI technologies to innovate newsgathering and investigative reporting techniques?” with the support of the Knight Lab at Northwestern University.

JournalismAI is a project of Polis – the journalism think-tank at the London School of Economics and Political Science – and it’s sponsored by the Google News Initiative. If you want to know more about the Collab Challenges and other JournalismAI activities, sign up for the newsletter or get in touch with the team via hello@journalismai.info.

Header image via Shutterstock under commercial license.