DATATHON

Actividad del datathon en el 18è Congrés d’Arxius i Gestió Documental de Catalunya

Qué es un datathon: es un encuentro de programadores centrado en datos: ante un dataset y en un plazo corto de tiempo, los participantes tienen el reto de utilizar su creatividad y habilidades en ciencia de datos para construir y explorar soluciones.

Datos de archivos

Se propone hacer un «Datathon» competitivo centrado en la clasificación automática a partir de las descripciones de fondos de archivo a nivel de unidad documental y unidad de instalación. Será una forma de poner a prueba los modelos actuales de clasificación, comprobando si una máquina es capaz de aprender a replicar la clasificación funcional a partir de la lectura de los campos que hay a las descripciones, sin darle más metodología ni contexto.

Objetivo:

  • Comprobar la posibilidad de la aplicación de técnicas de procesamiento de lenguaje natural y de inteligencia artificial a las descripciones de archivo.
  • Reflexionar sobre el modelo actual y el estado de los datos a las descripciones.
  • Acercar a un conjunto de potenciales usuarios a los archivos.

Funcionamiento:

Se propone un reto competitivo abierto y se ofrecen tres agrupaciones de registros a los participantes:

  • Una que se da completa a los participantes con la que entrenan el modelo (train)
  • Una segunda con registros diferentes que se ofrece sin el campo de clasificación y con la solución, para que comprueben el funcionamiento (test)
  • Un tercer conjunto de registros que se ofrece sin el campo de clasificación (validación). Contra este tercer grupo prueban el modelo y ven el porcentaje de acierto que tienen comparando con los resultados.

La duración del datathon será des del viernes 7 al jueves 13 a las 9 de la mañana que se cerrará y se conocerá la persona ganadora. El/la ganador/a ese mismo día a las 12 se conectará al Congreso para recibir el premio y hacer una pequeña exposición de unos 10′ sobre el trabajo que ha realizado, la experiencia o conclusiones.

El dataset:

Utilizamos un dataset provisto de los datos de fondos municipales que han dado diferentes archivos (¡y a los que agradecemos la participación!) previamente tratadas sin datos personales para hacerlas públicas.

Participantes:

El datathon se dirige a científicos de datos, expertos en técnicas de inteligencia artificial y tratamiento del lenguaje natural, a nivel individual o por equipos. Se quiere captar a público profesional y estudiantes.

Para animar la participación y el interés habrá un premio final por quien consiga un porcentaje de acierto más elevado.

La inscripción al datathon se cerrará el lunes 10 a las 8 de la tarde.

La plataforma

El reto se hará mediante la plataforma kaggle desde donde se dará acceso a los datasets y que serán tratados de forma abierta y sin limitaciones. No hay restricciones en cuanto a confidencialidad, protección de datos u otros aspectos puesto que se considera un conjunto de datos público.

El producto final

La propiedad será de los desarrolladores y del AAC-*GD.

Según qué sea el resultado puede ser interesante explorar como hacer la puesta a disposición de forma que sea útil para los profesionales de la archivística y para el sistema de archivos catalanes como herramienta de validación. Hay que tener en cuenta que el producto puede tener errores y ser poco consistente puesto que será un modelo elaborado a contrarreloj, datasets parciales y sin tener más contexto que los datos ofrecidos.

El objetivo es hacer una reflexión conjunta sobre las posibilidades de la explotación de datos, la calidad de las descripciones y la coherencia de los modelos que estamos utilizando.

Es una actividad ambiciosa de la que no sabemos qué resultados saldrán, pero sí tenemos claro que los archivos somos fuente de datos tanto para las soluciones de terceros como para utilizarlas para la mejora de nuestros propios sistemas.

Diputació Barcelona

¿Y tú archivero? ¿Y tú, archivera? ¿Cuál piensas que ha de ser la principal ambición de nuestro colectivo? 😀
¡Escríbenos!

5 + 3 =