DATATHON
Actividad del datathon en el 18è Congrés d’Arxius i Gestió Documental de Catalunya
Qué es un datathon: es un encuentro de programadores centrado en datos: ante un dataset y en un plazo corto de tiempo, los participantes tienen el reto de utilizar su creatividad y habilidades en ciencia de datos para construir y explorar soluciones.
Datos de archivos
Se propone hacer un «Datathon» competitivo centrado en la clasificación automática a partir de las descripciones de fondos de archivo a nivel de unidad documental y unidad de instalación. Será una forma de poner a prueba los modelos actuales de clasificación, comprobando si una máquina es capaz de aprender a replicar la clasificación funcional a partir de la lectura de los campos que hay a las descripciones, sin darle más metodología ni contexto.
Objetivo:
- Comprobar la posibilidad de la aplicación de técnicas de procesamiento de lenguaje natural y de inteligencia artificial a las descripciones de archivo.
- Reflexionar sobre el modelo actual y el estado de los datos a las descripciones.
- Acercar a un conjunto de potenciales usuarios a los archivos.
Funcionamiento:
Se propone un reto competitivo abierto y se ofrecen tres agrupaciones de registros a los participantes:
- Una que se da completa a los participantes con la que entrenan el modelo (train)
- Una segunda con registros diferentes que se ofrece sin el campo de clasificación y con la solución, para que comprueben el funcionamiento (test)
- Un tercer conjunto de registros que se ofrece sin el campo de clasificación (validación). Contra este tercer grupo prueban el modelo y ven el porcentaje de acierto que tienen comparando con los resultados.
La duración del datathon será des del viernes 7 al jueves 13 a las 9 de la mañana que se cerrará y se conocerá la persona ganadora. El/la ganador/a ese mismo día a las 12 se conectará al Congreso para recibir el premio y hacer una pequeña exposición de unos 10′ sobre el trabajo que ha realizado, la experiencia o conclusiones.
El dataset:
Utilizamos un dataset provisto de los datos de fondos municipales que han dado diferentes archivos (¡y a los que agradecemos la participación!) previamente tratadas sin datos personales para hacerlas públicas.
Participantes:
El datathon se dirige a científicos de datos, expertos en técnicas de inteligencia artificial y tratamiento del lenguaje natural, a nivel individual o por equipos. Se quiere captar a público profesional y estudiantes.
Para animar la participación y el interés habrá un premio final por quien consiga un porcentaje de acierto más elevado.
La inscripción al datathon se cerrará el lunes 10 a las 8 de la tarde.
La plataforma
El reto se hará mediante la plataforma kaggle desde donde se dará acceso a los datasets y que serán tratados de forma abierta y sin limitaciones. No hay restricciones en cuanto a confidencialidad, protección de datos u otros aspectos puesto que se considera un conjunto de datos público.
El producto final
La propiedad será de los desarrolladores y del AAC-*GD.
Según qué sea el resultado puede ser interesante explorar como hacer la puesta a disposición de forma que sea útil para los profesionales de la archivística y para el sistema de archivos catalanes como herramienta de validación. Hay que tener en cuenta que el producto puede tener errores y ser poco consistente puesto que será un modelo elaborado a contrarreloj, datasets parciales y sin tener más contexto que los datos ofrecidos.
El objetivo es hacer una reflexión conjunta sobre las posibilidades de la explotación de datos, la calidad de las descripciones y la coherencia de los modelos que estamos utilizando.
Es una actividad ambiciosa de la que no sabemos qué resultados saldrán, pero sí tenemos claro que los archivos somos fuente de datos tanto para las soluciones de terceros como para utilizarlas para la mejora de nuestros propios sistemas.
¿Y tú archivero? ¿Y tú, archivera? ¿Cuál piensas que ha de ser la principal ambición de nuestro colectivo? 😀
¡Escríbenos!
Los archiveros y archiveras vivimos y trabajamos como la mayoría de los profesionales con ambiciones personales y profesionales. El próximo XVIII Congreso de Archivística y Gestión Documental de Cataluña tiene y tendrá la ambición como hilo conductor; ambición del colectivo profesional, hacia nuestra profesión.
El próximo Congreso, se desarrollará bajo el lema más osado ( o así lo creemos) de todos los que hemos hecho en estas diecisiete ediciones anteriores; el precio de la ambición, pero hay que explicar que ambicionamos como colectivo y como queremos que la archivística avance.
Vamos al concepto “ambición”; según la definición de la gran enciclopedia catalana es el Deseo desordenado de conseguir honores, dignidades, fama, poder o cualquier cosa que halaga el amor propio.
Miraremos de poner orden a este “deseo desordenado” para conseguir el deseo de excelencia dentro de nuestros archivos, la mejora del gobierno del dato y el logro de la confianza social, objetivos comunes a toda la profesión.
En un mundo de cambio, ajetreo e incertidumbre, se necesario analizar y debatir sobre las funciones esenciales de la archivística y la gestión documental (evaluación, descripción, clasificación, preservación,…) en el marco de su proceso de adaptación a los entornos de información datificados, tanto en cuanto a la creación y gestión como su explotación (difusión, reutilización, etc).
La profesión se y tiene que ser el verdadero baluarte de las evidencias; hoy siempre puestas en entredicho y cuestionadas por la infoxicación de medios y redes. Solo unas políticas ambiciosas de trabajo archivístico, nos tienen que permitir garantizar la rendición de cuentas de cara a la ciudadanía.
Necesitamos estrategias profesionales conjuntas; nacionales e internacionales, que nos permitan crear modelos y arquitecturas de sistemas capaces de lograr ambiciosas políticas de governanza.
Así mismo se necesario preservar integra y auténticamente datos y documentos contextualizados, dentro de los ambiciosos procesos de automatización que ya están en marcha.
Y finalmente la inaplazable necesidad de reutilizar los datos, cuestionar la interoperabilidad, ambicionar una verdadera investigación digital del patrimonio, y discutir si hace falta, líneas de actuación en el activismo de datos.
Estos serán los ejes del próximo XVIII Congreso de Archivística y Gestión Documental de Cataluña, más ambicioso y más digital que nunca. Disfrutadlo!, compartidlo!, participáis desde cualquier lugar y en cualquier momento.