DATATHON

Activitat del datathon al 18è Congrés d’Arxius i Gestió Documental de Catalunya

Què és un datathon… és una trobada de programadors centrat en dades: davant un dataset i en un termini curt de temps, els participants tenen el repte d’utilitzar la seva creativitat i habilitats en ciència de dades per construir i explorar solucions.

Dades d’arxius

Es proposa fer un “Datathon” competitiu centrat en la classificació automàtica a partir de les descripcions de fons d’arxiu a nivell d’unitat documental i unitat d’instal·lació. Serà una forma de posar a prova els models actuals de classificació, comprovant si una màquina és capaç d’aprendre a replicar la classificació funcional a partir de la lectura dels camps que hi ha a les descripcions, sense donar-li més metodologia ni context.

Objectiu:

  • Comprovar la possibilitat de l’aplicació de tècniques de processament de llenguatge natural i d’intel·ligència artificial a les descripcions d’arxiu.
  • Reflexionar sobre el model actual i l’estat de les dades a les descripcions.
  • Acostar a un conjunt de potencials usuaris als arxius.

Funcionament:

Es proposa un repte competitiu obert i s’ofereixen tres tres agrupacions de registres que s’ofereixen als participants:

  • Una que es dóna completa als participants amb la que entrenen el model (train)
  • Una segona amb registres diferents que s’ofereix sense el camp de classificació i amb la solució, per tal que comprovin el funcionament (test)
  • Un tercer conjunt de registres que s’ofereix sense el camp de classificació (validació). Contra aquest tercer grup és el que proven el model i veuen el percentatge d’encert que tenen comparant amb els resultats.

La durada del datathon és del divendres 7 a dijous 13 a les 9 del matí que es tancarà i es coneixerà la persona guanyadora. El/la guanyador/a aquell mateix dia a les 12 es connectarà al Congrés per rebre el premi i fer una petita exposició d’uns 10′ sobre la feina que ha fet, la experiència o conclusions.

El dataset:

Utilitzem un dataset provist de les dades de fons municipals que han donat diferent arxius (i als que agraïm la participació!) prèviament tractades sense dades personals per tal de fer-les públiques.

Participants:

El datathon s’adreça a científics de dades, experts en tècniques d’intel·ligència artificial i tractament del llenguatge natural, a nivell individual o per equips. Es vol captar a públic professional i estudiants.

Per animar la participació i l’interès hi haurà un premi final per qui aconsegueixi un percentatge d’encert més elevat.

La inscripció al datathon es tancarà el dilluns 10 a les 8 del vespre.

La plataforma

El repte es farà mitjançant la plataforma kaggle des d’on es donarà accés als datasets i que seran tractats de forma oberta i sense limitacions. No hi ha restriccions pel que fa a confidencialitat, protecció de dades o altres aspectes ja que es considera un conjunt de dades públic.

El producte final

La propietat serà dels desenvolupadors i de l’AAC-GD.

Segons quin sigui el resultat pot ser interessant explorar com fer-ne la posada a disposició de manera que sigui útil per als professionals de l’arxivística i per al sistema d’arxius catalans com a eina de validació. Cal tenir en compte que el producte pot tenir errors i ser poc consistent ja que serà un model elaborat a contrarellotge, datasets parcials i sense tenir més context que les dades oferides.

L’objectiu és fer una reflexió conjunta sobre les possibilitats de la explotació de dades, la qualitat de les descripcions i la coherència dels models que estem utilitzant.

És una activitat ambiciosa de la que no sabem quins resultats en sortiran, però sí tenim clar que els arxius som font de dades tant per a les solucions de tercers com per utilitzar-les per a la millora dels nostres propis sistemes.

Diputació Barcelona

I tu, arxiver? I tu, arxivera? Quina penses que ha de ser la principal ambició del nostre col·lectiu? 😀
Escriu-nos!

3 + 7 =