DATATHON
Activitat del datathon al 18è Congrés d’Arxius i Gestió Documental de Catalunya
Què és un datathon… és una trobada de programadors centrat en dades: davant un dataset i en un termini curt de temps, els participants tenen el repte d’utilitzar la seva creativitat i habilitats en ciència de dades per construir i explorar solucions.
Dades d’arxius
Es proposa fer un “Datathon” competitiu centrat en la classificació automàtica a partir de les descripcions de fons d’arxiu a nivell d’unitat documental i unitat d’instal·lació. Serà una forma de posar a prova els models actuals de classificació, comprovant si una màquina és capaç d’aprendre a replicar la classificació funcional a partir de la lectura dels camps que hi ha a les descripcions, sense donar-li més metodologia ni context.
Objectiu:
- Comprovar la possibilitat de l’aplicació de tècniques de processament de llenguatge natural i d’intel·ligència artificial a les descripcions d’arxiu.
- Reflexionar sobre el model actual i l’estat de les dades a les descripcions.
- Acostar a un conjunt de potencials usuaris als arxius.
Funcionament:
Es proposa un repte competitiu obert i s’ofereixen tres tres agrupacions de registres que s’ofereixen als participants:
- Una que es dóna completa als participants amb la que entrenen el model (train)
- Una segona amb registres diferents que s’ofereix sense el camp de classificació i amb la solució, per tal que comprovin el funcionament (test)
- Un tercer conjunt de registres que s’ofereix sense el camp de classificació (validació). Contra aquest tercer grup és el que proven el model i veuen el percentatge d’encert que tenen comparant amb els resultats.
La durada del datathon és del divendres 7 a dijous 13 a les 9 del matí que es tancarà i es coneixerà la persona guanyadora. El/la guanyador/a aquell mateix dia a les 12 es connectarà al Congrés per rebre el premi i fer una petita exposició d’uns 10′ sobre la feina que ha fet, la experiència o conclusions.
El dataset:
Utilitzem un dataset provist de les dades de fons municipals que han donat diferent arxius (i als que agraïm la participació!) prèviament tractades sense dades personals per tal de fer-les públiques.
Participants:
El datathon s’adreça a científics de dades, experts en tècniques d’intel·ligència artificial i tractament del llenguatge natural, a nivell individual o per equips. Es vol captar a públic professional i estudiants.
Per animar la participació i l’interès hi haurà un premi final per qui aconsegueixi un percentatge d’encert més elevat.
La inscripció al datathon es tancarà el dilluns 10 a les 8 del vespre.
La plataforma
El repte es farà mitjançant la plataforma kaggle des d’on es donarà accés als datasets i que seran tractats de forma oberta i sense limitacions. No hi ha restriccions pel que fa a confidencialitat, protecció de dades o altres aspectes ja que es considera un conjunt de dades públic.
El producte final
La propietat serà dels desenvolupadors i de l’AAC-GD.
Segons quin sigui el resultat pot ser interessant explorar com fer-ne la posada a disposició de manera que sigui útil per als professionals de l’arxivística i per al sistema d’arxius catalans com a eina de validació. Cal tenir en compte que el producte pot tenir errors i ser poc consistent ja que serà un model elaborat a contrarellotge, datasets parcials i sense tenir més context que les dades oferides.
L’objectiu és fer una reflexió conjunta sobre les possibilitats de la explotació de dades, la qualitat de les descripcions i la coherència dels models que estem utilitzant.
És una activitat ambiciosa de la que no sabem quins resultats en sortiran, però sí tenim clar que els arxius som font de dades tant per a les solucions de tercers com per utilitzar-les per a la millora dels nostres propis sistemes.
I tu, arxiver? I tu, arxivera? Quina penses que ha de ser la principal ambició del nostre col·lectiu? 😀
Escriu-nos!
Els arxivers i arxiveres vivim i treballem com la majoria de professionals amb ambicions personals i professionals. El proper XVIII Congrés d’Arxivística i Gestió Documental de Catalunya té i tindrà l’ambició com a fil conductor; ambició del col·lectiu professional, envers la nostra professió.
El proper Congrés, es desenvoluparà sota el lema més agosarat ( o així ho creiem) de tots els que hem fet en aquestes disset edicions anteriors; el preu de l’ambició, però cal explicar que ambicionem com a col·lectiu i com volem que l’arxivística avanci.
Anem al concepte “ambició”; segons la definició de la gran enciclopèdia catalana es el Desig desordenat d’aconseguir honors, dignitats, fama, poder o qualsevol cosa que afalaga l’amor propi.
Mirarem de posar-hi ordre a aquest “desig desordenat” per tal d’aconseguir el desig d’excel·lència dins dels nostres arxius, la millora del govern de la dada i l’assoliment de la confiança social, objectius comuns a tota la professió.
En un món de canvi, trasbals i incertesa, es necessari analitzar i debatre sobre les funcions essencials de l’arxivística i la gestió documental (avaluació, descripció, classificació, preservació,…) en el marc del seu procés d’adaptació als entorns d’informació datificats, tant pel que fa a la creació i gestió com a la seva explotació (difusió, reutilització, etc).
La professió es i ha de ser el veritable baluard de les evidències; avui sempre posades en dubte i qüestionades per la infoxicació de mitjans i xarxes. Només unes polítiques ambicioses de treball arxivístic, ens han de permetre garantir la rendició de comptes de cara a la ciutadania.
Necessitem estratègies professionals conjuntes; nacionals i internacionals, que ens permetin crear models i arquitectures de sistemes capaços d’assolir ambicioses polítiques de governança.
Així mateix es necessari preservar integra i autènticament dades i documents contextualitzats, dins dels ambiciosos processos d’automatització que ja estan en marxa.
I finalment la inajornable necessitat de reutilitzar les dades, qüestionar la interoperabilitat, ambicionar una veritable recerca digital del patrimoni, i discutir si cal, línies d’actuació en l’activisme de dades.
Aquests seran els eixos del proper XVIII Congrés d’Arxivística i Gestió Documental de Catalunya, més ambiciós i més digital que mai. Gaudiu-lo!, compartiu-lo!, participeu des de qualsevol lloc i en qualsevol moment.