Assaig sobre la ceguesa en la qualitat de la dada

A Assaig sobre la ceguesa, José Saramago descriu una societat que, de sobte, deixa de veure-hi. Però el més inquietant no és la pèrdua de la vista, sinó la rapidesa amb què les persones s’adapten a viure en la ceguesa, com si fos normal.

En el món de la dada, especialment a l’administració pública, passa una cosa semblant. No és que no tinguem dades, ni tan sols que no sapiguem que moltes d’elles són de baixa qualitat. El problema és que hem après a conviure-hi. I, encara pitjor, a prendre decisions com si no passés res.

L'eterna infància: l'administració dels "pilots" que mai s'enlairen

A l’administració pública, i en el món que em moc jo, l’administració pública local, hi ha alguns ajuntaments amb regidories o serveis que en el seu nom llueixen amb orgull conceptes com “govern de la dada” o “governança de dades”. Però, fins on jo conec, no hi ha ningú que estigui exercint un veritable govern de la dada; ningú que tingui realment al cap què significa i què s'ha de fer per governar les dades de debò. Tot el que sento vinculat a dades és “fem un pilot aquí” o “fem un pilot allà”, especialment si hi podem posar l'etiqueta d’intel·ligència artificial (sobre aquest tema, us recomano l’article de Pep Martorell https://pepmartorell.substack.com/p/el-estado-de-la-ia-en-la-empresa).

Sembla que haguem confós l'administració pública amb una acadèmia de vol. Tot són “pilots”. Pilots d’IA, pilots de governança, pilots de fum. De fet, he escoltat treballadors públics dient, sense cap mena de vergonya, que “cal fer pilots, que no s’ha de tenir por a equivocar-nos”. Per a mi, aquest és un error catastròfic que demostra el baix nivell de determinats pretenciosos treballadors públics amb ínfules de manar que es queden en la capa més superficial: la d'aparentar. Com si l’important fos fer moltes coses que no importen, en lloc de fer-ne poques però rellevants.

Escoltant determinats treballadors públics, sembla que equivocar-se sigui un esport de risc finançat amb diners públics on el més important no és aprendre, sinó l’adrenalina de presentar un projecte que amb alta probabilitat no arribarà mai a producció. Certament, no s'ha de tenir por a l'error, però si ens quedem únicament en el fet que el que hem fet no funciona, no aprendrem res. L’error només és útil si hi ha algú al volant amb prou humilitat per admetre’l i per no tornar-hi a ensopegar, no si només serveix per omplir una nota de premsa buida.

Algú sap que és la de qualitat de la dada?

Però reprenent el tema sobre el qual volia parlar en aquest article, la “qualitat de la dada”, aquest és un dels 10 punts que pivoten al voltant de la roda de “govern de la dada” que propugna DAMA, i personalment, crec que és un dels punts més importants. Però amb el concepte “qualitat de la dada” tinc la mateixa sensació que amb el concepte “govern de la dada”, que ningú (o gairebé ningú) sap ben bé que és “qualitat”, i com definim operativament la “qualitat de la dada”. Si que és cert que DAMA proposa 6 dimensions a l’hora de parlar de qualitat de la dada: exactitud, completitud, consitència, integritat, actualitat i unicitat, però fins on jo conec no s’està implementant la operativització d’aquestes 6 dimensions a l’administració pública, perquè segurament costa saber quin pes ha de tenir cada dimensió (és més important la completitud que la exactitud? Ha de pesar més la unicitat que la integritat?), o si aquests pesos han de ser igual per a totes les dades (la unicitat és més important en el padró d’habitants que en l’IBI?). En general, el que passa a l’administració pública és que s’estan donant per bones totes les dades que s'hi generen, i només quan s’ha generat algun dashboard i apareix algun indicador amb algun valor dissonant, només llavors es mira que passa amb les dades.

Tot plegat reflecteix la manca de persones amb un clar lideratge (i per mi liderar no és dir que si a tot el que volen els altres o al que et diu el teu cap, liderar és defensar de forma argumentada la teva posició davant de qualsevol persona pel bé de l’organització) i amb veritable coneixement sobre el govern de la dada, i això deixa pas a una situació on l’important és tenir un quadre de comandament o una aplicació feta amb intel·ligència artificial, i no el propi fet de governar les dades per prendre decisions basades en bones dades, basades en dades de qualitat. Tot això fa que es crein estructures en l’organització que van creixent però ho fan amb uns fonaments de fang, amb el consegüent risc de desmoronament.

El perill de les dades dolentes

En aquest sentit, personalment resulta frustrant escoltar el Director General d’Intel·ligència Artificial, Eficiència i Dades de la Generalitat, el senyor Jaume Miralles Solé (https://youtu.be/mtHJsbdOETQ?si=S-gF4JB9-WOUGA2o&t=5477), quan afirma que no ens ha d’importar gaire la qualitat de la dada perquè 'és millor una dada de baixa qualitat que la intuïció'.

El que segurament ignora el Sr. Miralles és que, quan decideixes per intuïció, saps que assumeixes un risc; ets prudent i busques senyals que et confirmin si t'equivoques. En canvi, davant d'una dada —encara que sigui pèssima— el cervell humà activa un biaix d’autoritat: si un gràfic diu que les coses van bé, ens relaxem.

La intuïció t'obliga a mirar a banda i banda abans de creuar; una mala dada és com un semàfor en verd que et convida a passar mentre ve un tràiler de divuit rodes en direcció contrària. El problema real no és la ceguesa, és creure que hi veus perquè portes unes ulleres de plàstic pintades que et donen la falsa confiança per saltar al buit sense paracaigudes.

De fet, en aquesta mateixa jornada en la que va dir això el director general, jo mateix vaig participar en una de les taules on es feien dinàmiques de treball, concretament en la taula de “dades”. Si una cosa crec que es pot extreure del que es va dir en aquella taula és que un dels grans problemes és la “qualitat de les dades” en l’administració pública. Com molt bé diuen els informàtics “gargabe in, garbage out”. Evidentment, com diu el Director General, no podem esperar a tenir les dades perfectes, però si que hem de demanar que les dades tinguin una qualitat mínima, ja que sense aquesta qualitat mínima prendrem decisions igual de dolentes, o fins i tot més dolentes que sense dades.

Quan l'autoselecció suplanta l'estadística

Continuant amb la qualitat de les dades, fa poc vaig tenir una discussió metodològica respecte una enquesta on les persones s’autoseleccionen per respondre l’enquesta. Aquest fet genera el conegudíssim “biaix d’autoselecció”. Aquest és un dels tipus de biaix que apareix en qualsevol assignatura de mostreig del grau d’estadística.

La inferència estadística es basa en l’aleatòrietat de les unitats mostrals, és a dir, que les unitats mostrals han estat seleccionades aleatòriament. En una enquesta els enquestats han estat escollits aleatòriament, després l’enquestat et podrà respondre o no, però el primer punt consisteix en què han estat seleccionats a l’atzar. Deixar una enquesta oberta perquè la contesti qui vulgui (com per exemple fan molts diaris esportius a través de la pàgina web o de la xarxa social X) no és metodologicàment correcte ja que les persones que contesten poden, i normalment solen, tenir interessos per respondre l’enquesta, ja sigui a favor o en contra d’una determinada postura. O creieu que el resultat que s’obtindria en una enquesta oberta sobre l’abortament seria el mateix en el diari ABC que a ElDiario? I aquest biaix de cap de les maneres es soluciona ponderant les respostes en funció de les quotes dels estrats (sexe, edat, nivell d’estudis...).

Però com que no hi ha res millor que demostrar les coses empíricament, he dissenyat un experiment en un laboratori estadístic on simulo una enquesta a alumnes de secundària, batxillerat i FP sobre el seu estat emocional. Genero una població de 20.000 alumnes als quals els assigno, en funció de determinades proporcions, les següents característiques: sexe, centre educatiu i etapa formativa (ESO, FP i Batxillerat). També els assigno un valor sobre el seu estat emocional, un valor que va de 0 a 100 (però partint de la base d’un malestar amb valor 50), i en el qual l’estat emocional dels “nois” és una mica pitjor que el de les “noies”, i l’estat emocional també varia en funció dels estudis que estan cursant. A cada individu sintètic de la població se li assigna una probabilitat de resposta a l’enquesta en funció del seu estat emocional i també depèn del centre educatiu (hi ha centres que poden incentivar més que uns altres la resposta dels seus alumnes). En conjunt, la mitjana de l’estat emocional dels 20.000 individus sintètics és de 53,69.

Sobre aquesta població sintètica es fan 1000 iteracions, en les quals en cada iteració cada individu “decideix” si respon o no respon a l’enquesta en base a la probabilitat de resposta que se li assigna, i en cada iteració es calcula la mitjana de l’estat emocional de tots els que han contestat. En les 1000 iteracions, dels individus “sintètics” que decideixen respondre, la mitjana és de 57,14. Si intentem resoldre el biaix d’autoselecció escollint aleatòriament 1000 individus sintètics dels que responen voluntàriament a l’enquesta i analitzem el valor mitjà del seu estat emocional, i això ho repetim 1000 cops, el valor mitjà de l’estat emocional també se situa en 57,14. I si d'aquests 1000 individus escollits aleatòriament es ponderen les seves respostes en funció del seu pes segons sexe i estudis, la mitjana dóna un valor de 56,88, és a dir, continua donant un resultat esbiaixat respecte a la mitjana real (et pots descarregar des d'aquí l'script d'R per replicar l'experiment estadístic).

Conclusió

La qualitat de la dada no és un aspecte secundari ni ajornable dins del govern de la dada, sinó que n’és el fonament imprescindible. Sense una definició operativa clara de què entenem per qualitat, i sense mecanismes per mesurar-la i garantir-la, qualsevol iniciativa basada en dades —ja sigui un quadre de comandament o un model d’intel·ligència artificial— es construeix sobre bases extremadament fràgils.

L’administració pública tendeix a prioritzar la producció de resultats visibles (pilots, dashboards, projectes d’IA) per sobre del treball estructural necessari per assegurar la qualitat de la dada. Aquesta aproximació genera una falsa sensació de progrés, però en realitat incrementa el risc de prendre decisions errònies.

Prendre decisions amb dades de baixa qualitat no és necessàriament millor que fer-ho per intuïció. Mentre que la intuïció porta implícita una consciència de risc, les dades —encara que siguin defectuoses— generen una falsa confiança que pot conduir a errors més greus i menys detectables.

El cas de les enquestes amb autoselecció il·lustra clarament com determinats problemes de qualitat, com el biaix d’autoselecció, no es poden corregir simplement amb tècniques estadístiques posteriors com la ponderació. Si el disseny de la dada és defectuós des de l’origen, el resultat final serà inevitablement esbiaixat.

Governar la dada no és col·leccionar projectes per a la galeria, sinó assumir la responsabilitat d'assegurar dades fiables, garantir la qualitat de la dada. Si no entenem que el problema és estructural i no cosmètic, el risc institucional està servit. Ens convertirem en el cec que ja no només no hi veu, sinó que s'atreveix a conduir un autobús guiant-se per un mapa pintat per ell mateix amb ceres de colors. Ja va sent hora de recuperar la vista o, si més no, de tenir la decència de deixar de fingir que no estem a les fosques.

La teva valoració d'aquest article:

Assaig sobre la ceguesa en la qualitat de la dada

L'eterna infància: l'administració dels "pilots" que mai s'enlairen

Algú sap que és la de qualitat de la dada?

El perill de les dades dolentes

Quan l'autoselecció suplanta l'estadística

Conclusió

Volem saber que en penses...

Índex de transparència dels Ajuntaments (ITA)

Competitivitat, cohesió, governança territorial... Revisant l’ús de conceptes essencials en la planificació estratègica

Afinadors, rellotgers, ortopedes i toreros... Classificacions estadístiques i comunicació de la informació econòmica

Manis, fires, diades o, simplement, passeigs: el càlcul de persones en l’ús de l’espai públic

Mercat de treball: roda el món i torna al Born

L'eterna infància: l'administració dels "pilots" que mai s'enlairen

Algú sap que és la de qualitat de la dada?

El perill de les dades dolentes

Quan l'autoselecció suplanta l'estadística

Conclusió

Formulari de cerca