En una base de dades, que és un conjunt de dades agrupades de forma ordenada, hi conflueixen, normalment, dos perfils d’usuari: qui introdueix informació i qui la consulta.
Les bases de dades poden ser classificades segons multitud de criteris. Uns exemples citats a cuita-corrents serien segons l’estructura, segons la variabilitat de les dades, segons el contingut o segons la forma d’administrar les dades. Sorprèn constatar que cap categorització convencional pren com a criteri de classificació la fiabilitat de les dades introduïdes. Sota aquest criteri, es tindrien bases de dades amb dades fiables i bases de dades amb dades no fiables. Es disposa d’una extensa literatura per gairebé cada tipus de base de dades definida pels acadèmics. Per contra, no es disposa de literatura per les bases de dades amb dades no fiables, tanmateix, sí que hi ha una paraula que les defineix: gigo, acrònim de ‘garbage in garbage out’.
Gigo sintetitza de forma brillant l’òbvia idea, i sovint obviada, que si a una base de dades s’entren bajanades, surten bajanades. Aquesta premissa té tant de pes dins el món de les bases de dades com dins el món de la química té la que diu que la matèria ni es crea ni es destrueix, sinó que només es transforma. Si, qui introdueix dades a una base de dades, entra bajanades, qui faci una consulta, consultarà bajanades. Mentre que resulta habitual que, qui consulta dades, no és conscient del grau de fiabilitat de la informació que està consultant, qui introdueix dades acostuma a ser conscient del grau de fiabilitat de la informació que està introduint.
Si un equip de catedràtics de l’Economics University of Illinois elabora un complert dossier de dues-centes pàgines analitzant una tirallonga de paràmetres extrets d’una base de dades gigo, l’informe serà garbage. I si l’informe es maqueta a color, s’imprimeix amb tapes dures, es presenta davant cinc-centes persones i els mitjans de comunicació anuncien la seva existència en horari de màxima audiència, seguirà sent garbage.
Quan es tracta d’una font interna i s’és proper a qui nodreix d’informació la base de dades, es pot indagar si els inputs s’introdueixen de forma curosa o a la xamberga. A partir de bases de dades ben gestionades, es podran elaborar bons informes. A partir de les altres, no. En els casos de les bases de dades gigo, resulta més profitós dedicar esforços a fer depuracions que no pas a fer explotacions estadístiques.
Si es tracta d’una base externa i s’està lluny de qui introdueix informació, costa discernir el grau de gigo de la base de dades. L’espectre dels que analitzen les bases de dades externes és interessant per la seva amplitud; anant des de l’escèptic que no consulta la base de dades perquè no se la creu, fins el fervent devot que segueix la seva doctrina a ulls clucs.
Per tot això és important saber la composició química de l’aigua que es veu, és a dir, el grau de puresa de la font, més enllà de doctrines i prejudicis.
Ramon Culleré
Responsable del Servei d’estudis de l’Ajuntament de Manresa
Comentaris
Rubén Pérez
21 maig 2012
Xavier Muñoz
21 maig 2012
Volem saber que en penses...