Font: imatge generada des de ChatGPT.
A la jornada “Mobilidada 24” que va tenir lloc el passat 18 de setembre a UPF Barcelona School of Management es van fer les típiques ponències i taules rodones de qualsevol jornada. Per fer més amena la jornada, entre ponències es va fer participar als assistents a un joc de preguntes i respostes a través del telèfon mòbil. Fins aquí, per a mi, res fora de l’habitual en una jornada. El que em va sorprendre van ser les “preguntes ràpides”. És un format en el qual una moderadora (per cert excel·lement moderat per Marta Vancells de l’ATM) feia una sèrie de preguntes curtes a dues persones, i les respostes havien de ser també curtes. Les preguntes habitualment estaven vinculades amb la feina de les persones (quin és el projecte de mobilitat del qual et sents més orgullós? Què no repetiries?...), però també n’hi havia alguna que podia ser una mica més personal (truita de patates amb ceba o sense?). Em va semblar un format original (és molt possible que en altres jornades això s’hagi utilitzat, però per mi va ser la primera vegada), i si mai he d’organitzar una jornada miraré de copiar aquest format. Però tornant al tema, una de les preguntes que es va fer a la Cap del Servei d’Estadística de l’Oficina de Dades de l’Ajuntament de Barcelona, la Sra. María Jesús Calvo, va ser “Data Lake o Data Warehouse?”. La pròpia moderadora abans de fer la pregunta va dir que no sabia que estava preguntant, però òbviament la persona a qui anava dirigida la pregunta si que ho sabia. La Sra. Calvo va contestar “Data Lake”, i jo dins meu també vaig contestar “Data Lake”. No conec a la Sra. Calvo però si t’agraden les dades i t’agrada anar més enllà de l’obvi que et poden dir les dades has de respondre si o si “Data Lake”.
Si li preguntes a ChatGPT “Què és un Data Lake? Què és un Data Warehouse? En què es diferencien?”, et dona una explicació força acurada de què es cada cosa, i per explicar-te les diferències et treu la següent taula:
Les eines per fer dashboards com PowerBI o Tableau tenen clarament el seu rendiment més eficient amb dades procedents d’un Data Warehouse, i aquesta és la feina més habitual dels analistes de dades (o com trobaràs a moltes ofertes de feina: data analyst).
Però si t’agrada anar una mica més enllà de l’evident que et pot donar una taula construïda per donar resposta a una pregunta molt concreta, i pensar en una pregunta que ningú s’havia fet i intentar respondre-la utilitzant diferents tipus de dades i de fonts d’informació, llavors el que necessites és un Data Lake. Aquest tipus de feina és la que fa habitualment (o almenys això és el que diu la teoria) un científic de dades (data scientist), i perquè no dir-ho també la feina que molts cops fan els tècnics i tècniques d’observatori. Evidentment són moltes les diferències que separen un científic de dades d’un tècnic d’observatori, començant pel tipus de formació i el bagatge tècnic i tecnològic (com per exemple un coneixement avançant en algoritmes i tècniques de machine learning i intel·ligència artificial, programació avançada en R i Python...) que té un científic de dades que habitualment no té un tècnic d’observatori. Però per mi tenen un punt en comú ambdós perfils que és la curiositat, és el fer-se preguntes, o almenys és així en la majoria de tècnics i tècniques d’observatori que conec.
Un exemple
Cada cop m’estic fent més fan de la pàgina web de Dades Obertes de la Generalitat de Catalunya, i m’estic convertint en un usuari habitual. Multitud de datasets, APIs per descarregar-se les dades, desagregació territorial important en un nombre considerable de datasets... Val a dir que no tot està bé a Dades Obertes de la Generalitat, els hi falten datasets com per exemple els de l’atur registrat i la contractació, i personalment crec que s’han de mirar les dades abans de publicar-les en obert perquè més d’un i més de dos cops he hagut de reportar errors en algun dataset, errors fàcilment detectables[1] fent només un simple “summary” al dataset.
Un dels últims descobriments que he fet a dades obertes de la Generalitat ha estat el dataset de “subministrament de productes menstruals reutilitzables”. Aquest dataset conté la informació de cada dispensació que s’ha fet de producte menstrual (calces menstruals, compresa de tela i copa menstrual), l’edat de la persona que menstrua, la talla del producte menstrual, la data en que es dispensa, el municipi on es dispensa el producte menstrual i ja menys important per a mi són les dades de la comarca i la vegueria.
Amb aquesta taula un analista de dades et faria un quadre de comandament del rànquing de dispensacions dels tres productes menstruals. Segurament et faria un taula de distribució de productes menstrual per municipi, una altra per edat, una altra per talla..., en definitiva donaria resposta a les habituals preguntes que et podria fer el responsable del projecte de “dispensament de productes menstruals”.
Un científic de dades segurament el que faria es mirar de crear un model de previsió en funció del dispensament diari de productes menstruals, per tal de preveure la demanda de cada tipologia de producte menstrual. Això permetria optimitzar la compra per part de la Generalitat de Catalunya d’aquests productes menstruals i evitar tenir massa estoc d’un producte i massa poc d’un altre. Un científic de dades avaluaria quin algoritme de previsió seria el més adequat per fer la previsió, podria ser Òrbit d’Uber (https://github.com/uber/orbit), o potser Chronos de Amazon (https://github.com/amazon-science/chronos-forecasting), o potser TimesFM de Google (https://github.com/google-research/timesfm) o qualsevol altre dels moltíssims que hi ha disponibles avui en dia. El científic de dades escolliria l’algoritme que millor s’adapta a la tipologia de dades i obtindria una previsió de demanda de productes menstruals per tipus.
Un tècnic d’observatori el que faria és crear una ràtio amb el nombre de dispensaments de productes menstruals per municipi dividit pel nombre de dones del municipi i veure si correlaciona amb la renda del municipi. I això ho faria perquè el dispensament de productes menstruals és una de les mesures del “Pla integral d’equitat menstrual i climateri 2023-2025”, i un dels tres principis orientadors d’aquest pla és el “justícia social” que vol garantir els drets menstruals per a totes les dones i persones menstruants que es troben en situació o risc de patir pobresa menstruant. Sent una mica més imaginatiu, per no dir agosarat, en l’ús d’aquesta base de dades es podria analitzar la talla de les calces menstrual per edat (o potser també el de la copa menstrual); com la talla està relacionat amb la mida dels malucs, fent un creuament amb la taxa de fecunditat es podria analitzar la hipòtesi de si l’amplada dels malucs està relacionat amb una major o menor fecunditat de les dones. Aquest segon exercici és possible que tingui una menor utilitat directa, però part de la feina dels observatoris passa segons el meu punt de vista, per fer “recerca bàsica”, és a dir, per fer un tipus de recerca sense un objectiu definit i clar, però que potser més endavant pot servir per a la recerca d’altres investigadors els quals poden aconseguir generar un coneixement més útil i pràctic per la societat. O potser, perquè no dir-ho, entraria a participar als Premis Ig Nobel.
Del que he descrit anteriorment, el que fa habitualment un analista de dades necessita un Data Warehouse per fer-ho. Mentre que el que fa habitualment un científic de dades i un tècnic d’observatori necessita un Data Lake.
Un segon exemple
Fa molt poc vaig llegir la següent notícia “La ciutat de Brussel·les requisa per primer cop una casa buida per posar-la en lloguer social”. Investigant una mica més sobre aquesta notícia vaig trobar aquesta altra notícia: “Un nou estudi estima que hi ha 4500 habitatges buits a la regió de Brussel·les”. A Immobles buits a la regió de Brussel·les trobareu més informació de la recerca que es va fer des de l’Institut de Recerca de Brussel·les (BSI).
Tinc la sospita que la gent de BSI van posar micròfons ocults a una reunió a la que vaig assistir fa aproximadament un any i mig o dos. En aquella reunió vaig proposar exactament el mateix que ha fet a Brussel·les la gent de BSI, però per a Mataró. I quan dic exactament vull dir exactament. La meva proposta era utilitzar les mateixes fonts de dades que van utilitzar per fer l’estudi d’habitatge buit de Brussel·les, bé per ser honestos jo proposava utilitzar més fonts de dades (padró d’habitants, contractes de lloguer, llicències d’obra, llicències d’activitat, certificats energètics d’edificis, consum d’aigua...) i la meva proposta era més agosarada, ja que no només era “identificar” els habitatges buits sinó “identificar” o “saber el que passa” a cada local, habitatge, magatzem, nau industrial... de la ciutat de Mataró. Com és habitual la meva proposta va rebotar com ho fa l’eco dintre d’una cova deshabitada, la diferència és que a la sala on hi havia la reunió estava plena de gent, però segurament era gent poc imaginativa i amb manca d’idees i d'iniciativa, era gent que seguia la següent màxima: “si ningú t’ho ha demanat no ho facis”. Aquest és un lema que sento habitualment entre els informàtics, i que ells apliquen al peu de la lletra en la seva feina, i em sembla fantàstic, però que no hauria de ser el lema quan el que vols és utilitzar les dades per millorar la societat en que vivim, per tal de fer-la més justa i igualitària, i no les vols només per pintar gràfics i justificar una subvenció.
Però reprenent el tema central d’aquest article, en aquest segon exemple d’habitatges buits a Brusel·les, per tal de dur-ho a terme la gent de BSI segur que no va utilitzar dades d’un Data Warehouse, sinó que les dades estaven guardades en el seu format original en un Data Lake.
Pregunta ràpida
I tu que ets, de “Data Lake” o de “Data Warehouse”?
[1] Com potser que hi hagi una persona amb edat negativa al dataset de Subministrament de productes menstruals reutilitzables?
Com és possible que al mateix dataset de Subministrament de productes menstruals reutilitzables hi hagi 586 noms de municipis únics, però hi hagi 587 codis de municipis únics?
Perquè en data 18 d’octubre de 2024 apareixen dispensacions en data del mes d’abril de 2025?
Volem saber que en penses...
Sigues el primer en escriure un comentari