Quan surts per fer el viatge cap a Ítaca,
has de pregar que el camí sigui llarg,
ple d’aventures, ple de coneixences.
Així comença el famós poema de Kavafis, amb la traducció de Carles Riba, que glosa el viatge de tornada d’Ulisses a casa seva, Ítaca. Reconec que és agosarat utilitzar aquest preciós poema per parlar d’R i de la Mostra Contínua de Vides Laborals (MCVL), però crec que és un bon símil per explicar l’experiència de Laura Gómez García amb R i amb la MCVL.
Certament no és el primer cop, ni serà l’últim, que parlem des de l’Ajuntament de Mataró de la Mostra Contínua de Vides Laborals (vegeu aquí, aquí, aquí i aquí), però si que és el primer cop que Laura Gómez García, treballadora de l’Ajuntament de Mataró com Pla d’Ocupació, utilitza el software estadístic lliure R (i més concretament la seva IDE R-Studio) i s’endinsa dins de la maresma que implica utilitzar la Mostra Contínua de Vides Laborals (MCVL).
En el viatge de tornada d’Ulisses, hi ha tres aspectes rellevants: el destí (Ítaca), el mitja de transport (el vaixell), i el lloc per on transcorre el viatge (la mar Mediterrània). Continuant amb el símil, en el treball que ha fet Laura el destí serien els objectius que se li van encarregar, el mitjà de transport seria el software utilitzat per fer el treball, i el lloc per on transcorre el viatge seria la MCVL.
Ítaca: el nombre diari de treballadors i el sou diari dels assalariats
A Laura se li va demanar en primer lloc obtenir el nombre diari d’ocupats registrats, tant dels que resideixen a Mataró com dels que treballen a Mataró. En segon lloc se li va demanar calcular el sou diari dels assalariats, tant dels que resideixen a Mataró com dels que treballen a Mataró.
El vaixell: R-Studio
La idea inicial era fer tot el treball amb R o amb R-Studio, però una de les limitacions de R és que treballa amb la memòria RAM, i això amb taules molt grans (com és el cas de la MCVL) i amb ordinadors amb poca RAM (com és el nostre cas) representa un problema important, ja que la primera operació consisteix a fer un “merge” entre la taula “PERSONAL” i la taula “AFILIAD” de la MCVL, i l’ordinador no disposa de suficient RAM per dur-la a terme completament.
Aquesta limitació ha obligat a utilitzar en una primera etapa el gestor de bases de dades Access Microsoft. Amb Access es va fer el “merge” dels quatre fitxers en que està dividida la taula “AFILIAD” amb el fitxer que correspon a la taula “PERSONAL”. Posteriorment es va extreure la submostra que conté la informació d’afiliació de tots els residents a Mataró i de tots els que treballen a Mataró. Aquesta submostra de “mataronins” ha estat el fitxer que s’ha explotat a través d’R.
La Mediterrània: Mostra Continua de Vides Laborals (MCVL-2014)
Els resultats d’aquest treball s’han obtingut de l’explotació de la Mostra Continua de Vides Laborals de 2014 (MCVL-2014), en la seva onada amb dades fiscals. Per fer qualsevol treball amb la MCVL és del tot imprescindible llegir la guia de la MCVL (aquí) i també el document que fa referència a les variables fiscals de la MCVL (aquí). Per tal d’entendre com explotar la MCVL cal llegir-se el document “Claves para el trabajo con la Muestra Contínua de Vidas Laborales”. Per delimitar els criteris que s’han de complir per identificar els treballadors que han estat afiliats a la Seguretat Social en algun moment durant el 2014 en la MCVL, ens ha estat molt útil el document “Procesamiento y depuración de la muestra continua de vidas laborales (MCVL) para el estudio del mercado laboral gallego”, i també l’estudi de salaris en els grans municipis que porta a terme l’Instituto Galego de Estatistica.
Dels 22 fitxers que conté la MCVL-2014 amb dades fiscals (1,8 Gb de dades), únicament se n’han utilitzat 6. Per calcular el nombre diari (mostral) de treballadors s’han utilitzat les següents taules:
- "PERSONAL" (1 fitxer). Conté informació sobre les característiques essencials procedents de les bases de dades de la Seguretat Social i del Padró Municipal dels seleccionats per a la mostra (data de naixement, sexe, nacionalitat, residència, etc...). En la guia de la MCVL s’adverteix que en l’onada amb dades fiscals poden haver-hi identificadors personals duplicats, per tant cal eliminar aquests duplicats per evitar errors.
- "AFILIAD" (4 fitxers). Conté els episodis d’afiliació a la Seguretat Social que ha mantingut la persona seleccionada per a la MCVL al llarg de la seva vida. S’entén com episodi d’afiliació el període de temps que transcorre entre una data d’alta i una data de baixa, ambdues incloses, durant el qual el treballador, bé per mitjà d’un empresari o una entitat identificada pel seu codi de compte de cotització o bé en qualitat de treballador autònom, roman en situació d’alta en la Seguretat Social, la qual, generalment, implicarà l’obligació de cotitzar. El fitxer recull episodis d’afiliació que reflectiran tant situacions d’alta laboral, que són les més freqüents, com d’alta en atur, d’alta en conveni especial, etc.
Per tal de saber el sou diari dels assalariats, a banda dels dos fitxers esmentats anteriorment s’ha utilitzat el fitxer:
- "FISCAL" (1 fitxer). Essencialment, el fitxer de dades fiscals conté informació individualitzada sobre les retribucions satisfetes i les retencions practicades per IRPF a les persones incloses en la MCVL durant l’any de referència, així com algunes dades relatives a la seva situació familiar quan són necessaris per l’aplicaci de reduccions o beneficis fiscals.
Evolució diària dels ocupats registrats
Per tal d’obtenir el nombre diari dels ocupats registrats (afiliats en alta laboral), cal determinar en primer lloc quins criteris s’han de complir amb les variables de la MCVL per considerar a una persona com ocupada. En aquest aspecte el document “Procesamiento y depuración de la muestra continua de vidas laborales (MCVL) para el estudio del mercado laboral gallego” ha estat molt útil, ja que en la pàgina 5 i 6 d’aquest document s’especifica quines restriccions s’han de complir. Un cop s’ha determinat quines persones estan en alta laboral, només cal fer un “loop” amb R per veure cada dia de l’any qui està d’alta laboral, i per fer-ho cal utilitzar els camps referents a les dates d’alta i de baixa. El resultat és el següent:
- Residents a Mataró afiliats en alta laboral (independentment d’on treballin). Valors mostrals
- Afiliats en alta laboral que treballen a Mataró (independentment d’on resideixin). Valors mostrals
Evolució diària del salari
Per calcular el sou cal utilitzar el fitxer “FISCAL”. En primer lloc s’han de seleccionar els casos amb clau de percepció “A” (treballadors per compte aliè en general), en segon lloc cal sumar els camps “Percepció íntegra (dinerària)” i “Percepcions en espècie (valoració)” per obtenir la percepció salarial. Posteriorment es fa un “merge” entre les dades filtrades del fitxer “FISCAL” i el “dataframe” de mataronins (que conté les dades d’afiliació dels residents a Mataró i les dades d’afiliació dels que treballen a Mataró). La fusió d’aquestes dues taules es fa a través de l’identificador de la persona física i de l’identificador de l’entitat pagadora.
En la taula “AFILIAD” hi ha la data d’alta i de baixa de cada relació laboral, per tant es poden calcular els dies que ha estat treballant cada persona de la mostra en cada empresa. Per tant per al 2014 es calcula quants dies han estat treballant els que estaven en alta laboral. En la taula “AFILIAD” també hi ha la variable de coeficient de temps parcial, variable que cal utilitzar per corregir el sou diari. Per calcular la percepció salarial diària la fórmula és la següent:
En la guia de la MCVL, en l’apartat de comentaris i advertències de la variable de coeficient de temps parcial (la unitat de mesura és tant per mil) s’esmenta que “hi ha una petita proporció de registres en què la xifra que figura en aquest camp és inusualment baixa (per sota de 100). La tendència a la concentració d’aquests registres en determinats valors fa pensar que pot tractar-se sovint de simples errors, com, per exemple, introduir 050 en lloc de 500 quan el contracte és de mitja jornada”. En aquest cas nosaltres hem estat molt cautelosos, i no hem tingut en compte les relacions laborals amb un coeficient de temps parcial igual o per sota de 250.
Els resultats obtinguts es presenten en els següents gràfics.
- Residents a Mataró afiliats en alta laboral per compte aliè (independentment don treballin)
Sou mitjà diari (€/dia)
Boxplots sou diari (€/dia) per mesos
Boxplots sou diari (€/dia) per dia de cada mes
- Afiliats en alta laboral per compte aliè que treballen a Mataró (independentment d’on resideixin)
Sou mitjà diari (€/dia)
Boxplots sou diari (€/dia) per mesos
Boxplots sou diari (€/dia) per dia de cada mes
Conclusió
El poema de Kavafis finalitza així:
I si la trobes pobra, no és que Ítaca t'hagi enganyat.
Savi com bé t'has fet, amb tanta experiència,
ja hauràs pogut comprendre què volen dir les Ítaques.
Crec que no hi ha millor forma d’explicar el que ens enduem d’aquest treball. Laura Gómez García i Gerard Reverté Calvet Servei d’Estudis i Planificació Ajuntament de Mataró
Volem saber que en penses...
Sigues el primer en escriure un comentari