Mostra continua de vides laborals 2010

Fa gairebé un any ja vaig parlar de la Mostra Continua de Vides Laborals (MCVL) i de la seva aplicabilitat als municipis de més 40.000 habitants en el post Mostra contínua de vides laborals (MCVL): l’ús a nivell local.

En aquell post, com exemple de la utilitat de la MCVL, presentava l’evolució dia a dia, durant el 2009, dels treballadors assalariats en alta laboral que cotitzaven al règim general de la Seguretat Social per als municipis més grans de la província de Barcelona, i també del conjunt de la província de Barcelona. Aquell gràfic permetia veure el comportament estacional per part de les empreses a l’hora de contractar personal i en l’acomiadament o finalitzacions de contractes, com és el cas, per exemple, de l’inici o la finalització del curs escolar, etcètera (gràfic dinàmic).

En aquest post continuaré analitzant dades extretes de la MCVL del 2010 sense dades fiscals per a Mataró, fent tres petits treballs estadístics. El primer treball consisteix en calcular l’error d’aquesta mostra a nivell municipal; el segon, és comprovar si la mostra presenta un bon ajustament en la seva distribució per seccions econòmiques; i la tercera, és comprovar si la xifra d’assalariats del darrer dia del mes és una “bona mesura” del que ha passat durant el mes.

Comencem. En primer lloc abans de calcular l’error mostral, cal explicar que és. Així l'error mostral és la divergència que hi ha entre l’estadístic obtingut a través de la mostra i el corresponent paràmetre de la població. Així, de la MCVL-2010, el nombre de treballadors assalariats mostrejats que cotitzen al règim general en centres de cotització ubicats a Mataró, en data 31 de març del 2010, és de 1.219, xifra que representa el 4,13% del total de cotitzants que dóna el Departament d’Empresa i Ocupació per aquesta mateixa data (29.506 assalariats). Fixant un nivell de confiança del 95,5%, l’error màxim d’aquesta mostra és del 2,81%. Es tracta doncs d’un nivell d’error més que assumible, ja que habitualment s’utilitzen errors del 5% o inferiors. Si voleu calcular l’error, ho podeu fer accedint a aquest full de càlcul fent clic a sobre l’imatge.

El segon treball té com a objectiu comprovar si la distribució dels assalariats que cotitzen al règim general de la Seguretat Social per seccions econòmiques de la MCVL-2010, s’ajusta a la distribució que trimestralment proporciona el Departament d’Empresa i Ocupació (enllaç). Per fer aquesta comprovació utilitzo la prova no paramètrica Chi-quadrat de bondat d’ajust. Aquesta prova l’ aplico als assalariats que treballen a Mataró per als quatre trimestres del 2010. La hipòtesi nul·la d’aquest contrast és la següent: la istribució de la mostra s’ajusta a la de la població (nota: s’han agrupat algunes seccions econòmiques, ja que els valors esperats estaven per sota de 5).

La prova s’ha dut a terme amb el paquet estadístic de software lliure R, i el resultat que s’obté és el següent:

                             p-valor

31 de març             0.9841054

30 de juny              0.9707055

30 de setembre    0.9872099

31 de desembre    0.9434755

Amb aquests p-valors no es pot rebutjar la hipòtesi nul·la que la distribució per seccions econòmiques de la mostra dels assalariats que treballen en centres de cotització ubicats a Mataró s’ajusti a la distribució poblacional per als quatre dies seleccionats.

 La sintaxi d’R per dur a terme el trobareu en el següent fitxer: Sintaxi bondat ajust.

El darrer treball que duré a terme té com objectiu comprovar si la data en què s’ofereix informació sobre el total de cotitzants en alta laboral al règim de la Seguretat Social explica adequadament el volum d’assalariats que hi ha hagut durant el mes. Però que vol dir “explicar adequadament”? En aquest cas he optat per utilitzar la mitjana diària d’assalariats de cada mes, si bé una altra possibilitat seria utilitzar la mediana.

Per tant la hipòtesi nul·la a contrastar diu el següent: la mitjana diària d’assalariats de cada mes és igual a la xifra del darrer dia. Per dur a terme aquest contrasta utilitzo una prova no paramètrica –com en el cas de la prova de bondad d’ajust– donat que la distribució de la dades no s’ajusta a la d’una normal, tal i com s’observa a través dels dotze histogrames corresponents als dotze mesos.

Per tant, la no normalitat en la distribució diària de cada mes dels assalariats, fa que la prova a realitzar per contrastar la hipòtesi nul·la plantejada anteriorment sigui la prova de Wilcoxon, i els resultats d’aquesta prova per cada mes del 2010 a Mataró són els següents:

Només en els mesos de setembre i d’octubre, el p-valor de la prova de Wilcoxon aconsegueix un valor clarament superior al 5%, i per tant no es pot rebutjar la hipòtesi nul·la, que diu que la mitjana d’assalariats del mes és igual a la dada del darrer dia del mes. Si observem l’interval de confiança de la prova de Wilcoxon per als mesos de setembre i octubre, s’observa com la xifra d’assalariats del darrer dia dels mesos respectius, es troben dins de l’interval de confiança.

En la resta de mesos el p-valor es troba per sota del 5%, fet que no permet acceptar la hipòtesi nul·la, i per tant se’n desprèn que la xifra d’assalariats del darrer dia és diferent de la mitjana mensual. Com es pot veure en la taula, en set mesos, la xifra d’assalariats del darrer dia del mes es troba per sobre de la mitjana mensual d’assalariats, mentre que en només tres mesos està per sota de la mitjana. Aquests, són els resultats per a Mataró. Si voleu replicar la prova en el següent enllaç hi trobareu la sintaxi d'R: Sintaxi Wilcoxon.

La MCVL és un mostra pensada per fer investigacions a nivell estatal o autonòmic, i el fet de posar a l’abast una mostra tan gran (per sobre del milió de persones) i amb tantes variables (més de 100 variables) permet fer-hi anàlisis per a col·lectius minoritaris. Però els municipis de més de 40.000 habitants també la podem aprofitar per extreure’n dades del nostre municipi. Val a dir, però, que per als observatoris municipals explotar la ingent quantitat d’informació que hi ha en aquesta base dades no és fàcil ja que d’entrada requereix disposar de maquinari i programari adequat per explotar una base de dades amb més de 14 milions de registres (que corresponen a més d’un milió de persones), però segurament el més important és que es necessari dedicar-hi un temps important per conèixer la base de dades. Crec, sincerament, que val la pena dedicar-hi temps a conèixer i explotar aquesta base de dades, ja que, fins al moment, és l’única eina gratuïta –l'únic cost seria el temps que hi dediqui el tècnic– que permet conèixer més a fons una part important del mercat de treball local.

Gerard Reverté Calvet

Servei d'Estudis i Planficació

Ajuntament de Mataró

La teva valoració d'aquest article: 
Mitjana de valoració: 4 (1 vote)
Fes clic al següent botó per enviar-ho per WhatsApp

Comentaris

Excel·lents els teus dos posts sobre la MCVL. Moltes gràcies Gerard per compartir els vostres avenços i experiència ("sin igual") en fer explotacions d'aquesta mostra a nivells municipals. :) A la segona prova que fas em genera un dubte. Dius: ""El segon treball té com a objectiu comprovar si la distribució dels assalariats que cotitzen al règim general de la Seguretat Social per seccions econòmiques de la MCVL-2010, s’ajusta a la distribució que trimestralment proporciona el Departament d’Empresa i Ocupació"" A que et referixes per seccions Econòmiques? Les 21 seccions econòmiques de la CCAE/CNAE 2009 (http://www.idescat.cat/Classif/Classif?TC=5&V0=1&V1=87&V2=1&lang=es) ? Josep Vives Observatori de la Ciutat de Rubí

Hola Josep, efectivament són les 21 seccions econòmiques del CCAE-2009. Però com ja comento en el post he agrupat diverses seccions, ja que en algunes seccions econòmiques els "valors esperats" estaven per sota de 5, i en aquests casos és recomanar agrupar casos, en aquest cas els casos són seccions econòmiques. Si llegeixes la sintaxi podràs veure quines seccions he agrupat.

ah, i felicitats per usar, i per tant difondre els soft estadístic lliure "R"!!! A veure ai algun dia m'hi poso a apendre'l... o a veure si algun dia en fas un taller als membres de El Perfil de la Ciutat Si uses "R", estaria be que el codi o sintaxis el distribueixis, quan el publiques a algun lloc com aquí, en ".RTF" i no en ".DOC". Els formats com RTF, TXT, CVS són estàndards oberts, no propietaris, que pots obrir amb molt programari diferent ;)

Hola Josep, tens tota la raó. De fet la meva idea inicial era "incrustar" el codi des d'un fitxer TXT, però no m'en vaig ensortir. Després ho vaig provar d'incrustar-ho a través de Google Docs, però el resultat que dóna la incrustació de Google Docs a Wordpress no m'agrada, crec que no està ben resolt. Finalment vaig pujar un fitxer de word, però tens raó que hauria d'haver pujar un fitxer TXT. Quan tingui un moment així ho faré. Pel que al fet de fer un taller d'R, per mi cap problema. La dificultat no rau en el programari sinó en el fet què cal tenir coneixements d'estadística. El problema no es tant programar una funció d'R com saber quina és la prova a realitzar. El que si que és cert és que R és paquet estadístic potentíssim.

Hola a tothom, ja he canviat la sintaxi de format DOC a format TXT, tal i com molt acertament em recomanava en Josep Vives. Malauradament Wordpress no accepta fitxers TXT, per aquest motiu ho he hagut de penjar al web de l'Ajuntament de Mataró.

Hola, Molt be per lo del canvi de format. Potser el mes fàcil hauria estat copiar-lo al cos del text del post, pel que dius el Wordpress no col·labora gaire ;) Respecte lo de "R" sempre ens podem quedar en apendre de moment la estadística descriptiva o, ni això, en apendre com instlar-lo, configurar-lo i usar-lo. Fer algun exemple de taules de contingencia, gràfics etc... Salut i dades!

Gerard, felicitats pel post, està molt ben explicat i m'ha donat algunes idees ... Només un comentari o matís a tot el que expliques; en relació al primer punt, els resultats obtinguts ens donen a entendre que l'error és accepatble. Aquest fet és inqüestionable, però el que no podem demostrar és si la mostra seleccionada (per al cas de Matró) és aleatòria.

Hola Roger, aquest dubte em persegueix. Aquest és el meu raonament: la MCVL és una mostra que s’ha extret de forma aleatòria simple per al conjunt de l’Estat espanyol, per tant, penso, que totes les unitats extretes de Mataró de la MCVL han seguit un mostreig aleatori simple. Una altra cosa és que les unitats extretes de Mataró siguin representatives de la població de referència de Mataró, ja que per exemple, es podria donar el cas que totes les persones mostrejades a Mataró fossin dones, fet que no seria representatiu de la població de referència de Mataró. Aquest fet és un risc que s’assumeix quan es fa una mostra aleatòria simple, però la MCVL té un avantatge importantíssim: la seva grandària. La Llei dels grans nombres diu que a mida que creix la grandària de la mostra, la mitjana mostral s’apropa a la mitjana poblacional.

Volem saber que en penses...