El post de la setmana passada finalitzava explicant l’ús de mètodes bayesians de suavització espacial per tal de mitigar l’efecte distorsionador de les fluctuacions aleatòries. Però abans de continuar explicant tota la metodologia estadística, creiem important descriure dos moments del projecte que ens semblen cabdals per tots aquells que vulguin posar-lo en marxa.
En primer lloc, l’obtenció de la base de dades amb l’adreça de la persona difunta per part del Registre de Mortalitat de Catalunya. Cal apuntar que es tracta d’una cessió temporal que implica seguir un complex i llarg procediment administratiu que acaba concretant-se en la signatura d’un acord de tractament de dades i un seguit d’autoritzacions que de forma explícita indiquen el tipus d’ús que es pot donar a les dades i les persones autoritzades per poder-ho fer entre el Departament de Salut de la Generalitat de Catalunya i l’entitat sol·licitant de les dades, en aquest cas concret l’Ajuntament de Mataró. Paga la pena destacar que entre els aspectes més rellevants de l’acord està l’obligació de destruir la base de dades al complir-se els sis mesos de la seva cessió. Certament es tracta d’un farragós procediment administratiu, que dista molt d’altres processos per aconseguir registres individualitzats anonimitzats com és el cas, per exemple, de la Mostra Continua de Vides Laborals que proporcionala Seguretat Social.
En segon lloc, per poder fer l’agregació de les adreces a nivell de secció censal, calia depurar i georeferenciar una base de dades de més de vuit mil registres, en la qual aquestes adreces estaven posades de totes les maneres imaginables. Així mateix, un cop homogeneitzades les adreces i agregades per secció, cal automatitzar d’alguna manera el tediós procés de càlcul de les freqüències esperades i de les raons de mortalitat estandarditzades (RME), que recordem, implica l’estandardització per sexe i edat de cada causa i per cada secció censal. En aquesta etapa prèvia fonamental voldríem destacar el paper i l’ajuda de Toni Braza Moreno, company diplomat en estadística i programador informàtic que ha estat treballant estretament amb el Servei d’Estudis i Planificació en el marc d’un pla d’ocupació durant la segona meitat del 2011.
Per a fer l’anàlisi pot seguir-se el protocol elaborat en el projecte MEDEA. A partir dela RME es calculen el riscos relatius suavitzats (RRs) per a cada secció censal mitjançant models condicionals autoregressius desenvolupats per Besag, York i Mollie. Es tracta d’un model lineal espacial de Poisson amb casos observats com a variable dependent, esperats com offset, i dos termes d’efectes aleatoris que es tenen en compte: el primer, els efectes que varien de forma estructurada en l’espai (contiguïtat de les seccions censals); i el segon, una component que modelitza l’efecte que varia entre les seccions censals d’una forma desestructurada (heterogeneïtat de les seccions censals). El model pren la forma següent:
O[i] ~ dpois(mu[i])
log(mu[i]) <- log(E[i]) + alpha + S[i] + eta[i]
On; O[i] és el nombre de casos observades a la secció i; E[i] són els casos esperats a la secció i; mu[i] és el risc relatiu en la secció i; alpha és la constant; S[i] és l’efecte aleatori espacial i eta[i] l’efecte aleatori no espacial.
L’efecte aleatori no espacial se suposa distribuït normalment amb mitjana zero i variança constant. Per a l’efecte aleatori espacial, s’utilitza un model condicional autoregressiu CAR. Aquesta aproximació, la més habitual i computacionalment més senzilla, aproxima la dependència espacial com un promig de l’efecte espacial de les seves àrees veïnes, tal i com vam plantejar Clayton i Kaldor. Aquesta distribució pren la informació a priori de totes les seccions i, posteriorment, per a cada secció, fa una estimació del risc relatiu suavitzat (RRs) que és un compromís entre la RMEbruta i la informació de les seccions que l’envolten. A grosso modo, el model el que fa és equiparar el valor d’aquelles seccions amb pocs casos i poca població al valor promig obtingut per les seves seccions veïnes, mentre que aquelles que compten amb una població prou gran i un nombre de casos prou elevat mantenen els seus propis valors o es veuen menys afectats. D’aquí que en aquests models sigui central la definició de l’estructura d’adjacències o de seccions veïnes.
El procés d’establiment dels valors a posteriori pels Riscos Relatius suavitzats és considerablement complex des del punt de vista computacional. Per aconseguir-ho es necessita estimar els paràmetres del model jeràrquic, per fer això s’empren tècniques de simulació; en aquest cas es fa servir el Gibbs Sampler, que pertany a la família de mètodes de Monte Carlo i Cadenes de Markov (MCMC), mitjançant el programa WinBUGS. Per fer això, i seguint el projecte MEDEA, en l’ajust es fan servir 3 cadenes, 200.000 iteracions amb un bur-in de 20.000 (nombre d’iteracions que es deixen de banda) i un thinning igual a 30 (nombre d’iteracions a partir del qual es guarden els paràmetres estimats). Un cop aplicat mitjançant aquest programa l’algoritme, s’obtenen les estimacions a posteriori dels riscos relatius, és a dir, les RME suavitzades ila PrP (probabilitat quela RME suavitzada sigui major que la unitat).
Intentar replicar només una part del projecte MEDEA suposa esforç considerable per a un ajuntament com el de Mataró, però tal i com diu la cançó de Lluis Llach, Ítaca, musicant el poema de Kavafis: “Quan surts per fer el viatge cap a Itaca, has de pregar que el camí sigui llarg, ple d'aventures, ple de coneixences”.
Xavier Posada Arribas Servei d’Estudis i Planficació Ajuntament de Mataró
Volem saber que en penses...
Sigues el primer en escriure un comentari