http://www.youtube.com/watch?v=gh3GmOQkzzY
Sí, ho reconec. El títol d’aquest post sembla ben bé que hagi estat extret d’un diari esportiu, però no m’he pogut resistir a fer un joc de paraules.
Qui tingui al voltant de quaranta anys, com ara és el meu cas, de ben segur que recorda “El Gran Circo de TVE”, un programa que feien els dissabtes a la tarda. Aquell circ té ben poc a veure amb el que s’està fent avui en dia, l’exemple més mediàtic del qual a escala internacional és el dels canadencs Circ du Soleil. Més a la vora, a casa nostra, hi podem trobar companyies de circ —unes més grans com ara Circ Cric i d’altres de més petites com Los Herrerita— que fan un circ força diferent al d’ara fa trenta anys.
Dit això, val a dir que en la visualització de les dades de migració o de mobilitat s’ha produït transformació similar. Així, doncs, s’ha passat de mapes com aquest:
a mapes interactius com aquest altre:
L’objectiu d’aquest post és doble: d’una banda, ensenyar les dades de mobilitat del Cens de 2011 i, de l’altra, mostrar una manera diferent de visualitzar dades de flux a través de gràfics circulars.
Les dades
L’INE permet que l’usuari creï les seves pròpies taules amb les dades del Cens del 2011 (enllaç taules), però amb la restricció que només es pot accedir a la informació dels municipis de residència. De fet, això suposa una limitació molt important a l’hora d’analitzar la mobilitat d’una població ja que, a banda de disposar de la informació d’on treballen o estudien els residents d’un municipi, també cal saber la procedència dels treballadors o estudiants que vénen de fora. Afortunadament, l’INE també ha posat a disposició de tothom les microdades del Cens del 2011, tot i que amb el problema afegit que ho ha fet en un format de taula plana, la qual cosa significa que per poder carregar les dades en un paquet estadístic o en un full de càlcul cal “donar-li format”. Novament per sort per a nosaltres, Envejecimiento en Red del CSIC proporciona tant la sintaxi per poder carregar el fitxer de microdades de l’INE a SPSS com les pròpies microdades del cens en format “.sav” d’SPSS. Les dades del Cens de 2011 també es poden carregar en el programari estadístic lliure R fent servir el paquet MicroDatosEs, el qual permet carregar el fitxer de microdades del Cens del 2011 (aquí) en la seva darrera actualització.
El programari
La manera més habitual de presentar les dades de mobilitat és a través d’una taula d’orígens i destinacions o bé amb mapes i fletxes. El que presento en aquest post és una nova manera d’exposar dades de mobilitat, a través de gràfics circulars, que està agafant embranzida en alguns centres de recerca de demografia com ara el Vienna Institute of Demography.
El programari emprat per fer aquests gràfics circulars és un programa lliure anomenat Circos[1], principalment utilitzat per visualitzar dades genètiques. La idea de fer aquest post prové d’un altre post que vaig llegir en un dels meus blogs de referència —r-bloggers— titulat Circular Migration Flow Plots in R. A través d’un dels enllaços que apareix en el post vaig accedir a un working paper del Vienna Institute of Demography titulat Visualising Migration Flow Data with Circular Plots, en el qual s’explica amb tot detall com crear gràfics circulars amb tres eines diferents: Circos, R (amb el paquet circlize) i D3.js (una llibreria de JavaScript que permet crear atractives visualitzacions interactives amb HTML).
Els gràfics que presentaré tot seguit han estat elaborats amb Circos, però no pas amb la versió desktop (que és la que apareix en el working paper del VID) sinó que amb la versió on-line. La versió en línia té limitacions pel que fa al nombre de files i columnes que ha de tenir la taula, a banda que tampoc permet fer acabats en els gràfics tan afinats com en la versió desktop; en contrapartida, però, no cal instal·lar cap programari a l’ordinador. Amb tot, també he de reconèixer el meu total desconeixement del llenguatge de programació perl, imprescindible per utilitzar Circos, ja que es controla totalment a través de fitxers de text plans que permeten configurar la sortida de resultats.
El resultat
A l’hora de fer la lectura de les taules de doble entrada referents a fluxos, normalment les files corresponen als orígens i les columnes, a les destinacions. En els gràfics circulars, les files i les columnes estan representades per segments disposats circularment, la mida dels quals és proporcional a la suma del valor de la fila i de la columna. Cal tenir present que en els casos en què hi hagi orígens i destinacions coincidents, com que la mida de cada segment és igual a la suma de la fila respectiva (origen) i la columna respectiva (destinació), això significa que les cel·les en què origen i destinació són als mateixos llocs, aquesta cel·la es compta dos cops a l’hora de calcular la mida de cada segment.
En els gràfics circulars, els valors de les cel·les de les taules de doble entrada es representen amb les cintes que enllacen els segments que donen forma al cercle, en els quals els orígens corresponen a les cintes que “toquen” els segments (són les files de les taules de doble entrada) i les destinacions són les cintes que “no toquen” els segments (són les columnes de les taules de doble entrada).
Per la seva banda, les tres barres concèntriques apilades que hi ha fora dels segments que representen files (orígens) i columnes (destinacions) indiquen, en ordre de dins cap a fora: el pes de la cel·la sobre el total de la fila, el pes de la cel·la sobre el total de la columna i el pes de la cel·la sobre el total de la fila més la columna.
Segurament, la manera més senzilla de veure-ho és fer-ho a través d’un exemple com el del gràfic 1. Aquest gràfic representa una taula en què a les files tan sols hi ha els desplaçaments que tenen l’origen als tretze municipis del Perfil de la Ciutat i a les columnes hi ha tots els municipis —o agrupacions de municipis— que són les destinacions. En el cas de Mataró, en aquesta taula en concret, la suma de la fila i la columna de Mataró dóna com a resultat 115.228 persones que es desplacen, sense oblidar que la cel·la (Mataró, Mataró) se suma dos cops (47.614 x 2).
La barra més a l’interior de les tres que hi ha apilades representa el pes que té cada cel·la sobre el total de la fila; en el cas de Mataró, els 47.614 desplaçaments que tenen origen i destinació a la capital del Maresme representen el 70,87% de tots els desplaçaments que tenen origen a Mataró. La segona barra representa el pes que té cada cel·la sobre el total de la columna; en el cas de Mataró, els 47.614 desplaçaments que tenen origen i destinació a la capital del Maresme representen el 99% dels desplaçaments que tenen com a destinació a Mataró (aquest percentatge tant alt és degut a que en aquest gràfic Mataró únicament és la destinació de tretze municipis, els del Perfil de la Ciutat). Finalment, la tercera barra, la que hi ha més a l’exterior de les tres, representa el pes que té cada cel·la sobre el total de la suma de la fila i la columna respectiva; en el cas de Mataró representa el 82,6%, xifra que s’obté de multiplicar per dos els 47.614 desplaçaments que tenen origen i destinació a Mataró i dividir-ho per la suma del total respectiu de la fila i la columna de Mataró (115.278).

Al seu torn, el gràfic 2 representa tots els desplaçaments que tenen com a destinació els municipis del Perfil de la Ciutat, tant se val quin sigui el seu origen.

Conclusions
Com diuen els autors de Circos, aquesta eina no fa cap tipus d’anàlisi, sinó que és una eina purament de visualització. Per tant, qui vulgui fer anàlisis de dades de mobilitat sha de descarregar les dades del Cens de 2011 i ha de fer servir els paquets estadístics —o full de càlcul— adequats per a aquestes anàlisis. Així, per exemple, aquest programa no permet saber quines són les taxes exactes d’autosuficiència i d’autocontenció per raó de treball o estudi del Cens de 2011 als municipis del Perfil de la Ciutat. Per si de cas algú hi està interessat, són les següents:
Ara bé, si el que hom vol és mostrar els fluxos, ja siguin migratoris o de mobilitat, els gràfics circulars —amb Circos, R o D3.js— són una manera elegant i diferent de mostrar aquesta informació.
Gerard Reverté Calvet
Servei d’Estudis i Planificació de l’Ajuntament de Mataró
[1]Circos: An information aesthetic for comparative genomicsMartin I. Krzywinski, Jacqueline E. Schein, Inanc Birol, Joseph Connors, Randy Gascoyne, Doug Horsman, Steven J. Jones and Marco A. Marra.
Genome Research. Published in Advance June 18, 2009, doi:10.1101/gr.092759.109
Volem saber que en penses...
Sigues el primer en escriure un comentari