El periodista Paul Bradshaw, autor del Online Journalism Blog, plantea que el trabajo periodístico con bases de datos comprende cinco etapas: recojo, depuración, análisis, verificación y presentación de hallazgos. Podemos tomar esa secuencia para plantear el siguiente ejercicio a la hora de iniciar un proyecto.
Debes conocer los formatos de los archivos que contienen la información y las herramientas para recopilarlos. Se puede obtener datos masivos mediante un script, un programa simple que permite bajar información de manera automatizada. A este proceso se le conoce como scraping.
¿Hay bases de datos sobre el tema? ¿Cómo y para qué fueron hechas? ¿Están en una web oficial o debo hacer un pedido de acceso a la información?
Si la base está en una web, ¿es descargable o debo hacer scraping?
¿Cuál es el mejor formato (Excel, CSV, Json) para solicitar una copia de esas bases de datos? Si la información está en PDF o JPG, ¿cómo la paso a un Excel?
Si debo construir una nueva base, ¿qué variables debo incluir y qué podré demostrar?
2 Depuración y contexto
Puede haber errores de varios tipos: registros duplicados, casillas incompletas, palabras mal escritas, etc. Necesitas herramientas para identificar y resolver esos problemas. A esto se le llama limpiar la data.
¿La base de datos está completa? ¿Cuántas líneas de información tiene? ¿Puedo limpiarla con Excel u Open Refine? ¿En qué casos debo hacerlo a mano? ¿En qué caso debo usar gestores con más capacidad, como MongoDB?
¿Conozco y entiendo todos los términos, variables y siglas que aparecen en las bases? ¿Son los mismos que los usados en bases similares? ¿Los criterios apuntan al sentido de la pregunta que quiero responder o necesito ver esos mismos datos en sentido inverso?
3 Cruce y análisis
En esta fase, el valor de sus hallazgos depende de la calidad de las preguntas y de la combinación de dos o más registros para encontrar coincidencias reveladoras.
¿Tienen mis bases de datos un concepto o código común que me permita cruzarlas: DNI, RUC, nombres completos?
¿El cruce de las bases de datos muestra tendencias, patrones, procesos evolutivos en un periodo determinado? ¿En qué contexto?
O, por el contrario, ¿revela comportamientos atípicos? ¿En qué contexto?
4 Verificación
El periodista de investigación debe aplicar la metodología tradicional: ir a los lugares necesarios, entrevistar a las personas involucradas, revisar nuevos documentos para detectar las debilidades y fortalezas de la base de datos.
¿Reflejan los datos la condición real de las personas? ¿Ha variado algo en la vida del aludido, en su salud, estabilidad económica, situación legal o sus vínculos?
¿Influye eso en el sentido del hallazgo? ¿Confirma su relevancia, la acentúa o la relativiza?
¿Con qué experto puedo validar la metodología del cruce? ¿Es posible que el hallazgo sea correcto, pero admita más de una interpretación?
5 Presentación
Hay que pensar desde el inicio en la forma más eficiente de presentar los hallazgos. Existen librerías como d3js.org y repositorios de software como Github, con ejemplos que uno puede adaptar a lo que necesita.
¿Conviene más una visualización o una aplicación? ¿Cuál aporta al sentido de la historia?
¿Cómo debe ser la experiencia del usuario? ¿Qué es lo que el gráfico o la herramienta debe generar en el lector? ¿Qué elementos de mi aplicación o visualización la hacen necesaria para el usuario?
¿Es responsiva? ¿Se verá bien en teléfonos móviles y tablets? ¿Se puede compartir? ¿Se puede embeber?