Open Refine,
un software con esteroides

Cómo detectar errores entre millones de datos
Open Refine

Todo el que trabaje con hojas de cálculo sabe que existen cuatro problemas comunes: faltas ortográficas, nombres o palabras escritas de varias formas, caracteres invisibles o espacios en blanco. No parecen complicados para quien use un archivo de Excel personal, pero son una pesadilla a la hora manejar bases de datos con millones de líneas. En estos casos, lo más útil es trabajar con Open Refine, una herramienta de código abierto que permite depurar y organizar datos en pocos pasos. Tomemos como muestra un registro de empresas exportadoras de oro. Es posible que el nombre de una compañía haya sido llenado de varias formas (OrogoldSA, OrogoldS.A. y OroGold). Un análisis inicial las contabilizará como empresas diferentes. Open Refine encuentra las coincidencias y permite editarlas con una sola acción para darles uniformidad.

Además, si se comete algún error al editar la base de datos, es posible volver al estado anterior con la opción que muestra el historial de cambios realizados.

Este programa se puede descargar de http://openrefine.org/download.html, es compatible con cualquier navegador y está disponible para Windows, Mac y Linux. Además permite transformar archivos de diferentes extensiones como XLS, CSV, JSON, XML, TSV y las spreadsheets de Google.

Es un recurso muy necesario en la caja de herramientas del reportero de investigación. Algunos periodistas suelen definirlo como “la versión de Excel con esteroides”.