5 herramientas open source para análisis de datos
En OpenSource.com seleccionan 5 herramientas open source de ayuda para obtener, entender y difundir conjuntos de datos.
Tabula, para extraer tablas desde un PDF
Tabula, con ayuda del navegador, permite extraer el contenido de las tablas de un PDF para luego guardarlo en formato CSV o en una hoja de cálculo. Funciona muy bien al tratar con contenido numérico en filas y columnas.
Tabula es una herramienta que usan La Nación de Argentina y otros medios.
LibreOffice Calc y su importador de tablas desde la web
LibreOffice Calc, el “Excel” de la suite ofimática libre LibreOffice, puede trabajar con datos externos de tablas importadas directamente desde una página web y hacia un libro cualquiera.
LibreOffice Calc captura incluso múltiples tablas presentes en una misma página.
Scrapy, captura estructurada y avanzada de datos web
Scrapy es otra opción para extraer datos de forma estructurada, automatizada, veloz, eficiente y directa desde sitios web. Su manejo requiere conocimientos medios en Python para explotar todas sus características: tratamientos y filtros de los datos importados, compresión de contenidos, descarga múltiple de ficheros de imagen, creación de feeds para su uso desde otras aplicaciones, extensiones, mailing y mucho más.
Scrapy requiere conocimientos medios en Python.
OpenRefine, para limpiar y optimizar los datos capturados
OpenRefine, antes Google Refine, facilita la tarea de optimización con miles de datos importados listos para su optimización y tratamiento adicional. OpenRefine, es la solución a ello, una aplicación que busca duplicados, elimina caracteres erróneos, reordena, filtra elementos respondiendo a ciertas reglas, trata con coincidencias, extiende su manipulación a través de otras aplicaciones, conecta bases de datos y ejecuta otras ordenes avanzadas dentro de las celdas “refinando” así su material. Dispone de extensiones y suficiente documentación para un uso inmediato.
OpenRefine era antes Google Refine.
DataWrapper, para la presentación gráfica de los resultados
DataWrapper trabaja en la presentación de los resultados luego de la captura y tratamiento de los datos consultados, orientado a los usuarios. Con DataWrapper permite usar las características visuales de las infografías interactivas. Lo que logra el servicio es convertir, en solo cuatro pasos, diferentes volúmenes de datos en gráficos estadísticos: copia los datos desde tablas, se describen, selección del tipo de gráfico de entre los disponibles en las plantillas y se generan los gráficos.
Texto escrito en wwwhatsnew.com: 5 excelentes herramientas open source para el periodismo de datos.