Con tanta información que hay en internet, cualquiera se marea. Por suerte, existen algunas herramientas que ayudan en su obtención, entendimiento y difusión sin que se convierta en un proceso complejo y lento. Osvaldo Pávez de "UM", destacó algunas de estas opciones.
Tabula, para extraer tablas desde un PDF. Con ayuda del navegador, permite extraer el contenido de las tablas de un PDF para luego guardarlo en formato CSV o en una hoja de cálculo. Funciona muy bien excepto con archivos escaneados, eso sí, son notables sus capacidades si se tienen en cuenta las dificultades de copiar y pegar a partir de un PDF.
LibreOffice Calc y su importador de tablas desde la web. El "Excel" de esta flamante suite ofimática libre. Entre sus miles de funciones, dispone de una característica para trabajar con datos externos de tablas importadas directamente desde una página web y hacia un libro cualquiera. Captura incluso múltiples tablas presentes en una misma página.
Scrapy, captura estructurada y avanzada de datos web. Otra opción para extraer datos de forma estructurada, automatizada, veloz, eficiente y directa desde sitios web. Vale la pena documentarse y explotar todas sus características: tratamientos y filtros de los datos importados, compresión de contenidos, descarga múltiple de ficheros de imagen, creación de feeds para su uso desde otras aplicaciones, extensiones, mailing y mucho más.
OpenRefine, limpiar y optimizar los datos. Antes llamado Google Refine, es una aplicación que busca duplicados, elimina caracteres equívocos, reordena, filtra elementos respondiendo a ciertas reglas, trata con coincidencias, extiende su manipulación a través de otras aplicaciones, conecta bases de datos y ejecuta otras ordenes avanzadas en las celdas "refinando" así su material.
No hay comentarios:
Publicar un comentario