DocHive, Software Libre para extraer datos de PDFs

DocHive, Software Libre para extraer datos de PDFs

Un grupo de periodistas han anunciado el lanzamiento de DocHive, una innovadora solución de software libre para el problema que muchos escritores y periodistas tienen a la hora de obtener datos o imágenes de archivos PDF.

La solución permite convertir de forma fácil los datos en formato Hoja de Cálculo u otros medios diferentes.

El editor Charles Duncan Pardo y su equipo se encontraban a diario el típico problema que ocurre en muchas pequeñas salas de redacción; no disponen del personal suficiente para hacer la entrada de datos de cientos de páginas de información, ni el presupuesto para contratar a algún estudiante universitario que pueda hacerlo por ellos.

Así que Duncan creó junto con su hermano Edward -programador informático- una solución llamada DocHive. Esta herramienta utiliza XML para romper una página en pequeñas secciones, separando cada una en su propio archivo.

A continuación, se utiliza una tecnología de reconocimiento óptico de caracteres (OCR) para leer las palabras o los números e insertarlos en un archivo de texto.

DocHive será lanzado oficialmente el 28 de febrero. El código estará en GitHub y se creará un Wiki en el servidor para compartir plantillas y documentación. La elección de licencia de uso es lo que aún no se ha determinado.

Esta es sin duda una gran noticia para periodistas y escritores, que tendrán así una manera fácil y rápida de convertir los datos en información estructurada.

Más información – El Software Libre y su influencia en el mercado de trabajo en Estados Unidos

Fuente – opensource.com

El artículo DocHive, Software Libre para extraer datos de PDFs ha sido originalmente publicado en Linux Adictos.

Linux Adictos