jueves, 18 de abril de 2013

PDF Extracción Toolkit

El kit de herramientas de extracción PDF (antes Analyser PDF ) es un framework Java construida sobre la PDFBox biblioteca para llevar a cabo el análisis de documentos de los archivos PDF y la creación de métodos de conversión personalizadas en HTML y otros formatos. Se basa en parte en mi trabajo de doctorado e incluye un algoritmo de segmentación de la página. GraphWrap , un sistema para envolver gráfico o basado en la extracción de datos semi-automática de archivos PDF, también se incluye en el kit de herramientas de extracción PDF. El kit de herramientas principal (incluyendo GraphWrap) se distribuye bajo la licencia Apache, lo que le permite incorporarse libremente al software propietario.
Una interfaz gráfica de usuario también se incluye, construida sobre la XMIllum biblioteca, que permite a los resultados del proceso de análisis de documentos para ser visualizados. Además, se proporciona una visualización gráfica interactiva para observar las estructuras gráficas creadas por el sistema y permitir la creación y el ensayo de envolturas gráfico basado en documentos PDF interactivo. Esta GUI es liberado bajo la licencia GPL. Una captura de pantalla de la

interfaz gráfica de usuario en la acción se muestra a continuación.




Share:

0 comentarios:

Publicar un comentario

Labels

Analisis (6) Android (1) Auditoria (15) BruteFoce (7) centOS (1) Cloudflare (3) DDos (1) Distros (5) Exploits (3) firewall (1) hacking (11) Herramientas (126) Incapsula (1) lfi (1) Malware (2) Pentest (49) Perl (2) Proxys (1) python (10) Scan Sql (1) Seguridad (52) Windows (1) Wireless (5) Wordpress (1) XSS (5)

FOLLOWME


Translate

Followers