********************

Blog en cours de déménagement
Nouvelle adresse de Brouehaha le blog de Martin Jacques http://www.teteslibres.com/brouehaha/
Nouveau fil RSS http://www.teteslibres.com/brouehaha/?feed=rss2
********************

2004-12-14

Lecture - Extraction et analyse d'un PDF

Je termine à l'instant la lecture d'un document de travail Xed : un outil pour l'extraction et l'analyse de documents PDF de Maurizio Rigamonti, Karim Hadjar, Denis Lalanne et Rolf Ingold dans le cadre de la Conférence Internationale Francophone sur l'Ecrit et le Document (CIFED 04), 21 juin 2004.

À lire si ca vous préoccupe l'extraction et l'analyse de documents PDF. L'outil XED n'est pas encore disponible mais les travaux des chercheurs semblent très prometteur. Pour résumer de façon simple, on pourrait dire que XED extrait le physique (les images, le graphique et le texte) en SVG et le contenu (structures logiques et physiques, ordre de lecture) en XML.