[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

docx vers autre format exploitable



Bonjour à tous,

Je crois que MS a trouvé un moyen - parmi d'autres - pour ennuyer sérieusement les Linuxiens. Il s'agit du nouveau format 'docx'. A la lecture des documents trouvés dans les archives des listes Debian, ou via Google, j'ai trouvé plusieurs solutions, lesquelles paraissent loin de satisfaire tout le monde ; nombreux sont ceux qui y ont consacré de nombreuses heures sans trouver de solution qui les satisfassent, sauf à faire l'acquisition de MS Office 2007 pour récupérer - sous MSWIN - les documents et les resauvegarder en .doc ou autre.

Pour ma part, je dispose de OO 2.4 sous Lenny... Là, vous allez vous rhabiller, car il n'y a apparemment aucune possibilité. Sous le PC de mon association, j'ai OO 3.2 sous Squeeze, lequel est sensé ouvrir les fichiers .docx. Là dessus, mon fichier .docs fait mine de vouloir s'ouvrir... mais çà dure indéfiniment... Pour un fichier de moins de 200 Ko, le sablier est toujours actif après 30 minutes !! Un test avec 'top' me révèle alors que 'soffice.bin' tourne toujours et accapare 100% de la CPU avec 5.9% de la mémoire vive. J'ai essayé sur plusieurs fichiers, avec toujours le même résultat. La seule façon d'en sortir est de faire un KILL sur le PID de soffice.

Alors, après une recherche via Google, j'ai trouvé un outil en ligne à l'adresse suivante : http://www.conv2pdf.com qui m'a permis de récupérer ledit fichier .docx au format pdf... A ceci près que le fichier pdf obtenu, je ne puis rien en faire. Il s'agit d'un tableau, que je souhaite récupérer au format csv (champs séparés par des point virgules), mais je ne sais pas faire à partir d'un fichier pdf. J'ai bien utilisé pdf2txt, mais çà m'a délivré un fichier texte parfaitement inexploitable (champs séparés non par des tab ou points virgules etc... mais par de simples espaces, sans compter que ce qui devrait être des titres de colonnes sont en ligne de texte, et autres détails qui rendent le texte parfaitement inexploitable pour mon projet.

Existerait il un outil sous Linux qui convertisse les pdf en autre chose qu'en texte simple ? Ou alors, comment ouvrir, sous Linux, un fichier .docx et le resauvegarder en un format exploitable ?

Merci d'avance pour votre aide.

Bernard


Reply to: