Ji ZhengYu 写道:
PDF是属于矢量混排格式,只记录了每个文字的位置和大小等信息,想转成XML比较 困难。 xpdf中有个pdf2text可以转换成文字的,但也只限于转换并不太复杂的pdf,和你 用的pdfinfo应当属于同一个包内。 更复杂的转换就不知道了,我只听说docbook可以从xml转出PDF的,不知道逆向是 否可行(有可能,但是应该没人会做这个需求吧——)。 如果pdf2text转换的出来,并且文档格式很整齐。你可以写一个小程序将纯文本内 容切分开,然后封装成一定格式的XML或者其他问题。HI, 如题。怎么做呢?最好能给出转换成 po 的方法,这样方便以后的翻译和维护。 目标文件的信息如下: ----------------------------------------------------------------------------- nico@debian:~$ pdfinfo ~/Desktop/latex-doc-pdf/GSWLaTeX.pdf Creator: TeX Producer: pdfeTeX-1.21a CreationDate: Thu Sep 18 20:13:17 2008 Tagged: no Pages: 46 Encrypted: no Page size: 595.276 x 841.89 pts (A4) File size: 330812 bytes Optimized: no PDF version: 1.4 --------------------------------------------------------------------------