[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: 如何将 pdf 文件转变成 XML(docbook) 格式或是 po 格式



Ji ZhengYu 写道:
HI,
如题。怎么做呢?最好能给出转换成 po 的方法,这样方便以后的翻译和维护。
目标文件的信息如下:
-----------------------------------------------------------------------------
nico@debian:~$ pdfinfo ~/Desktop/latex-doc-pdf/GSWLaTeX.pdf
Creator:        TeX
Producer:       pdfeTeX-1.21a
CreationDate:   Thu Sep 18 20:13:17 2008
Tagged:         no
Pages:          46
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
File size:      330812 bytes
Optimized:      no
PDF version:    1.4
--------------------------------------------------------------------------


PDF是属于矢量混排格式,只记录了每个文字的位置和大小等信息,想转成XML比较 困难。 xpdf中有个pdf2text可以转换成文字的,但也只限于转换并不太复杂的pdf,和你 用的pdfinfo应当属于同一个包内。 更复杂的转换就不知道了,我只听说docbook可以从xml转出PDF的,不知道逆向是 否可行(有可能,但是应该没人会做这个需求吧——)。 如果pdf2text转换的出来,并且文档格式很整齐。你可以写一个小程序将纯文本内 容切分开,然后封装成一定格式的XML或者其他问题。


Reply to: