[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: 关于 Debian.org 网站的中文简繁各语言版本翻译的问题



推薦使用opencc,支持簡繁轉換(比如剛纔 人才的才是能夠分清楚的),還有地區的轉換(比如字節和位元組)。
是清華大學的郭家寶大神開發的
Apache Licence
http://github.com/byvoid/opencc


在 2012年7月7日 下午3:09,Emfox Zhou <emfoxzhou@gmail.com> 写道:
> Hi all. 最近我在翻译 DPN,顺便注意到了 Debian.org  的简中、繁中、香港中文各语言版本似乎与实际不太一致,
> 例如简体中文的首页都还有大量繁体字存在,如软件和软体之类的常见问题也都存在。
>
> 我简要查看了一下现行的做法,似乎翻译 Debian.org 的文章是先翻译成某一版本(目前是繁体中文?),再转换
> 至简体中文和香港中文,整个过程是利用 tocn totw tohk 等几个 perl script(这是我个人的理解,有不对的请马上
> 指出)。
>
> 这个做法在过程上没什么问题,但简繁对译实际上是个很复杂的问题,绝非一一对应的转换表那么简单,可参考
> 维基百科相关的说明[1]。
>
> 另外,目前的转换表虽然简单,但也应该解决大部分问题才是,但连“软体”这么简单的转换都没实现是不应该的。
> 我看了一下,繁到简的转换表用是类似“s/软体/软件/g” 这样的替换,而实际上应该是“s/軟體/软件/g” 这样的替换
> 才对。不知是否以前的做法是否先有一个全局的单字替换,再做词语的替换?或者和以前要先做 gb/big5 的互转
> 有关?现在是都用 utf8 了,没有编码转换的问题了。
>
> 我目前的想法是,要维护一个很大的转换表和一系列地区词的转换,还要注意不能过度转换,在中文分词技术没有
> 那么成熟的情况下,使用第三方的现有成果是比较合适的,这点维基百科的简繁处理[2]做为一个开放的解决方案
> 是值得借鉴的。如果要使用他们的成果,有两个方法:一是直接使用 php 的 api,这点有现成的 zhconverter [3],
> 缺点是要有 php,而 debian.org 目前并不使用 php;二是把 mediawiki 的转换表[4] 直接拿来转换成 perl 的正则替换
> 表,优点是方便快捷,基本不用对当前的转换方法做改变;缺点是要时时跟进更新转换表,要非常注意地区词和过
> 度转换的问题,以免误转。
>
> 鉴于 Debian 中文组曾经的维护人员似乎不是十分活跃,我把想法发在这里,并请求提供意见和支持。第一次接触
> 类似的课题,定有不成熟之处,请批评指正。
>
>
> [1] http://zh.wikipedia.org/wiki/Wikipedia:%E5%AD%97%E8%A9%9E%E8%BD%89%E6%8F%9B%E8%99%95%E7%90%86
> [2] http://zh.wikipedia.org/wiki/Wikipedia:%E7%B9%81%E7%AE%80%E5%A4%84%E7%90%86
> [3] https://code.google.com/p/mediawiki-zhconverter/
> [4] http://svn.wikimedia.org/svnroot/mediawiki/branches/REL1_12/phase3/includes/ZhConversion.php
> --
> Emfox Zhou
>
> GnuPG Public Key: 0xF7142EC2



-- 
喵~~

Reply to: