[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: 回复:debian.org 网站中文翻译简繁转换即将面临的问题



简单说一下现在的工作方式:源代码是类似 html 的 wml 文件,源代码里有手写 Makefile。网站一天更新六次,每次编译会生成静态 html,最终网站是全静态的,一切处理都在 make 时完成。wml 可以引用外部 shell 脚本和 perl 脚本,对于中文来说还会在 shell 脚本中调用 opencc 程序。当然,现在所有 wml 文件都应该是 UTF-8 编码的。

opencc 0.x 中貌似没有特别区分 HK 与 TW 的常用词区别,现在的源代码中硬编码了一部分词语替换逻辑以区分 CN/TW/HK 用词,看起来很脏。opencc 1.x 貌似内置了地区用词的转换功能,只要指定特别的配置文件即可。然而问题是生产环境不知道何年何月才会上 Debian 9。

互相转换有一个问题,那就是必须在*提交前*完成互相转换,否则就和现在的工作方式没什么区别了。

另,中文维基百科是繁简转换的成功例子,但是只能作参考。区别在于维基百科是 PHP 写的,而且是动态生成网页。

Faris Xiao <atzlinux@gmail.com>于2016年11月21日周一 10:11写道:
简繁混合的方式工作效率太低。对翻译者来将,要同时按照翻简两种输入法,两套字体,比较麻烦。

如果网站的后台程序,有自动转换网关,能够自动实现繁体简体两套文件,自动互相转换,自动互相更新,就最好了。

zh_HK 这个编码方式,目前使用情况如何呢?现在用的人估计不多了吧。

在 2016年11月19日 下午7:44,Boyuan Yang <073plan@gmail.com>写道:
> 赞成把简体中文和繁体中文分开存放到不同文件。
> 支持进行清理工作,现在Debian官网上的中文网页也太旧了

清理是肯定的,不过分开翻译的话恐怕人手不够。

附件是今天修改过的工具,理论上可以同时支持 opencc 0.4 / 1.x。手边只有 unstable 环境,旧版 opencc 没有实际测试过,不过应该
不会有什么大问题。现在剩下的问题便是原始源代码的编写方式问题,简繁混合的情况下不知道效果如何。

make 可以通过,大多数页面都算正常,有了 opencc 1.x 以后 zh_TW 和 zh_HK 也可以正确区分开了,不过日志中 error 不少。稍后
再研究究竟问题在哪里吧。

--
Boyuan Yang


Reply to: