[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: The meeting with Boshiamy result



hashao wrote:
> s> GB2312也不是很體現一致性的.一級字庫按照拼音排列,二級字庫按照筆劃排列.這也為難想進行
> s> 漢字排序的人了.
> 一級是常用字,二級是非常用字,想來是為了當年256KB內存就算很多的計算機考慮的。
> 至於排序,是用 locale 的是在 locale 的 collate 裡定義的,具體 charset
> 怎麼定義是沒有太大的關系的,當然這要求應用程序使用 locale 來編程。
>

我說的排序是指按照筆劃還是按照拼音排序,這應該是編碼時就該考慮到的,但現在中文編碼沒有
體現一致性.Unicode的一致性不錯,但排出來有些不符合習慣.在locale中定義,GBK有兩萬多字,
也夠大的.而且每個碼都來比較一次,工作量大,這確實是編碼時就該解決的問題.

>
> s> GBK兼容GB2312,字匯和ISO10646相同,擴展部分按照ISO10646相似的規則排列.
> s> GBK<<漢字擴展內碼規范>>不是國標,差一點,是規范.
>
> 哦,我不知道從那裡得來的印象,總覺著 GBK 是 MS 的一個標準,而且
> 他那麼粗劣的 hack 也比較象 MS 一貫採用的 “兼容”方式,看來還真是個
> 國家規范?

從各種資料來看,MS在制定GBK過程中一定起過重要作用.一些資料可以看我在中國Linux論壇
http://202.106.124.185中的中文化論壇寫的一些文章;.

>
>
> s> GB18030<<信息技術和信息交換用漢字編碼字符集>>
> s> 是四字節的標準,兼容GBK,目前字匯大概和unicode3.0相當.但不知誰可以出字體,X
> s> window下如何使用四字節字體.不知道誰可以講講Big5的編碼規則?
>
> 不知道 GB18030 具體怎麼實現的,不過 X Window
> 下對編碼長度沒有具體限制,四碼也沒有問題,指明是用最大編碼是4 bytes
> 就行了。字體嘛,自然希望有人出,雖然可以從現有的 GB 和 Big5
> 裡抽取合並,可兩者加起來也沒有兩萬七千個字,還是又不要遺漏的。

GB18030的簡介可以看於明儉個人主頁中的<<Linux國際化本地化和中文化>>一文,
具體編碼我也沒有見過.我的問題是X window如何DrawString四字節的字體.
Unicode3.0中的漢字有27786個,GB18030應該與此相當.

>
>
> s> 其實我們不必過多考慮簡體和繁體的字體問題,使用ISO10646編碼的TTF可以很簡單的解決
> s> 這個問題.如果使用過xfsft或X-TT就知道怎麼一回事了.我們所缺的隻是督促廠商開發開放符合
> s> ISO10646的TTF.建議大家使用TTF,在裝載和縮放方面要好於pcf,設置也很簡單.
>
> 文鼎捐的四套字型應該都是以 Unicode 做 index 的, pcf 是 bdf 的
> binary 壓縮,本身還是點陣字型,自然沒有矢量字縮放的好看了。
>
>

非常感謝提醒,文鼎的字庫也是Unicode編碼的?我期待Debian2.2的推出,也好感受它的魅力.

-- 
| This message was re-posted from debian-chinese-gb@lists.debian.org
| and converted from gb2312 to big5 by an automatic gateway.



Reply to: