Re: что-то интересное с кодировками

To: debian-russian@lists.debian.org
Subject: Re: что-то интересное с кодировками
From: Pavel <pavlikus@gmail.com>
Date: Fri, 14 Jul 2006 22:35:37 +0300
Message-id: <[🔎] 44B7F209.1010201@gmail.com>
In-reply-to: <[🔎] 20060714191036.GA30656@45.free.net>
References: <[🔎] 44B7E709.9070104@gmail.com> <[🔎] 20060714191036.GA30656@45.free.net>

Victor Wagner wrote:

Кракозябли бывают разные. Какие именно? И какая локаль была у процесса,
которым файлы читали. И вообще в какой операционной системе их читали?

Генерились xml файлы. с encoding='UTF-8' в заголовке. Читает ихнастольное приложение на winxp (cp1251). Так же, естественно, пробуючитать их вьювером kate у себя, по одной пытаясь применить ту или инуюкодировки, увы без результата. Везде где русский текст вижувопросительные знаки.

Стал сравнивнивать окружение на тестовом и прод. серверах и выяснил чтона тестовом сервере у процесса сервера LC_ALL=ru_RU.UTF-8, а на продакшн- LC_ALL=C. Для пробы изменил LC_ALL на продашн - русские буквы сталиотображаться нормально.
Вообще по хорошему счету LC_ALL вообще выставлять не надо. Если
выставить LANG, то можно потом поменять отдельные категории, скажем
LC_NUMERIC. А LC_ALL имеет более высокий приоритет.


Сейчас попробую сделать LC_ALL пустой. Отпишу что из этого вышло.

Спасибо за ответ!
Павел.

Вот что хочу спросить, где проблема? В моём коде который генерит UTF-8текст и пишет его на диск или это потому что процесс у которого LC=C неможет по определению писать на диск UTF-8 текст?


Скорее всего - ни там,  ни там. Между твоим кодом и системным вызовом
write  имеется куча промежуточных слоев - всякие библиотеки классов, собственно
JRE, libc и т.д. Если в файле действительно НЕ русские буквы, в чем
следует убедиться просмотрев файлы на системе с заведомо известной

локалью, посредством наиболее примитивного вьюера, вроде less,а то и просмотром шестнадцатиричного дампа файла (хотя не люблю

читать utf-8 в шестнадцатиричном виде. UTF-16 еще куда ни шло), то
проблема скорее всего в каких-нибудь промежуточных библиотеках.

Еще может быть что файлы пишутся в каком-нибудь формате,
предусматривающем явное указание кодировки, например XML. И из-за
неверной локали стандартная функция библиотеки, формирующая файл, может
залепить туда например iso8859-1 в качестве кодировки, после чего
написать честные русские буквы в utf-8. Тогда честный вьюер, учитывающий
информацию из заголовков, покажет то, что обычно называют "крокозяблики"
- латинские буквы со всякими надчерками и крышечками. А при просмотре в
текстовом вьюере вроде less в правильной локали русские буквы будут
видны.

Спасибо!
Павел.


--
To UNSUBSCRIBE, email to debian-russian-REQUEST@lists.debian.org
with a subject of "unsubscribe". Trouble? Contactlistmaster@lists.debian.org

Reply to:

Follow-Ups:
- Re: что-то интересное с кодировками
  - From: Pavel <pavlikus@gmail.com>
- Re: что-то интересное с кодировками
  - From: Victor Wagner <vitus@45.free.net>

References:
- что-то интересное с кодировками
  - From: Pavel <pavlikus@gmail.com>
- Re: что-то интересное с кодировками
  - From: Victor Wagner <vitus@45.free.net>

Prev by Date: Re: что-то интересное с кодировками
Next by Date: Re: что-то интересное с кодировками
Previous by thread: Re: что-то интересное с кодировками
Next by thread: Re: что-то интересное с кодировками
Index(es):
- Date
- Thread