Re: Возможна ли поддержка тиклем юникода?

To: debian-russian@lists.debian.org
Subject: Re: Возможна ли поддержка тиклем юникода?
From: Alexey Pechnikov <pechnikov@sandy.ru>
Date: Mon, 19 Jan 2009 17:24:39 +0300
Message-id: <200901191724.40328.pechnikov@sandy.ru>
In-reply-to: <gl1p59$nm2$1@ger.gmane.org>
References: <200901160100.55863.pechnikov@sandy.ru> <200901182256.48255.pechnikov@sandy.ru> <gl1p59$nm2$1@ger.gmane.org>

Hello!

В сообщении от Monday 19 January 2009 14:56:02 Serhiy Storchaka написал(а):
> Alexey Pechnikov wrote:
> > В libunicode-0.7v/include/unicode.h есть
> > typedef u_int16_t Uchar;
> >
> > Разве это не utf-16? Плюс предлагаются функции преобразования utf8 <->
> > utf16. Про utf32 в коде не вижу даже упоминания.
>
> Странно, в 0.4 использовались по крайней мере 32-битные символы для
> внутреннего представления, да и код рассчитан на >16 бит. Мы точно об одной
> и той же библиотеке говорим?

Наверное, о разных - вроде их две, одна из которых гномовская, а другая "сама по себе". Впрочем, 
хватает и towupper/towlower, эта либа пожалуй и не нужна.

> > Возможно, но использование libicu в 4 раза замедляет запросы, это просто
> > немыслимо. Ну и  размер либы нереально большой.
>
> Энтерпрайз. Ну вот такой он непростой, уникод.

Зато понятно, почему разработчики избегают этой либы. Но, к сожалению, некоторые используют, а в 
паре с эскулайт использование icu и вовсе выглядит чудовищно.

>
> > С iconv понятно, перекодировку внешних данных делаю именно через него, а
> > храню все уже в utf8. А как правильно работать с utf8, чтобы избежать
> > лишних перекодировок? Поскольку расширение нужно для embedded СУБД,
> > вопрос производительности приоритетный. Есть строки в utf8, какие функции
> > использовать для достижения максимальной производительности?
>
> А какие функции нужны?

Удаление акцента для символов utf8. Библиотека unaccent работает, но как-то странно - обязательно 
делает перекодировку даже для utf-16be (при вызове unac_string_utf16 почему-то заглавная буква Ё 
превращается в непонятный значок, а unac_string с указанием кодировки возвращает корректный 
результат), хотя по документации не должна, и я никак не могу понять, можно ли ее использовать для 
работы с utf8 представлением.

strncasecmp с utf8 почему-то не работает.

wcsncasecmp для utf16 не проверял, может быть и работает...

Best regards, Alexey.

Reply to:

Follow-Ups:
- Re: Возможна ли поддержка тиклем юникода?
  - From: Alexander GQ Gerasiov <gq@cs.msu.su>
- Re: Возможна ли поддержка тиклем юникода?
  - From: Serhiy Storchaka <storchaka@gmail.com>

References:
- Возможна ли поддержка тиклем юникода?
  - From: Alexey Pechnikov <pechnikov@sandy.ru>
- Re: Возможна ли поддержка тиклем юникода?
  - From: Alexey Pechnikov <pechnikov@sandy.ru>
- Re: Возможна ли поддержка тиклем юникода?
  - From: Serhiy Storchaka <storchaka@gmail.com>

Prev by Date: IT или админский календарь
Next by Date: Re: lenny не грузится
Previous by thread: Re: Возможна ли поддержка тиклем юникода?
Next by thread: Re: Возможна ли поддержка тиклем юникода?
Index(es):
- Date
- Thread