Re: подсчет символов UTF-8
Fedir Gontsa -> debian-russian@lists.debian.org @ Thu, 23 Apr 2009 16:48:49 +0300:
>> cat 01 | LANG=uk_UA.UTF-8 wc -m
>> 28947
>>
>> ОпенОфис выдал 28571 я конечно не скряга... но 376 символов.... гдето пропадают
>> не могу понять где
>>
FG> GEdit выдает 28726
FG> Кому верить?
FG> мне эти данные нужны для статистики (Авторский лист) разница при
FG> подсчете через wc 72.36% а через опенофис 71,42% или ~1% списывать
FG> на погрешность?
There's no sense in being precise, when you don't even know what
you're talking about.
-- John von Neumann
Все зависит от того, какой принцип подсчета знаков тебе нужен, и какой
реализуют упомянутые тобой программы. wc, насчитывающий больше всех,
считает _символы_ (а не "знаки", как будет, видимо, в определении
авторского листа), в _файле_ (а не документе, где, вероятно, считает OO).
При такой разнице, подозреваю, оная разница состоит преимущественно из
концов строк и, возможно, из концевых пробелов. Красивую гипотезу о
том, что wc считает CRLF за 2 символа, GEdit за 1, а OO за 0, подсчеты
не оправдали :-)
--
Реляционная база данных - это не единственный способ сделать дурацкий поиск.
Victor Wagner
Reply to: