[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: подсчет символов UTF-8



Fedir Gontsa -> debian-russian@lists.debian.org  @ Thu, 23 Apr 2009 16:48:49 +0300:

 >> cat 01 | LANG=uk_UA.UTF-8 wc -m
 >> 28947
 >>
 >> ОпенОфис выдал 28571 я конечно не скряга... но 376 символов.... гдето пропадают
 >> не могу понять где
 >>
 FG> GEdit выдает 28726
 FG> Кому верить?

 FG> мне эти данные нужны для статистики (Авторский лист) разница при
 FG> подсчете через wc 72.36% а через опенофис 71,42% или ~1% списывать
 FG> на погрешность?

There's no sense in being precise, when you don't even know what
you're talking about.
 -- John von Neumann

Все зависит от того, какой принцип подсчета знаков тебе нужен, и какой
реализуют упомянутые тобой программы.  wc, насчитывающий больше всех,
считает _символы_ (а не "знаки", как будет, видимо, в определении
авторского листа), в _файле_ (а не документе, где, вероятно, считает OO).

При такой разнице, подозреваю, оная разница состоит преимущественно из
концов строк и, возможно, из концевых пробелов.  Красивую гипотезу о
том, что wc считает CRLF за 2 символа, GEdit за 1, а OO за 0, подсчеты
не оправдали :-)

-- 
Реляционная база данных - это не единственный способ сделать дурацкий поиск.
	Victor Wagner


Reply to: