Re: Сканирование каталогов

To: debian-russian@lists.debian.org
Subject: Re: Сканирование каталогов
From: Serhiy Storchaka <storchaka@gmail.com>
Date: Fri, 05 Feb 2010 23:17:15 +0200
Message-id: <[🔎] hki197$25q$1@ger.gmane.org>
References: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru> <[🔎] hkhbv0$jt3$1@ger.gmane.org> <[🔎] 201002051818.57497.pechnikov@mobigroup.ru> <[🔎] 20100205152546.GA814@wagner.pp.ru> <[🔎] hkhebo$p6q$3@ger.gmane.org> <[🔎] 20100205162309.GA2590@wagner.pp.ru> <[🔎] hkhmpm$tq7$1@ger.gmane.org> <[🔎] 20100205195407.GA9165@wagner.pp.ru>

Victor Wagner wrote:
> On 2010.02.05 at 20:18:19 +0200, Serhiy Storchaka wrote:
>> Торможение может быть или из-за чтения каталогов (а в таких библиотеках
>> каждый текст лежит в своём отдельном каталоге), или из-за вызовов stat. С
> 
> Там нифига не каждый текст был в отдельном каталоге. Когда я это
> тестировал (а это был, все же, не lib.rus.ec, а еще aldebaran),
> то там было по каталогу на автора. Это, конечно, не идеальное
> логарифмическое распределение файлов (идеальное было бы на 10000 файлов
> 100 каталогов по 100 файлов в каждом) но близко к тому.

Да, попутал, это на fictionbook.ru каждый fb2 был в отдельном каталоге.

>> первым можно справиться, перенеся все файлы в один каталог (это частично
>> устранит и вторую причину). Для второго нужно смотреть, не вызывается ли
> 
> Зависит от файловой системы. Если в этой файловой системе каталоги не
> хэшированы, то десятки тысяч файлов в каталоге как раз создадут тормоза,
> а не устранят их.

Это зависит не от строения файловой системы, а от уровня повыше. Если мы
прочитали каталог, то уже имеем в памяти все необходимые данные, чтобы
больше к каталогу не обращаться.

>> stat для одного файла многократно (в врапперах для st_mode, st_mtime
>> st_size???), и попытаться объединить. Ну и убедиться, что самые дешёвые и
>> вероятные проверки стоят первыми и не изменившийся файл не читается (у
>> Печникова он читается 2-3 раза).
> 
> У FBReader уже тогда было го-о-ораздо лучше. Но не настолько лучше,
> чтобы можно было все 150000 книг lib.rus.ec положить на fat32 32-гиговую
> флэшку и засунуть в N800.

Я посмотрел в код — stat похоже используется только для рекурсивного обхода
(чтобы отличить регулярный файл от каталога). st_mtime вообще не увидел.
Первый запуск find на коллекции Альдебарана показал миллисекунду на файл
(второй — на два порядка меньше), вряд ли FBReader ему сильно проигрывает.

Единственное решение тут — вообще избавиться от сканирования при старте.
Запустить его в фоне.

Reply to:

References:
- Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Victor Wagner <vitus@wagner.pp.ru>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Victor Wagner <vitus@wagner.pp.ru>
- Сканирование каталогов
  - From: Serhiy Storchaka <storchaka@gmail.com>
- Re: Сканирование каталогов
  - From: Victor Wagner <vitus@wagner.pp.ru>

Prev by Date: Re: Подошва сапога
Next by Date: Re: Анонс: легковесная система полнотекстового поиска
Previous by thread: Re: Сканирование каталогов
Next by thread: Re: Анонс: легковесная система полнотекстового поиска
Index(es):
- Date
- Thread