Re: Сканирование каталогов

To: debian-russian@lists.debian.org
Subject: Re: Сканирование каталогов
From: Alexey Pechnikov <pechnikov@mobigroup.ru>
Date: Fri, 5 Feb 2010 22:11:10 +0300
Message-id: <[🔎] 201002052211.10786.pechnikov@mobigroup.ru>
Reply-to: pechnikov@sandy.ru
In-reply-to: <[🔎] hkhmpm$tq7$1@ger.gmane.org>
References: <[🔎] 201002032348.34970.pechnikov@mobigroup.ru> <[🔎] 20100205162309.GA2590@wagner.pp.ru> <[🔎] hkhmpm$tq7$1@ger.gmane.org>

Hello!

On Friday 05 February 2010 21:18:19 Serhiy Storchaka wrote:
> и не изменившийся файл не читается (у
> Печникова он читается 2-3 раза).

Еще раз - не надо сканер напускать на файлы, которые не изменялись.
А несколько подряд идущих обращений к однуму файлу замечательно 
кэшируются.

Вот как пример скрипт получения метаинформации о файле:

#!/bin/dash

# check mime type
MIME=`file --brief --mime-type "$1"`
echo "mimetype - $MIME"
if [ "$MIME" = "application/x-directory" ]; then
    exit
fi

# additional file metainfo

# by coreutils
SIZE=`stat --format='%s' "$1"`
echo "size - $SIZE"
MTIME=`stat --format='%Y' "$1"`
echo "mtime - $MTIME"
HASH=`md5sum "$1" | awk '{print $1}'`
echo "md5sum - $HASH"

# by extract utility
PROG=`which extract`
if [ -z "$PROG" ]; then
    exit
fi
exec $PROG "$1"

Да, если вы будете пересканировать все файлы без разбора, можно 
схватиться за голову. Если же обрабатывать только новые/изменившиеся 
файлы, то все прекрасно - скажем, можно элементарно заменить хэш
md5 на sha1 или вовсе убрать всю метаинформацию, или еще добавить.
При желании можно сделать перловую версию этого скрипта для 
оптимизации быстродействия, хотя при инкрементальном сканировании
не вижу в этом необходимости. На мой взгляд, главное - это отказ от
использования временных файлов в процессе преобразования документов
в plain text, т.к. "бутылочное горлышко" - это запись на диск.

Best regards, Alexey Pechnikov.
http://pechnikov.tel/

Reply to:

Follow-Ups:
- Re: Сканирование каталогов
  - From: Artem Chuprina <ran@ran.pp.ru>

References:
- Анонс: легковесная система полнотекстового поиска
  - From: Alexey Pechnikov <pechnikov@mobigroup.ru>
- Re: Анонс: легковесная система полнотекстового поиска
  - From: Victor Wagner <vitus@wagner.pp.ru>
- Сканирование каталогов
  - From: Serhiy Storchaka <storchaka@gmail.com>

Prev by Date: Re: Подошва сапога
Next by Date: Re: Анонс: легковесная система полнотекстового поиска
Previous by thread: Сканирование каталогов
Next by thread: Re: Сканирование каталогов
Index(es):
- Date
- Thread