[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

Re: OCR инструменты и распознавание русского текста



Abbyy FineReader

15 января 2012 г. 22:05 пользователь Dmitry A. Zhiglov <dmitry.zhiglov@gmail.com> написал:
Необходимо перевести сканированный текст в электронный вид.

Дано: сканы страниц содержащие печатный русский (~90%) и английский
текст. Из себя представляют отчеты работ, т.е. текст
структурированный, но без визуальных границ у таблиц.

Желаемое: обработать сканы в пакетном режиме и получить готовый файл в
виде plaintext UTF-8.
Перспектива: распознать мнимые таблицы, есть закономерность появления
таблиц и их завершения, а текст таблиц перенести в sql и обрабатывать
по-человечески.

В настоящее время разбираюсь с tesseract 2.04 (тот что в коробке squeeze).

Подскажите, какие существуют качественные инструменты для
распознавания русского печатного текста и таблиц?
Выслушаю любые идеи, включая самые нелепые.


Reply to: