[Date Prev][Date Next] [Thread Prev][Thread Next] [Date Index] [Thread Index]

OCR инструменты и распознавание русского текста



Необходимо перевести сканированный текст в электронный вид.

Дано: сканы страниц содержащие печатный русский (~90%) и английский
текст. Из себя представляют отчеты работ, т.е. текст
структурированный, но без визуальных границ у таблиц.

Желаемое: обработать сканы в пакетном режиме и получить готовый файл в
виде plaintext UTF-8.
Перспектива: распознать мнимые таблицы, есть закономерность появления
таблиц и их завершения, а текст таблиц перенести в sql и обрабатывать
по-человечески.

В настоящее время разбираюсь с tesseract 2.04 (тот что в коробке squeeze).

Подскажите, какие существуют качественные инструменты для
распознавания русского печатного текста и таблиц?
Выслушаю любые идеи, включая самые нелепые.

Reply to: