OCR инструменты и распознавание русского текста
Необходимо перевести сканированный текст в электронный вид.
Дано: сканы страниц содержащие печатный русский (~90%) и английский
текст. Из себя представляют отчеты работ, т.е. текст
структурированный, но без визуальных границ у таблиц.
Желаемое: обработать сканы в пакетном режиме и получить готовый файл в
виде plaintext UTF-8.
Перспектива: распознать мнимые таблицы, есть закономерность появления
таблиц и их завершения, а текст таблиц перенести в sql и обрабатывать
по-человечески.
В настоящее время разбираюсь с tesseract 2.04 (тот что в коробке squeeze).
Подскажите, какие существуют качественные инструменты для
распознавания русского печатного текста и таблиц?
Выслушаю любые идеи, включая самые нелепые.
Reply to: