Как пользоваться программой cuneiform 12. OCR CuneiForm для полноценного распознавания сфотографированного или сканированного текста. Сравнение распознавалки текста CuneiForm с платным аналогом FineReader

Модуль поиска не установлен.

Система распознавания текстов CuneiForm 2000

Ольга Крылова, [email protected]

Покупкой сканера, как правило, преследуют одну из целей. Когда требуется перевод печатных изображений и фотографий в электронный вид, либо для переноса текстовой информации с бумажного оригинала в формат компьютерного редактора. Выбор и тестирование всевозможных программ, обеспечивающих интерфейс, обычно занимает уйму времени. Но с облегчением можно вздохнуть, узнав, что "продвинутых" программ, предназначенных для ввода и распознавания текста со сканера, всего две: это CuneiForm и Fine Reader.

Заполучив новый сканер, его обладатель может автоматически стать пользователем одной из этих программ, т. к. фирмы-производители давно внедряют свои продукты "в довесок" к оборудованию. Конечно же, лицензионный пакет ПО с набором последних разработок таким способом не распространяется. Купивший сканер получает бета-версию новой или устаревшую (но работающую без ограничения времени) модификацию программы.

Среди пользователей-профессионалов до сих пор не разрешен спор в пользу CuneiForm и Fine Reader. Каждый из продуктов в той или иной версии всегда опережает своего конкурента в каком-либо функциональном новшестве. Тем не менее, обобщенные оценки обеих программ практически равны. Пользователей системы Fine Reader больше, что отчасти объясняется маркетинговой политикой при ее распространении. Однако и программа распознавания текстов CuneiForm имеет немало своих сторонников, т. к. ее принципиально отличает от конкурента иная платформа, интерфейс и ряд незаменимых функций. Имея в арсенале CuneiForm 2000 и Fine Reader 5.0, пользователи часто проводят сравнение возможностей обеих программ, чтобы выбрать для себя наиболее удобную. Такая политика более оправдана, чем вера в слухи и воспеваемые дифирамбы конкретной распознавалке. Сколько компьютерщиков, столько, как говорится, и мнений!

Основной критерий, вызывающий восхищение пользователей во время сканирования, это соотношение скорость/качество. При масштабной работе с текстом, не обремененным таблицами и рисунками, ставка делается на возможность при помощи программы распознавания сэкономить массу времени. Максимально высокая скорость (а высоких показателей на сегодняшний день добивается любая современная система) достигается, когда рабочий документ идеального качества, с крупным ярким шрифтом. Не секрет, что этот фактор напрямую влияет и на качество распознанного текста. Если бумажная версия рабочего документа пропечатана плохо, то время на распознавание, естественно, увеличивается. Программа CuneiForm 2000, стремясь к идеальной формуле скорость/качество, подключает целую совокупность алгоритмов. Их взаимосвязанная работа позволяет системе после оценки отсканированного объекта подключить именно тот механизм, который быстрее справится с поставленной задачей. Тем самым интеллектуальная программа экономит время пользователя! Затратив несколько секунд на принятие и реализацию решения, система страхует от вторичного сканирования того же документа, изменения настроек и возможного ручного редактирования нераспознанных символов.

Еще один важный момент, который обеспечит максимальную скорость работы программы распознавания. Приобретая сканер и задаваясь целью максимально использовать его, не стоит скупиться на upgrade самого компьютера. Это очевидно: современные разработки программного обеспечения стремятся к максимальной эффективности (в нашем случае скорость/качество), требуя дополнительных аппаратных ресурсов. Переходя от версии к версии любимой программы распознавания текстов, нужно заботиться об увеличении памяти и мощности процессора вашего компьютера. При таких условиях будет легче прочувствовать новшества, введенные разработчиками, и полностью насладиться всеми функциями программы.

Однажды оценив легкость и полезность системы распознавания, уже невозможно от нее отказаться. Упразднив ручной набор, пользователь пытается доверить процессу распознавания со сканера все более и более сложные тексты. Обычное желание - сэкономить усилия при создании и верстке таблиц, а также поставить на поток перевод в цифровой формат многочисленных рисунков и формул. Если "в молодом возрасте" программа распознавания эту проблему решала с трудом, долго "скрипя" над поставленной задачей и иногда совершая ошибки, то сегодня CuneiForm 2000 выручает своих сторонников на все 100%. Иногда при вводе сложных текстов возникают некоторые нюансы, требующие доработки. Но не понравившийся результат всегда можно исправить, изменив методику: например, перейти на ручное выделение блоков, что часто прибавляет удобства при формировании таблиц. Очень быстро разрешит сомнения развернутая справочная система: воспользовавшись ею, можно за 2-3 итерации поставить на поток сканирование и распознавание идентичных по структуре страниц. Последнюю версию программы распознавания текстов CuneiForm 2000 сайт разработчика (http://www.cuneiform.ru) распространяет бесплатно. Программа работоспособна в течение 30 дней или 100 запусков, т.к. для дальнейшего использования требуется оплата программного продукта и регистрация. При обращении же к незарегистрированной копии на экране появляется запрос на ввод пароля и диалог-предупреждение о том, что программа не зарегистрирована. Однако времени, отведенного на эксплуатацию пробной версии системы CuneiForm 2000, вполне достаточно, чтобы оценить ее достоинства и недостатки. При этом функциональные возможности такой копии CuneiForm ничем не отличаются от ее зарегистрированного оригинала. В техническом руководстве к программе обозначено несколько отличий между двумя версиями: CuneiForm 2000 Professional и CuneiForm 2000 Master. Оценив эту разницу, можно уменьшить (увеличить) затраты на приобретение той или иной версии. Стоимость CuneiForm 2000 Professional составляет $129 (upgrade $39), Professional CuneiForm 2000 Master - $249 (upgrade $75). Обе модификации позволяют работать с 15 языками, распознавать таблицы, рисунки и, проверяя орфографию, сохранять обработанный текст в различных форматах, т. е. самые необходимые функции, не говоря уже о стабильном качестве и скорости распознавания. Пакет CuneiForm 2000 Master, в отличие от своего урезанного по возможностям собрата CuneiForm 2000 Professional, предоставляет еще и работу с пакетным распознаванием. Не менее полезная возможность - сканирование с удаленного сканера, что удобно при работе нескольких пользователей в сети.

Впервые приступая к сканированию и распознаванию текстов, полезно отметить для себя следующие моменты. При запущенной программе CuneiForm 2000 и подключенном сканере вся работа делится на 4 этапа. Каждый этап зафиксирован и запускается кнопкой в главной информационной панели системы распознавания (см. рисунок 1).

Кнопка "Получить изображение" отвечает за процесс сканирования, и при ее нажатии система вызывает управляющую сканером программу. Внешний вид программы зависит от модели сканера и входит в комплект поставки аппарата. На всякий случай отмечу, что к этому моменту документ уже должен находиться в сканирующем устройстве. Процесс считывания требует от пользователя ручного управления как минимум двумя функциями: предварительное сканирование и непосредственно сканирование. В промежутке можно настраивать параметры цветности, контрастности, разрешения, если требуется - поворот страницы и т.п. Как правило, этап сканирования самый длительный, его завершение фиксирует возврат в меню системы CuneiForm с появлением на экране отсканированного изображения.

При помощи кнопки "Разметка" главной панели вызывается этап разметки страницы. Целесообразно установить по умолчанию автоматический режим (что отмечается треугольной стрелкой в углу кнопки). Автоматическая разметка изображения выполняется обязательно (в противном случае пользователь переходит к ручной). При ее завершении происходит прямой переход к третьему этапу.

Для распознавания текста нужно нажать на кнопку "Распознавание" в главной панели инструментов (стрелка в углу, как принято в программе, означает автоматический режим и переход после выполнения к следующему этапу). Распознанный текст загружается в окно текстового редактора системы CuneiForm, в котором сомнительные слова и символы выделены цветом.

Дальнейшие действия следующие: редактирование обработанного текста в редакторе системы и вызов этапа сохранения кнопкой "Запись в файл". Упрощенный процесс сканирования и распознавания документа на этом завершен. Для экономии времени можно пренебречь проверкой, скопировав распознанный текст из редактора системы CuneiForm через буфер обмена в блокнот, Word или любой другой.

Итак, упрощенный процесс сканирования освоен и уже произведены некоторые первоначальные оценки. Теперь пользователю предстоит расширить диапазон освоения возможностей программы.

Чтобы получить навыки работы со сложным объектом, стоит взять при изучении системы что-нибудь сложное для распознавания: например, книгу с таблицами и рисунками. При этом текст будет располагаться двумя колонками (вы сканируете разворот двух страниц одновременно). Здесь, а также в других "многоколончатых" случаях не запрещайте системе CuneiForm 2000 "видеть" такое расположение текста. В противном случае можно потерять все форматирование. К примеру, установив флажок при задании опций пакетного распознавания (см. рисунок 2), - в целом пакете.

На этапе сканирования, в первую очередь предлагаю зафиксировать параметры системы, которые будут использоваться по умолчанию. Задать правильно все настройки распознавания поможет справочная система и "Мастер распознавания", в котором настраиваются следующие параметры: цветность, формат границ, разрешение, яркость, контраст и порог, язык распознавания, вид нераспознанного символа, сохранение, параметры разметки, наличие таблиц и картинок, словарный контроль. Режимы: колонка, факс, матричный принтер. Задав эти настройки в меню "Параметры" по умолчанию, в последующем не придется выбирать одни и те же опции при работе с данной книгой.

В окне изображения система позволяет управлять отсканированным объектом: просматривать в различных масштабах, отображать его фрагменты в окне увеличения, поворачивать, инвертировать. Отсканированный объект можно сохранить в файле. (А впоследствии - обработать при помощи пакетного распознавания.) Как и любой графический файл, изображение несложно распечатать.

Следующий этап тестирования возможностей системы - это настройка опций разметки. Часто бывает полезной замена автоматической разметки на ручную. Это пригодится в нашем случае с книгой, т.к. в тексте могут присутствовать объекты, которые не нужно включать в распознанный текст: колонтитулы, номера страниц, пометки на полях. Система CuneiForm 2000 игнорирует все находящееся за пределами размеченной области. Во-вторых, операция ручной разметки спасет наши таблицы: такие манипуляции сэкономят время на последующую верстку! Простой пример: даже такой интеллектуальной системе, как CuneiForm 2000, очень непросто "увидеть" в документе таблицу, которая не ограничена сеткой. Визуально такой объект выглядит как многоколончатый текст, и программа автоматически выделяет его так же.

Область распознавания выделяется курсором мыши, принявшим вид креста. Часть изображения, оставленная за пределами области распознавания, будет затенена, а область распознавания - нет. Средства ручной разметки задают размеры блоков текста и иллюстраций, формируют блоки таблиц. Блоки можно перемещать, изменять размеры, добавлять, удалять, упорядочивать, преобразовывать в блоки другого типа (в т. ч. многоугольные) и пр.

После автоматической разметки сложного текста происходит разбиение на несколько мелких блоков. Меню "Правка" позволяет объединять их и нумеровать, организуя порядок, в котором содержимое блоков переносится в текст. После выбора пункта "Пронумеровать блоки" в углу каждого блока высвечивается его номер. Последовательные щелчки мышью изменят номер блока, начав с первого и далее по порядку.

Все манипуляции в отношении блоков текста, таблиц и иллюстраций совершаются с помощью меню "Правка" и "Изображение". Причем любой блок разметки можно преобразовать в блок иллюстрации, выбрав опцию "Определить блок как рисунок".

После запуска распознавания готовый текст разместится в текстовом редакторе. В нем предусмотрена возможность последовательного просмотра сомнительных слов при помощи меню "Правка" или комбинаций клавиш Ctrl+F8, Ctrl+F7. Редактор системы CuneiForm 2000 позволяет управлять шрифтами, меняя их начертание, размер и пр. Есть также упрощенные возможности работы с абзацами.

Прежде чем запустить функцию распознавания, в меню "Параметры" кнопки "Распознавания" необходимо задать язык распознаваемого текста, допустим, для рассматриваемого примера сканирования страниц книги подойдет выбор "Русско-Английский". Эта операция важна для правильной работы функций словарного контроля, а также для исключения знаков переноса (однако в настройках можно указать и сохранение исходных переносов). Режим "Словарный контроль" включается в том же меню или в опциях "Общие параметры". Система CuneiForm 2000 имеет богатый словарь, но при отсутствии в нем какого-то слова знак переноса может оказаться в распознанном тексте. Эти слова будут отмечены цветом как сомнительные. Нераспознанные символы по умолчанию в программе заменяются знаком тильды - "~".

Чтобы облегчить работу программе, лучше заранее установить режим распознавания для документов, напечатанных на матричных принтерах или пришедших по факсу - они существенно отличаются от обычных текстов.

Распознанный текст можно записать в файл, а можно экспортировать в текстовый процессор Microsoft Word, электронные таблицы Microsoft Excel или в электронный архив "Евфрат". Для упрощения работы полезно включить автоматический вызов экспорта в нужную программу. Эти настройки задаются в диалоговом окне кнопки "Сохранение".

Запись распознанного текста в файл производится по обычной для текстового редактора схеме: выбор каталога, формата создаваемого файла, кодировки символов кириллицы. Чтобы в файле каждый абзац был разбит на отдельные строки, следует установить флажок "Сохранять концы строк внутри параграфа". Имя файла указывается без расширения. Сохраняя сложно отформатированный документ в текстовом формате, нужно при разметке правильно упорядочить блоки текста. В противном случае фрагменты текста из разных блоков могут быть записаны в файл с нарушением порядка.

Отсканировав несколько страниц книги с использованием вышеперечисленных советов, пользователь заметит, что процесс работы с системой CuneiForm 2000 принял поточный характер. В случае, когда те же самые итерации с одинаковыми настройками программы повторяются от страницы к странице, удобно затрачиваемые усилия переложить на плечи пакетного распознавания. Эта подпрограмма отлично экономит время при условии, что объединенные в пакет страницы не требуют ручного вмешательства. Суть метода заключается в том, что прошедшие 1 этап ("Сканирование") страницы (одна или несколько десятков) объединяются в каталог и откладываются на время. Пользователь сам выбирает момент для запуска следующих этапов для данного пакета (каталога). Объединенные в пакет файлы все, как один, получают единовременные настройки разметки, распознавания и сохранения. Эти настройки и есть последний шаг, предпринимаемый человеком в пакетном распознавании. Следующее его вмешательство - просмотр результатов.

Высвободившееся время лучше всего направить на работу с "непослушными страницами". Рациональнее не включать их в пакет и обработать "старым", уже изученным способом, выделяя вручную блоки, редактируя таблицы, рисунки и проблемные участки.

Пакетное распознавание в системе CuneiForm функционирует как самостоятельный модуль программы и запускается в отдельном окне. Чтобы стало понятнее, какими возможностями наделена эта подпрограмма, приведу формулировку из справочной системы. "Пакетом будем называть совокупность графических файлов, параметров их обработки программой пакетного распознавания, файлов с распознанным текстом и сообщений об ошибках, которые возникли при распознавании текста. Пакет может существовать только в оперативной памяти компьютера во время сеанса работы с программой пакетного распознавания, а может быть записан на диск в виде файла с расширением.CBF. В пакете хранятся только ссылки на файлы, сами же файлы хранятся на диске независимо от пакета. В пакете записаны полные пути к файлам, поэтому, скажем, перемещение пакета на другой диск или в другой каталог приведет к тому, что программа пакетного распознавания не найдет включенные в пакет файлы. В пакет можно добавить не только отдельные файлы, но и каталог, что бывает полезно, когда планируется обработка пакета в режиме ожидания. Жизненный цикл пакета начинается созданием последнего, в частности добавлением в него графических файлов. Для того чтобы распознать текст, находящийся в графических файлах, пакет следует обработать, при этом для каждого успешно обработанного графического файла создаются и включаются в пакет файлы с распознанным текстом. Поскольку эти файлы записываются непосредственно на диск и имеют стандартный формат, RTF или текстовый, необходимости сохранять или экспортировать распознанный текст нет: достаточно просто скопировать файлы с распознанным текстом в нужный каталог."

Как и при любом сотрудничестве с программой CuneiForm, управлять пакетным распознаванием очень просто. "Мастер пакетного распознавания" начинает работать после нажатия кнопки "Создание пакета" в подпрограмме. Вкратце опишу те действия, которые нужно предпринимать при работе с Мастером. Первое действие - задать имя пакету. Далее - настройки опций "Распознавание". Они идентичны уже знакомым нам со времен сканирования страниц книги параметрам. Здесь порядок таков: "Язык распознавания", "Словарный контроль", "Матричный принтер", "Факс", "Колонки", "Нераспознанный символ", "Таблицы", "Картинки", "Автоповорот" (см. рисунок 2), "Список файлов, составляющих пакет", "Параметры шрифтов" и "Тип распознанных файлов". Допустим, можно выбрать несколько "отложенных" после сканирования страниц, сохраненных в файлах формата.TIF. Мастер поинтересуется, что делать с обработанными графическими файлами (удалять, перемещать или ничего) и в каком формате сохранять распознанные тексты. После запуска распознавания окно программы будет содержать дерево пакетных файлов и индикатор процесса обработки (см. рисунок 3). При желании результаты можно записать в файл-протокол (LOG). Программа пакетного распознавания может обрабатывать несколько пакетов одновременно, а также в режиме ожидания, обработка в котором заканчивается только после вмешательства пользователя.

Резюме (краткое руководство)

1. Начинать работу с системой CuneiForm 2000 нужно с оценки качества текста и параметров сканирования, при которых достигается максимум качества/скорости. Для этого: отсканировать 1-2 страницы текста, задав параметры вручную. На основании проделанной работы задать "по умолчанию" опции сканирования (в частности, "цветность", "разрешение", "яркость"), все форматы распознавания и сохранения.

2. Позволить системе автоматическую разметку с последующим распознаванием отсканированного объекта. В случае удовлетворяющего вас результата выполнять эти этапы для идентичных страниц в режиме "Автомат". В случае возникших неточностей распознавания - перейти к ручной разметке и редактированию блоков, особое внимание уделяя таблицам и рисункам.

3. Отсортировать страницы, требующие "ручного управления". Для оставшихся выполнить этап "Сканирование", сохранить результат в графическом формате.

4. Выполнить весь объем работ порциями, используя возможности системы CuneiForm 2000. Сначала обработать страницы, требующие "ручного управления". Вторую порцию - средствами пакетного распознавания идентичные по оформлению графические файлы (см. п. 3), отсортированные в каталоги-пакеты.

- интеллектуальная система распознавания текста. Обеспечивает быстрое и качественное преобразование бумажных документов и электронных графических файлов в редактируемый текст для последующей работы с ним в офисных программах и текстовых редакторах. Результаты можно сохранять в популярных форматах и проводить по ним полнотекстовый поиск.
Возможности CuneiForm :
При распознавании сохраняется структура документа и его форматирование.
Распознает таблицы любой структуры и сложности, в том числе и без отображения линий табличной сетки.
Распознаются любые печатные шрифты: книги, газеты, журналы, распечатки с лазерных и матричных принтеров, тексты с пишущих машинок и т.п.
Алгоритмы оптического распознавания (OCR, Optical Character Recognition), встроенные в программу позволяют распознавать текст с матричного принтера, плохих ксерокопий и факсов.
Распознавание документов более чем на 20 языках: на русском, английском, украинском, немецком, французском, испанском, итальянском, и других.
Для повышения качества распознавания в программе используется словарная проверка. При этом стандартный словарь можно расширить за счет импорта новых слов из текстовых файлов.
Для координации работы над проектом действует сайт OpenOCR.org c русскоязычным форумом .
Статус программы: Бесплатная
Операционка: Windows 7, Vista, XP
Интерфейс: Английский, Русский
Разработчик: Cognitive Technologies
Размер: 33.3 Mb
СКАЧАТЬ OCR CuneiForm V.12
СКАЧАТЬ Cognitive OpenOCR (Russian)
СКАЧАТЬ Cognitive OpenOCR (English)
Небольшой мануал по работе:
После установки у Вас появятся два ярлыка:

Пакетное распознование - обработка целых папок.
CuneiForm - обработка документов со сканера или отдельных файлов.
Запускаем программу. На мой взгляд большинству подойдёт второй вариант запуска программы. В открывшемся окне выбираем значок с волшебной палочкой (стрелка).

Открывается окно "мастера распознования". Выбираем источник исходного файла (винчестер или сканер). Для примера я выбрал файл на жеском диске.

Жмём "Далее". Открывается страница выбора языка, где мы выбираем (естественно) язык (стрелка 1) и символ которым будут заменятся нераспознанные буквы (стрелка 2).

Опять "Далее". Выбираем параметры распозноваемого текста. Так как, у меня был отсканированный рукописный текст, я выбрал "Словарный контроль" и "Факс".

И т.к. исходный текст не содержал таблиц и картинок, убрал соответствующие точки на следующем пункте настройки.

Опять "Далее". И программа начала обработку текста.

Вот итог. Исходный фрагмент и после обработки программой.

Это итоги обработки рукописного фрагмента.
А вот итоги обработки отсканированного машинописного текста (параметры исходника выставлены такими же) :

Как видим результат напрямую зависит от исходника. При обработке рукописного теста, плохого качества целесообразней набирать его сразу вручную, чем обрабатывать программой и после править.
Поэтому не стоит надеяться на чудо. После распознования текста предстоит довольно кропотливая работа по исправлению ошибок .
Подготовлено по материалам computer-vsem.ru, cognitiveforms.com, softportal.com
Компиляция текста и ссылки

Итак, установка. В Убунте кстати доступна версия 0.7 из репозитариев. Версия 0.9 является последней на данный момент.
wget http://launchpad.net/cuneiform-linux/0.9/cuneiform-linux-0.9/+download/cuneiform-linux-0.9.0.tar.bz2
tar xvjf cuneiform-linux-0.9.0.tar.bz2
cd cuneiform-linux-0.9.0
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install
Дополнительный аргумент "-DCMAKE_INSTALL_PREFIX=/your/dir" установит cuneiform в нужную директорию.
Запускать можно со следующими аргрументами:

L
Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

O
Сохраняет в файл.

F
Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

Dotmatrix
Оптимизация работы скрипта под изображение, распечатанное с помощью матричного принтера.

Fax
Оптимизация работы скрипта под изображение, распечатанное с помощью факса.

Singlecolumn
Отключает анализ страницы и подразумевает, что у нас изображение состоит из одной колонки текста.

Пример использования:
cuneiform -l ruseng -o /our/dir/text.txt /our/dir/book_1.tif

GUI

Далее захотелось уже графический интерфейс под бытовые нужды. Есть 2 штуки на выбор - это YAGF и :

Было решено пользовать YAGF. Он тоже написан на qt и требует еще пакет проверки орфографии aspell . Скачиваем, устанавливаем.

Сегодня я расскажу и научу вас распознавать текст с картинок. Также для тех, кому нужна была программа для распознавания текста , ниже я предлагаю скачать русскую версию программы CuneiForm 12. А сейчас я более подробно расскажу, как с ней работать.

Зачем нужно распознавать тексты?

Например, вам задали написать доклад или реферат, полазив в интернете, вы нечего путного не нашли. Потом сходили в библиотеку и взяли книгу по теме доклада, но нужного текста в книге много и перепечатывания такого объема может занять у вас всё свободное время. Вот в таких случаях приходит на помощь программа CuneiForm 12 , от вас требуется от сканировать нужные страницы книги, а потом с помощью программы извлечь из картинок текст. Хочу заметить, что всё происходит очень быстро.

Программа для распознавания текста

Как я писал выше, мы будем работать с программой CuneiForm 12. Чем же она лучше других?

CuneiForm бесплатная , например программа ABBYY FineReader стоит 3990 рублей.
Высокая скорость работы и качество распознавания.
Распознавание текстов на 20 языках, в том числе смешанном русско-английском.
Работа с рисунками и таблицами.
Простота использования и интуитивно понятный интерфейс.
А также множество технических усовершенствований.

Но недостатки также имеются, так как это программа русских разработчиков, то красивым дизайном она не выделяется, но для меня главное, то что она правильно распознает текст.

Как работать с программой CuneiForm 12

После загрузки и установки программы, запустите CuneiForm 12. Вы должны увидеть вот такое окошко:

Выбор картинки, с которой будет распознаваться текст.
Выбор принтера.
Кнопка «Распознавания».
Кнопка «Сохранить».

Нажимаем на первую кнопку и выбираете нужную картинку или от сканированную страницу. В следующем окне выбираете язык текста, который находиться у вас на картинке. Следующие настройки не так важны, можете их пролистать.

После распознавания у вас должно появиться вот такое окошко:

В верхней части будет распознанный текст с выделенными ошибками, а ниже исходное изображение. Как вы видите, моя картинка была плохого качества, неровная, но программа распознала всё отлично. Кстати как видно на рисунке выше программа предлагает три варианта развития событий.

Оставить для редактирования.
Сохранить на диск.
Экспортировать в Word или в Excel.

Готово, теперь вы знаете, как это делается и у вас появилась программа распознавания текста со сканера.

Дата добавления обзора: 05.07.2009 г.

Информация об OCR CuneiForm:

OCR CuneiForm может распознавать любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, плохих ксерокопий факсов и машинописи.

OCR CuneiForm это:

высокое качество распознавания;
высокая скорость работы;
распознавание текстов на русском, английском, смешанном русско-английском, украинском, немецком, французском, испанском, итальянском, шведском и других (всего более 20);
работа в режиме автофрагментации для поиска текстовых блоков, таблиц и изображений, а также мощное средство ручной и полуавтоматической фрагментации;
распознавание таблиц любой структуры и сложности, в том числе и без отображения линий табличной сетки;

автоматическое сохранение иллюстраций (черно-белых и цветных) и таблиц в получаемом на выходе документе;
полное сохранение топологии страницы;
поддержка пакетного режима сканирования и распознавания;
простота использования и интуитивный интерфейс, встроенные помощники по работе с программой;
встроенный текстовый редактор для работы с распознанным текстом;
совмещенный показ изображений и результатов распознавания.

Основные возможности OCR CuneiForm

1. ИНТЕРФЕЙС

Интерфейс программы содержит выпадающие контекстные меню, панели быстрого доступа, контекстную помощь.

2. СКАНИРОВАНИЕ

Автоматический подбор оптимальных параметров сканирования.
Возможность импортирования отсканированных или полученных через факс-модем графических файлов во многих форматах.
Обработка изображений: печать образа, инвертирование, поворот.

3. ФРАГМЕНТАЦИЯ

Автоматический и полуавтоматический режимы поиска блоков текста, таблиц и графики, который обеспечивает большую гибкость при работе с многоколоночными текстами и текстами сложной структуры и с графическими элементами.
Режим ручной фрагментации для работы с текстами особо сложной структуры.

4. РАСПОЗНАВАНИЕ

CuneiForm распознает любые полиграфические, машинописные гарнитуры всех начертаний и шрифты, получаемые с принтеров за исключением декоративных и рукописных. В систему встроены специальные алгоритмы для распознавания текста с матричного принтера, печатной машинки, плохих ксерокопий и факсов.
Самообучающиеся адаптивные алгоритмы распознавания повышают вероятность распознавания низкокачественных документов.

5. ЯЗЫКОВАЯ ПОДДЕРЖКА

Система распознает русский, английский, смешанный русско-английский, украинский, немецкий, французский, испанский, португальский, итальянский, голландский, датский, шведский, финский, сербский, хорватский, польский, казахский, узбекский и другие языки.

6. СЛОВАРНЫЙ КОНТРОЛЬ

Словарь общеупотребительной лексики каждого поддерживаемого языка для контекстной проверки и повышения качества результатов распознавания.
Возможность создания и пополнения пользовательского словаря, а также возможность экспорта/импорта словаря в/из текстовых файлов.

7. РЕАЛИЗАЦИЯ ПРИНЦИПА "What You Scan Is What You Get" ("Что Вы сканируете, то и получаете").

CuneiForm позволяет получить полную копию вводимого документа, включая:

Шрифтовое оформление и форматирование.
Расположение текста, иллюстраций и таблиц.
Колонки, абзацы, отступы, стили и размеры шрифтов.
Черно-белые, 256-градационные серые и цветные 24-битные иллюстрации в выходном RTF-файле.

8. РАБОТА С ТАБЛИЦАМИ

Распознавание таблиц различной структуры, в том числе и без линий разграфки.
Редактирование таблиц (уменьшение/увеличение, удаление/создание колонок и т.д.)
Сохранение результатов в распространенных табличных форматах.

9. РЕДАКТИРОВАНИЕ

В программу встроен многофункциональный редактор, не уступающий по своим возможностям популярным текстовым процессорам.

Одновременная подсветка распознанного текста и исходного изображения, снабженная функцией "следующий/предыдущий сомнительно распознанный".
Поддержка иллюстраций, таблиц, колонок, колонтитулов, сложного форматирования и различных шрифтов.
Возможность редактирования текстовых документов популярных форматов.

10. ИНТЕГРАЦИЯ С ДРУГИМИ ПРИЛОЖЕНИЯМИ

Опции командной строки и поддержка Drag&Drop для вызова из внешних приложений, сканирования, распознавания и сохранения результатов в автоматическом режиме.

Скачать программу OCR CuneiForm (.zip-файл, 33,3 Мб.) Обратите внимание на вес файла!!!