Системы оптического распознавания. Оптическое распознавание символов (OCR)

Системы оптического распознавания символов (Optical Character Recognition - OCR) предназначены для автоматического ввода печатных документов в компьютер.

FineReader - омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами, без предварительного обучения. Особенностью программы FineReader является высокая точность распознавания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии "целостного целенаправленного адаптивного распознавания".

Процесс ввода документа в компьютер можно подразделить на два этапа:

1. Сканирование. На первом этапе сканер играет роль "глаза" Вашего компьютера: "просматривает" изображение и передает его компьютеру. При этом полученное изображение является не чем иным, как набором черных, белых или цветных точек, картинкой, которую невозможно отредактировать ни в одном текстовом редакторе.

2. Распознавание. Обработка изображения OCR-системой.

Остановимся на втором шаге более подробно.

Обработка изображения системой FineReader включает в себя анализ графического изображения, переданного сканером, и распознавание каждого символа. Процессы анализа макета страницы (определение областей распознавания, таблиц, картинок, выделение в тексте строк и отдельных символов) и распознавания изображения тесно связаны между собой: алгоритм поиска блоков использует информацию о распознанном тексте для более точного анализа страницы.

Как уже упоминалось, распознавание изображения осуществляется на основе технологии "целостного целенаправленного адаптивного распознавания".

Целостность - объект описывается как целое с помощью значимых элементов и отношений между ними.

Целенаправленность - распознавание строится как процесс выдвижения и целенаправленной проверки гипотез.

Адаптивность - способность OCR-системы к самообучению.

В соответствии с этими тремя принципами система сначала выдвигает гипотезу об объекте распознавания (символе, части символа или нескольких склеенных символах), а затем подтверждает или опровергает ее, пытаясь последовательно обнаружить все структурные элементы и связывающие их отношения. В каждом структурном элементе выделяются части, значимые для человеческого восприятия: отрезки, дуги, кольца и точки.

Следуя принципу адаптивности, программа самостоятельно "настраивается", используя положительный опыт, полученный на первых уверенно распознанных символах. Целенаправленный поиск и учет контекста позволяют распознавать разорванные и искаженные изображения, делая систему устойчивой к возможным дефектам письма.

В результате работы в окне FineReader появится распознанный текст, который Вы можете отредактировать и сохранить в наиболее удобном для Вас формате.

Новые возможности abbyy FineReader 7.0

Точность распознавания

Точность распознавания улучшена на 25%. Лучше анализируются и распознаются документы сложной верстки, в частности, содержащие участки текста на цветном фоне или фоне, состоящем из мелких точек, документы со сложными таблицами, в том числе таблицами с белыми разделителями, таблицами с цветными ячейками

В новую версию добавлены специализированные словари для английского и немецкого языка, включающие наиболее часто используемые юридические и медицинские термины. Это позволяет достичь качественно нового уровня при распознавании документов юридической и медицинской тематики.

Поддержка формата XML и интеграция с Microsoft Office

В FineReader появился новый формат сохранения - Microsoft Word XML. Теперь пользователи новой версии Microsoft Office 2003 смогут работать с документами, распознанными FineReader, используя все преимущества формата XML!

Интеграция FineReader с Microsoft Word 2003 позволяет объединить мощные возможности этих двух приложений для обработки распознанного текста. Вы сможете проверять и редактировать результаты распознавания с помощью привычных инструментов Word, одновременно сверяя переданный в Word текст с оригинальным изображением - окно Zoom FineReader открывается прямо в окне Word.

Новые возможности сделают Вашу работу более удобной. При создании документа Word можно вызвать FineReader, распознать текст и вставить его в то место документа, где находится курсор, то есть Вы сможете легко собрать в одном документе информацию из разных бумажных источников или PDF-файлов. Результаты распознавания теперь можно отправить по электронной почте как вложение в любом из поддерживаемых форматов сохранения.

Улучшена работа FineReader с PDF документами

Качество распознавания PDF-файлов значительно улучшилось. Большинство документов, помимо изображения страницы, содержат текст. FineReader 7.0 умеет извлекать этот текст и использовать его для проверки результатов и улучшения качества распознавания.

Теперь Вы можете редактировать распознанные PDF-документы в окне редактора FineReader: внесенные изменения будут сохранены в любом из поддерживаемых в программе режимов сохранения PDF-файлов.

Формат PDF-файлов, создаваемых программой FineReader, оптимизирован для их публикации в Интернете - пользователь сможет просматривать содержание первых страниц, пока скачивается остальная часть документа.

Новые возможности сохранения

Новый формат сохранения результатов распознавания - Microsoft PowerPoint - позволяет быстро создавать новые презентации или редактировать уже существующие.

При сохранении в Microsoft Word уменьшился размер получаемого файла, улучшилось сохранение форматирования документов с различными разделителями, появились новые опции сохранения картинок.

Улучшено отображение сложных элементов верстки при сохранении

в HTML , например, обтекание непрямоугольных картинок текстом. Кроме того, уменьшился размера HTML-файла, что очень важно для публикации документов в Интернете.

Удобство использования

Обновленный интуитивно-понятный пользовательский интерфейс. Стало удобнее работать с профессиональными настройками. Панели инструментов редактирования перенесены в окно, в котором отображаются результаты распознавания. Появились удобные инструменты управления окнами FineReader: например, можно поставить удобную степень увеличения в каждом из окон.

Обновленное практическое руководство по улучшению качества распознавания поможет начинающему пользователю быстро начать работу, а более опытному - наилучшим образом настроить программу для получения отличного результата при работе с любыми типами документов.

Профессиональные возможности

Теперь в версии FineReader Professional Edition стали доступны те возможности, которые раньше были доступны только пользователям версии Corporate Edition :

Улучшено распознавание штрих-кодов, поддержано распознавание двухмерного штрих-кода PDF-417.

Инструмент для разбиения изображения. С помощью него Вы сможете разделить изображения на области и сохранить каждую область как отдельную страницу пакета. Таким образом удобно распознавать несколько визитных карточек, отсканированных вместе, книги, или распечатки слайдов презентаций PowerPoint.

Морфологический поиск. Любой пакет, созданный в программе FineReader, можно использовать в качестве небольшой базы данных

с возможностью полнотекстового морфологического поиска. Среди всех распознанных страниц пакета можно найти те страницы, которые содержат заданные слова во всех их грамматических формах (для 34 языков со словарной поддержкой).

Поддержка процессоров Intel , использующих технологию Hyper - Threading . Использование этой технологии позволяет заметно увеличить производительность, что особенно важно, если стоит задача распознавания большого числа документов.

В версии FineReader 7.0 также появились и другие профессиональные возможности:

Двухстороннее сканирование. Сканируя документ с напечатанным

с двух сторон текстом с помощью поддерживающего эту опцию сканера, Вы получите изображения содержимого каждой стороны в виде двух отдельных страниц пакета. Если нужно отсканировать только одну сторону документа, эту опцию можно отключить.

Поддержано открытие графических файлов формата JPEG 2000 и сохранение в этот формат.

Сетевые возможности версии FineReader Corporate Edition

Подробно все особенности установки и использования FineReader Corporate Edition в корпоративной сети описаны в Руководстве системного администратора, который Вы можете найти в подпапке Administrator " s Guide папки сервера, куда был установлен FineReader.

Основные улучшения по сравнению с предыдущей версией:

Поддержка основных способов автоматической установки с сервера на рабочие станции. FineReader Corporate Edition поддерживает все основные способы автоматической установки в локальной сети: с помощью Active Directory, Microsoft Systems Management Server или с помощью командной строки.

Работа с многофункциональными устройствами, в том числе сетевыми. Многофункциональные устройства, совмещающие в себе функции сканера, принтера, копира и факса, становятся все более популярными. Теперь необязательно ставить каждому сотруднику свой сканер - достаточно одного мощного устройства, с которым работают все пользователи организации. FineReader умеет работать с такими устройствами, как подключенными к рабочей станции, так и сетевыми. Специальные настройки программы позволяют пользователю автоматически открывать и отсканированные изображения с любого места в локальной сети или с ftp сервера и распознавать их

Различные модели корпоративного лицензирования. Кроме лицензирования по числу одновременного работающих пользователей, стали доступны также другие способы лицензирования. Вы сможете выбрать тот вариант, который в большей степени отвечает Вашим потребностям.

License Manager - средство управления лицензиями в сети. В FineReader Corporate Edition появилась удобная утилита управления лицензиями (Менеджер лицензий). С помощью нее осуществляется отслеживание использования FineReader на рабочих станциях, резервирование лицензий за рабочими станциями, добавление новых лицензий.

Любая сканированная информации представляет собой графический файл (картинку). Следовательно, отсканированный текст невозможно редактировать без специального перевода в текстовый формат. Этот перевод можно осуществить с помощью систем оптического распознавания символов (optical character recognition - OCR).

Для получения электронной (готовой к редактированию) копии печатного документа программе OCR необходимо выполнить ряд операций, среди которых можно выделить следующие:

1. Сегментация - полученная со сканера «картинка» разбивается на сегменты (текст отделяется от графики, ячейки таблиц разделяются на отдельные куски и т.д.).

2. Распознавание - текст переводится из графической формы в обычную текстовую.

3. Проверка орфографии и правка - внутренняя система проверки орфографии проверяет и корректирует работу системы распознавания (спорные слова и символы выделяются цветом, пользователю сообщается о «неуверенно распознанных символах»)

4. Сохранение - запись распознанного документа в файл нужного формата для дальнейшего редактирования в соответствующей программе.

Перечисленные выше операции в большинстве OCR-систем могут выполняться как в автоматическом (с помощью программы-мастера), так и в ручном режиме (по отдельности).

Современные OCR-системы распознают тексты, набранные различными шрифтами; корректно работают с текстами, содержащими слова на нескольких языках; распознают таблицы и рисунки; позволяют сохранять результат в файле текстового или табличного формата и др.

В качестве примера OCR-систем можно привести CuneiForm от фирмы Cognitive и FineReader от ABBYY Software.

OCR-системаFineReader выпускается в различных версиях (Sprint, Home Edition, Professional Edition, Corporate Edition, Office) и все они, от самой простой до самой мощной, имеют очень удобный интерфейс, а также (в зависимости от модификации) имеют ряд достоинств, которые выделяют их среди аналогичных программ.

Например, FineReader Professional Edition (FineReader Pro) обладает следующими функциональными возможностями:

поддерживает почти двести языков (даже древние языки и популярные языки программирования);

распознает графику, таблицы, документы на бланках и т.п.;

полностью сохраняет все особенности форматирования документов и их графическое оформление;

для текстов, в которых используются декоративные шрифты или встречаются специальные символы (например, математические), предусмотрен режим «Распознавание с обучением», в результате работы которого создается эталон символов, встречающихся в тексте, для дальнейшего использования при распознавании;

Конец работы -

Эта тема принадлежит разделу:

Информация: свойства информации, количество информации единицы измерения- 13

Предмет и основные понятия информационных технологий.. информатизация информационное общество и информационная культура.. компьютерные информационные технологии и их классификация..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Роль информатизации в современном обществе
Потоки информации постоянно растут, и неизбежно наступает информационный барьер, когда сложность задач обработки информационных потоков превышает человеческие возможности. Человек, являясь основным

Информатика как наука
Как известно, характерной чертой XX и XXI вв. является овладение человечеством компьютерной техникой, которая настолько плотно вошла и производственную сферу и в повседневную жизнь, что теперь труд

Виды информации
Информация может существовать в виде: текстов, рисунков, чертежей, фотографий; световых или звуковых сигналов; радиоволн; электрических и нервных импуль

Передача информации
Информация передаётся в форме сообщений от некоторого источника информации к её приёмнику посредством канала связи между ними. Ис

Количество информации
Какое количество информации содержится, к примеру, в тексте романа "Война и мир", во фресках Рафаэля или в генетическом коде человека? Ответа на эти вопросы наука не даёт и, по всей вероя

Обработка информации
Информацию можно: создавать; передавать; воспринимать; иcпользовать; запоминать; принимать;

Арифметические основы информационных технологий
Система счисления - это совокупность приемов и правил, по которым числа записываются и читаются. Существуют позиционные и непозиционные системы счисл

Порождение целых чисел в позиционных системах счисления
В каждой системе счисления цифры упорядочены в соответствии с их значениями: 1 больше 0, 2 больше 1 и т.д. Продвижением цифры называют замену её следующей по величине.

Системы счисления, используемые для общения с компьютером
Кроме десятичной широко используются системы с основанием, являющимся целой степенью числа 2, а именно: двоичная (используются цифры 0, 1); восьмер

Правовые основы информатизации в Республике Беларусь
В век информации в Республике Беларусь уделяется большое внимание организации цивилизованного информационного рынка. Об этом свидетельствуют следующие принятые документы: - законы:

Техническое обеспечение информационных технологий
Техническое обеспечение - совокупность технических средств, предназначенных для функционирования информационной системы. Оно выбирается, исходя из объема и сложности решаемых на предприятии

История развития вычислительной техники
Стремительное развитие цифровой вычислительной техники (ВТ) и становление науки о принципах ее построения и проектирования началось в 40-х гг. XX в., когда технической базой ВТ стала электроника и

Принципы строения и функционирования ЭВМ Джона фон Неймана
Большинство современных ЭВМ функционирует на основе принципов, сформулированных в 1945 г. американским ученым венгерского происхождения Джоном фон Нейманом. 1.Принцип двоичного кодирова

Основные компоненты и переферийные устройства ПК
Конструктивно ПК состоит из системного блока, монитора, клавиатуры, мыши и внешних (периферийных) устройств. Системный блок (корпус) представляет собой коробку из металла и пластмас

Процессор и его основные характеристики
Важнейший компонент любого компьютера - его процессор (микропроцессор) - программно-управляемое устройство обработки информации, выполненное в виде одной или нескольких больших или сверхболь

Устройства внешней памяти ПК
Для хранения программ и данных в компьютере используют устройства внешней памяти - накопители. По отношению к компьютеру они могут быть внешними и встраиваемыми (внутренни

Устройства ввода-вывода 3D изображений
Одним из направлений развития информационных технологий является разработка устройств, позволяющих работать с 3-мерными изображениями. 3D-сканер - устройство, анализирующе

Конфигурация ПК
Функциональные возможности компьютера определяет его конфигурация - состав и характеристика его основных устройств: процессора, оперативной памяти, жесткого диска, CD/DVD-приводов, монитора, видеок

Параметры, влияющие на производительность ПК
Производительность ПК является важнейшей его характеристикой. Все факторы и параметры, влияющие на производительность ПК, можно в общем случае разделить на программные и аппаратные. Влияни

Тенденции развития вычислительной техники
По мнению специалистов, в первом десятилетии XXI в. будут повышаться значимость программного обеспечения, возрастание проблем его совместимости и обеспечения безопасности. Среди операционных систем

Программный принцип управления компьютером
Компьютер является универсальным инструментом для решения разнообразных задач по преобразованию информации, но его универсальность определяется не столько аппаратным обеспечением, сколько установле

Операционные системы
Операционная система (ОС) - это комплекс программ, предназначенных для управления загрузкой, запуском и выполнением других пользовательских программ, а также для планирования и управления вычислите

Операционная система Windows
Корпорация Microsoft начала разрабатывать ОС семейства Windows с конца 80-х годов прошлого столетия. На сегодняшний день можно отметить следующие ОС этого семейства: Windows 3.0 / 3.1 / 3.

Файловая система Windows
Ядром операционной системы является модуль, который обеспечивает управление файлами - файловая система. Основная задача файловой системы - обеспечение взаимодействия программ

Объекты Windows
Одним из основных понятий Windows является объект, его свойства и действия, которые можно выполнить над объектом и которые может выполнять сам объект. Основными объектами Windows являются:

Графический интерфейс Windows и его элементы
После загрузки Windows на экране появляется электронный Рабочий стол, на котором размещаются графические объекты - пиктограммы (значки) папок и файлов, ярлыки и др. Значки файлов документов

Настройка ОС Windows
Настройку ОС Windows можно условно разделить на два вида: 1. Настройку интерфейса и элементов Панели управления - их может произвести любой пользователь. 2. Изменения через скрыты

Сервисные программы
Сервисные программы расширяют возможности ОС по обслуживанию системы и обеспечивают удобство работы пользователя. К этой категории относят системы технического обслуживания, программные обол

Компьютерные вирусы и антивирусные средства
Компьютерный вирус - это программа, ориентированная на существование и размножение в файле за счет его несанкционированного изменения, т.е. заражения, а также выполнения нежелательных действ

Архивация
Цель архивации - обеспечение более компактного размещения информации на диске, а также сокращение времени и соответственно стоимости передачи информации по каналам связи в компьютерных сетях

Общая характеристика и функциональные возможности программы-архиватора WinRAR 3.3
WinRAR - это 32-разрядная версия архиватора RAR для Windows, мощного средства создания и управления архивными файлами. Для Windows имеются две версии RAR: 1. Версия для командной ст

Инструментальное программное обеспечение
К инструментальному программному обеспечению относят: системы программирования - для разработки новых программ, например, Паскаль, Бейсик. Обычно они включают: редакт

Буфер промежуточного хранения Clipboard
Уже в первых версиях Windows был реализован встроенный буфер промежуточного хранения данных Clipboard(буфер обмена), который постоянно активен и доступен всем Windows-приложениям.

Технология DDE
Для обмена данными между приложениями может использоваться технология DDE(Dynamic Data Exchange - динамический обмен данными), суть которой состоит в том, что вставляемый через буф

Технология OLE
Технология связывания и внедрения объектов (Object Linking and Embedding) имеет больше функциональных возможностей, причем если приложение поддерживает OLE, то оно само выполняет обмен данными по э

Тенденции развития операционных систем
Основные направления развития операционных систем следующие: 1. Расширяемость - возможность внесения дополнительных функций без разрушения целостности системы (вспомните ОС Linux).

Компьютерная обработка информации
Для обработки информации существует множество вариантов (организационных форм) технологических процессов. Обычно технологический процесс обработки информации с использованием ЭВМ включает в себя сл

Технологии и системы обработки табличной информации (табличные процессоры)
Табличные процессоры - это программные комплексы для управления электронными таблицами. Электронная таблица (ЭТ) - универсальное средство для автоматизации расчетов над больш

Общая характеристика и функциональные возможности Microsoft Excel 2003
Можно выделить следующие функциональные возможности текстового процессора Microsoft Excel 2003: построение таблиц и сохранение их на машинных носителях, работа с шаблонами; работа

Технологии и системы обработки графической информации (компьютерная графика)
Компьютерная графика представляет собой одну из современных технологий создания и обработки различных изображений с помощью аппаратных и программных средств компьютера. Компьютерную

Системы компьютерной графики и их функциональные возможности
Существующие на сегодняшний день системы компьютерной графики (пакеты прикладных программ, работающие с графическими изображениями), также можно классифицировать различным образом, например:

Графические форматы
Формат графического файла (графический формат) - это совокупность информации об изображении и способ его записи в файл. Графические данные, как правило, занимают большой объем и тре

Общая характеристика и функциональные возможности программы Corel DRAW
CorelDRAW представляет собой объектно-ориентированный пакет программ для работы с векторной графикой. Термин «объектно-ориентированный» следует понимать в том смысле, что все операц

Общая характеристика и функциональные возможности программы Adobe PhotoShop
PhotoShop - это программа профессиональных дизайнеров и всех, кто связан с обработкой графических изображений. Она позволяет производить обработку и коррекцию изображений, введенных в компью

Технологии и системы создания динамических презентаций
Презентация (слайд-фильм по определенной тематике, выполненный в едином стиле и хранящийся в едином файле) - это электронный документ комплексного мультимедийного содержания с возможностями

Системы создания презентаций и их функциональные возможности
Рынок пакетов для создания презентаций развивается по двум направлениям: 1. Средства создания презентаций непрофессионального пользователя (например, PowerPoint фирмы Microsoft, Corel Pres

Общая характеристика и функциональные возможности Microsoft PowerPoint 2003
Система создания презентаций PowerPoint - является компонентой Microsoft Office и предназначена для создания презентационных материалов в виде слайдов и их вывода на бумагу, экран, прозрачную пленк

Понятие и история развития компьютерных сетей
Компьютерной (вычислительной) сетью называется совокупность компьютеров (ЭВМ), взаимосвязанных через каналы передачи данных и обеспечивающих пользователей средствами обмена информацией и кол

Локальные компьютерные сети
Главная отличительная особенность локальных сетей - единый для всех компьютеров высокоскоростной канал передачи данных и малая вероятность возникновения ошибок в коммуникационном оборудовании.

Основные технологии и оборудование локальных сетей
Для организации локальной сети необходимы технические, программные и информационные средства. Технические средства сети включают: 1. Компьютеры, технические харак

Глобальная сеть Internet
Internet (Интернет) - глобальная компьютерная сеть, представляющая собой всемирное объединение неоднородных компьютерных сетей, образующих единое информационное пространство благодаря исполь

Адресация компьютеров в сети Интернет
Маршрутизация между локальными сетями осуществляется в соответствии с IP-адресами, находящимися в заголовке дейтаграммы. IP-адрес назначается администратором сети во время конфигурации компьютеров

Структурные компоненты и протоколы прикладного уровня сети Internet
Web-страница - гипертекстовый документ в формате.html - наименьшая единица всемирной паутины. Она может содержать текст, графические иллюстрации, мультимедийные и другие объекты, и главное

Понятие алгоритма и типы алгоритмических процессов
Любая задача перед решением на ЭВМ требует формализованной подготовки, включающей совокупность решений по составу и содержанию входных и выходных данных, а также процедурам преобразования входных с

Инструментальные средства программирования
Инструментарий программирования - это совокупность программных продуктов, обеспечивающих технологию разработки, отладки и внедрения создаваемых новых программных продуктов. Они делятся на ср

Базы Данных
В настоящее время термины база данных (БД) и система управления базами данных (СУБД) используются, как правило, по отношению к компьютерным базам данных. В общем смысле этот термин можно применить

Накладные Товар
Номер накладной Код покупателя Номер накладной Товар Количество

Иерархические модели
В иерархической модели данные организованы в виде дерева. Вершины такого дерева расположены на разных уровнях. Группы записей в такой структуре располагаются в определенной последовательности, как

Сетевые модели
В сетевой модели данные представляются в виде записей, которые связываются друг с другом по некоторым правилам и образуют сеть (рис. 2.5). Данные в сетевой структуре равноправны. Примером

Основные функции СУБД
Существует большое количество программ, которые предназначены для структурирования информации, размещения ее в таблицах и манипулирования имеющимися данными – такие программы и получили название СУ

Реляционная модель данных
Одним из самых естественных способов представления данных является двухмерная таблица. С другой стороны, и связи между данными также могут быть представлены в виде двухмерных таблиц. Так, например,

Особенности СУБД Access
Приложение Access является реляционной СУБД, которая поддерживает все средства и возможности по обработке данных, свойственные реляционным моделям. При этом информация, которую необходимо хранить в

Термины реляционных СУБД
· Таблица - информация об объектах одного типа (например, о клиентах, заказах, сотрудниках) представляется в табличном виде. · Атрибут - хранится в поле (столбце) таблицы. Эт

Этапы проектирования Базы Данных
· Определить назначение БД. · Определить, какие исходные данные (таблицы) будет содержать БД. · Определить поля, которые будут входить в таблицы, и выбрать поля, содержащие уникал

В 2007 году компания

Cognitive Technologies представила новое ядро распознавания Cognitive Forms 2007 для IDR- технологии CogniDocs .

Генеральный директор Cognitive Technologies , член-корреспондент РАН Владимир Львович Арлазаров: появление IDR стало естественным шагом на пути развития технологий распознавания образов " от распознавания символов к пониманию документов" .

29.12.2009 Компания Cognitive Technologies предоставила права использования за вознаграждение компании «Яндекс» синтаксический анализатор , который позволяет определить, какими синтаксическими отношениями связаны слова предложения. Его использование для больших корпусов текста позволяет определять и изучать статистические закономерности языка (встречаемость слов и конструкций) при разрешении неоднозначностей (например «ключ упал на пол» и «в камнях забил ключ»), возникающих во время синтаксического разбора, а также при построении статистических моделей языка для распознавания слитной речи.

С интаксический анализатор позволяет проводить сравнение текстов на основе встречаемости в них различных слов и конструкций и разрабатывать методы понимания текстов, извлечения данных из текстов, а также другие приложения.

На основе синтаксического анализатора Cognitive Technologies создан ряд интеллектуальных программных продуктов, например системы определения авторства и стиля документа.

29.12.2009 Компания Cognitive Technologies показала свое умение решать классическую задачу "отличить кошку от собаки".

В 1967 году известный советский кибернетик Михаил Моисеевич Бонгард опубликовал книгу "Проблемы узнавания ", посвященную проблемам теории распознавания образов.

В ней был "Задачник для узнающей программы" – перечень из сотни задач распознавания ("тесты Бонгарда") которые легко решаются человеком, но не имеют чётких критериев для их описания в виде алгоритма.

Одной из этих задач и было – "отличить кошку от собаки", задача, которую любой ребенок, даже ещё не научившийся говорить, решает с полувзгляда.

Если вы захотите поиграться в вопросы-ответы на эту тему, то быстро обнаружите, что любая черта, характерная для кошачьих (или, наоборот, собак), не может служить однозначным и стопроцентным критерием для отличия во всех случаях. Убираемые когти? Кошка может их выпустить в любой момент, но от этого мы её с собакой не перепутаем. Вертикальный зрачок? Кошку с зажмуренными глазами мы также легко отличаем. И так далее.

Представители Cognitive заранее предложили всем желающим принести изображения кошек и собак на флэшках, и на компьютере, установленном в холле гостиницы, где проходила пресс-конференция, демонстрировали работу программы. Ни одной ошибки сделано не было – программа уверенно (с соотношением 30:8) определяла собаку даже на фотографии лохматого шпица.

Демонстрация эта, по словам представителей компании, была лишь иллюстрацией к решению общей задачи классификации изображений. Пока не существует программ, с достаточной для практического применения уверенностью решающих даже простейшие задачи такого рода: например, выделить все женские портреты из некоторой галереи, или ещё проще – найти из всех картин только пейзажи.

Все реально работающие системы поиска и классификации изображений сводятся главным образом к анализу текстового контекста (как в поиске Google по картинкам), а если и пытаются что-то распознавать (Face Search , Exalead и прочие), то по очень ограниченным критериям и с решительно недостаточной релевантностью результатов. Даже системы по элементарному поиску дубликатов одного и того же изображения нередко спотыкаются на простом изменении соотношения сторон при обрезке картинок. А про фиаско, которое потерпели системы выявления разыскиваемых лиц по изображениям, полученным от следящих видеокамер (вроде популярной некогда программы FaceIT ), пресса писала неоднократно .

Переоценить последствия от нахождения общей методики распознавания изображений и отнесения их к одному из заданных классов сложно. Это переворот не только в обычном поиске по картинкам в Сети, но и в криминалистике, в научных приложениях (в геоинформационных системах, в биологии, в медицине), в военной области. Так что можно лишь пожелать компании всяческих успехов в этом направлении. Но заодно стоит и предостеречь от необоснованного оптимизма: как известно, и задачу машинного языкового перевода ещё полвека назад полагали почти что решённой. А как это работает на практике и по сей день, мы все хорошо знаем...

Наименование параметра	Значение
Тема статьи:	Системы распознавания текстов (OCR-системы)
Рубрика (тематическая категория)	Технологии

Общая характеристика и функциональные возможности программы Adobe PhotoShop

PhotoShop - это программа профессиональных дизайнеров и всех, кто связан с обработкой графических изображений. Она позволяет производить обработку и коррекцию изображений, введенных в компьютер с внешних источников (сканера, цифрового фотоаппарата или цифровой видеокамеры), ᴛ.ᴇ. работает с растровой (оцифрованной) графикой.

PhotoShop имеет много готовых дополнений, предназначенных для создания спецэффектов, а также точнейшие инструменты ручной подстройки изображения.

Основными характеристиками PhotoShop являются:

1. Возможность создания многослойного изображения, при этом каждый слой может редактироваться отдельно и перемещаться относительно других слоев. Конечное изображение можно сохранить как в ʼʼмногослойномʼʼ виде (формат PSD), так и соединить все слои в один, переведя в один из стандартных форматов (JPG, GIF и др.)

2. Широкие возможности по работе с цветами: работа с разными цветовыми режимами (к примеру, просматривать и редактировать картинку можно как в режиме RGB, так и в CMYK); наличие инструментов для тончайшей регулировки цветов (причем параметры каждого цвета можно регулировать отдельно).

3. Внедренные возможности векторного редактирования.

4. Наличие нескольких десятков инструментов для рисования и вырезания контуров изображения, а также профессиональных инструментов для выделения и редактирования отдельных участков изображения.

5. Богатейшие возможности совмещения изображений и работы с текстурами.

6. Наличие множества разнообразных фильтров и спецэффектов (от простых, позволяющих настраивать резкость изображения, до весьма экзотических, позволяющих создавать 3-х мерные объёмные объекты из двухмерных фото, имитировать эффекты взрывов, сигаретного дыма и т.п.), возможность подключения дополнительных плагинов.

7. Поддержка файлов нескольких десятков графических программ, собственные файлы формата общего для платформ IBM PC и Mac.

8. Наличие инструментов для работы с текстом, возможность добавления текста в любой участок изображения (поверх картинки), изменения формы текста и др.

9. Возможность многоступенчатой отмены внесенных изменений (с помощью специальной панели ʼʼИсторияʼʼ).

Для получения электронной (готовой к редактированию) копии печатного документа программе OCR крайне важно выполнить ряд операций, среди которых можно выделить следующие:

1. Сегментация - полученная со сканера ʼʼкартинкаʼʼ разбивается на сегменты (текст отделяется от графики, ячейки таблиц разделяются на отдельные куски и т.д.).

2. Распознавание - текст переводится из графической формы в обычную текстовую.

3. Проверка орфографии и правка - внутренняя система проверки орфографии проверяет и корректирует работу системы распознавания (спорные слова и символы выделяются цветом, пользователю сообщается о ʼʼнеуверенно распознанных символахʼʼ)

В качестве примера OCR-систем можно привести CuneiForm от фирмы Cognitive и FineReader от ABBYY Software.

К примеру, FineReader Professional Edition (FineReader Pro) обладает следующими функциональными возможностями:

§ поддерживает почти двести языков (даже древние языки и популярные языки программирования);

§ распознает графику, таблицы, документы на бланках и т.п.;

§ полностью сохраняет все особенности форматирования документов и их графическое оформление;

§ для текстов, в которых используются декоративные шрифты или встречаются специальные символы (к примеру, математические), предусмотрен режим ʼʼРаспознавание с обучениемʼʼ, в результате работы которого создается эталон символов, встречающихся в тексте, для дальнейшего использования при распознавании;

Системы распознавания текстов (OCR-системы) - понятие и виды. Классификация и особенности категории "Системы распознавания текстов (OCR-системы)" 2017, 2018.

Любой современный человек, постоянно работающий с документами, время от времени задает себе злободневный вопрос: зачем повторно набирать текст, если ранее это уже кто-то сделал? У многих пользователей такая регулярно повторяющаяся задача вызывает раздражение с примесью обиды за то, что приходится бессмысленно дублировать чью-то работу. Естественно, разработчики программного обеспечения не могли остаться равнодушными к столь типичной ситуации, ликвидация которой к тому же обещала солидные прибыли. Так были созданы системы известные в России как системы оптического распознавания текста , а в англоговорящих странах - как OCR .

Сегодня область применения программного обеспечения OCR существенно расширилась: вначале оно применялось преимущественно в финансово-банковской сфере, решая специфические задачи автоматизации по вводу анкетных и опросных данных, но сегодня OCR -программы применяются уже повсеместно для работы с любыми документами. Трудно переоценить значение OCR-систем, превратившихся в такой необходимый софт и для офисного, и для домашнего компьютера.

Давайте кратко пройдемся по всем основным на рынке OCR -системам и выделим главные и характерные для них особенности.

Перед тем как начать рассмотрение OCR -систем, давайте сначала хотя бы минимально приведем их классификацию для удобства дальнейшего рассмотрения. На данный момент выделяют OCR -системы (Optical character recognition, OCR ) , а также ICR -системы (I ntelligent C haracter R ecognition, ICR ). Несколько упрощая суть отличий между ними, можно считать, что ICR -системы - это следующее поколение в развитии OCR -систем.В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR -системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов - каптч (captcha ). Третий, пока ещё только теоретический уровень качества распознавания текста, это IWR (Intelligent word recognition, IWR), в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются связные фразы целиком.

Существует несколько систем, причисляющих себя к категории ICR . Это, преждевсего, FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Давайте сравним их всех и рассмотрим возможные альтернативы.

Известные отечественные продукты

Зарубежные продукты

Три других известных продукта, получившие малое распространение на территории СНГ в силу полного отсутствия представителей и маломальского маркетинга на этих бескрайних кириллических территориях, но известные на Западе и достойные хотя бы краткого упоминания, хотя бы потому, что также позиционируют себя как продукты ICR-класса. В нише некириллического распознавания они вполне могут составить здоровую конкуренцию даже лидеру рынка - FineReader.

Первый их них, это пакет от компании I.R.I.S. Group, представляет собой очень серьёзный OCR -продукт. Достаточно сказать, что начиная с c ентября 2006 года технология от компании I .R .I .S . была лицензирована и используется в продуктах Adobe systems . Согласно внутреннему тестированию самой Adobe эта технология оказалось самой удачной из всех рассмотренных на рынке.

Нужно отметить, что это удачное стороннее решение “похоронило” свою собственную разработку Adobe - родного OCR -движка, - которая поставлялась многие годы в рамках решения , и вот теперь новый OCR Adobe доступен в виде отдельного в другие популярные продукты Acrobat . Последняя версия Readiris v12 поддерживает все версии Windows и MacOS X , а всего поддерживается работа с более чем 120 языками.

Следующая крупная разработка от американской компании - . Этот движок разработан в тесном сотрудничестве с Университетом Невада в Лас-Вегасе. Этот движок распространяется по миру сразу во многих формах, начиная от интегрирования его в крупные западные системы документооборота (D ocument I maging M anagement, DIM), и заканчивая участием во многих американских программах по автоматической обработке форм (F orms P rocessing S ervices, FPS).

Например, в 2008 году газета Los Angeles Times после собственного тестирования ведущих мировых OCR выбрала для своего внутреннего использования как раз именно TypeReader. Хочется заметить, что данный продукт доступен как в традиционном десктопном исполнении (Windows , MacOS , Linux ), в виде корпоративного web -сервиса, так и в форме облачного арендуемого приложения, способного обрабатывать любые объемы распознаваемого текста в очень короткие сроки.

Бесплатные OCR-решения

Интересный собственный движок развивает и Google . - это первоначально закрытый коммерческий OCR -движок который создала Hewlett -Packard , работая над ним в промежутке между 1985 и1995 годами. Но после закрытия проекта и прекращения его развития, HP выпустило его код как open source в 2005 году. Разработку сразу подхватила Google , лицензируя уже свой продукт под свободной лицензией Apache . На данный момент Tesseract считается одним из самых точных и качественных бесплатных движков из всех существующих.

Нужно при этом четко представлять, что Tesseract - это классическая OCR для “сырой” обработки текста, т.е. в нем нет ни графической оболочки для удобного управления процессом,ни многих других дополнительных функций. Это обычная консольная утилита (есть версии для Windows , MacOS , Linux ), на вход которой подается изображение в формате TIFF , а на выходе Tesseract выдает “чистый текст”. При этом никакого анализа компоновки текста или стилей оформления здесь не производится, это процесс распознавания в его простейшей форме.

Для большего удобства работы, в качестве графического фронтенда, с этим движком можно использовать многие утилиты, например известные или . Но все же хочется отметить, что качество бесплатного C uneiForm/OpenOCR немного превосходит показатели Tesseract , хотя во многом это полностью аналогичные продукты.

Кроме бесплатного Tesseract ещё стоит упомянуть и . SimpleOCR очень достойное решение для OCR , и хотя оно не развивается уже с 2008 года, но оно как минимум ничем не уступает Tesseract . Продукт бесплатен для любого некоммерческого использования, и поставляется для Windows всех версий. Из сильных минусов - поддержка только двух языков: английского и французского.

Кроме традиционных десктоповых бесплатных решений, существует множество альтернативных онлайновых сервисов, бесплатно предлагающих OCR качество распознавания существенно ниже их коммерческих аналогов. Для успешного решениябизнес задач (и других серьёзных повседневных задач) лучше ориентироваться на коммерческие системы ICR -класса, которые были рассмотрены в первой половине этой статьи.