Технология сканирования документов и программные средства для оптического распознавания текста

В конце 1980-х – начале 1990-х гг. возникли и начали интенсивно развиваться новые технологии, которые успешно используются в современных системах автоматизации документооборота. Среди них можно назвать технологии сканирования документов и оптического распознавания символов.
Сканирование представляет собой процесс перевода данных с физических источников в электронный вид с помощью специального оборудования – сканеров. Бумажные документы, проходя сканирование, превращаются в файлы или объекты баз данных. Пользователь, таким образом, получает все преимущества электронной обработки данных.
По характеру использования в деловом технологическом процессе сканеры документов принято подразделять на:
• Персональные: ручные и страничные.
• Настольные офисные модели среднего класса.
• Производственные скоростные.
Страничные сканеры обеспечивают устойчивый ввод одиночных страниц, обычно, небольшого объема. От них требуется компактность (страничные сканеры устанавливаются часто между клавиатурой и системным блоком), приемлемое быстродействие (3-10 документов в минуту), простота интерфейса, невысокая цена. С их помощью служащий имеет возможность быстро, не задерживая посетителя, отсканировать принесенные им бумаги, и перейти к выполнению других офисных работ.
Настольные офисные сканеры документов обычно допускают сканирование с планшета или с использованием интегрированного устройства автоподачи документов. На планшетных настольных сканерах можно сканировать неразброшюрованные документы, книжные страницы, документы нестандартного размера или полиграфического исполнения.
Сканеры производственной группы должны безотказно работать на самых ответственных участках высокопроизводительных технологических процессов ввода и регистрации больших объемов бумажных документов. К ним предъявляются повышенные требования в части надежности отдельных элементов оборудования, устойчивости сканирования листов разной плотности, удобству управления устройством в условиях интенсивного сканирования потока документов. Быстродействие производственных сканеров при сканировании одной стороны листа достигает 400 и более страниц в минуту. Устройства обычно выполняются в прочных металлических конструкциях. Отдельную группу образуют компактные скоростные сканеры для ввода однородных малоформатных документов (чеков, квитанций, авиабилетов), изготовленных на специальной бумаге.
Выбор моделей зависит от масштабов и особенностей деятельности организации. Эпизодическое изготовление электронных копий, небольшие объемы документов и т.п. позволяют обойтись недорогими персональными сканерами на одном или нескольких рабочих местах. Безостановочное сканирование огромного количества документов (десятки и сотни тысяч документов в день) требует внедрения скоростных производственных сканеров.
Краткий перечень ключевых технических характеристик сканеров, принимаемых во внимание при организации сканирования документов, включает:
• Скорость ввода. В технических спецификациях скорость сканирования приводится в страницах в минуту (ppm, pages per minute), для сканеров двустороннего сканирования — в числе изображений в минуту (ipm, images per minute).
• Разрешение. Как правило, текстовые документы стандартного неослабленного полиграфического качества сканируют с разрешением 200 dpi. Повышенный уровень разрешения (300 dpi) можно установить, если необходимо распознавать текст, напечатанный мелким шрифтом. Для ввода фотодокументов (или документов с фотофрагментами), не предназначенных для последующего воспроизведения на качественном полиграфическом оборудовании, сканируют в режиме 300-400 dpi.
• Допустимые форматы сканируемых документов. В краткой форме технических спецификаций указывается максимальный формат вводимых документов (например, A3), в более подробных — набор форматов документов, допускаемых при сканировании с применением различных видов подачи бумаги (ручная подача, лоток автоподачи, планшет и т.п.).
• Требования к сканируемому материалу. Например, требования к качеству бумаги и т.п.
• Дополнительные возможности и вспомогательные устройства. Например, светофильтры или цветные лампы для подавления цветного фона сканируемых оригиналов, отдельные лотки автоподачи для документов увеличенного (уменьшенного) размера или для более тонких документов, педальные устройства управления сканером, освобождающие руки оператора, считыватели штрих-кодов или специальных кодов разделения пакетов и т.п.
В процессе сканирования используется специальное программное обеспечение, которое, как правило, поставляется в комплекте со сканирующим устройством и призвано обеспечить оптимальное управление сканированием.
Отсканированный документ представляет собой графический образ документа – графический файл определенного формата. Подобный документ нельзя редактировать. Это становится возможным после осуществления процедуры распознавания. Оптическим распознаванием (Optical Character Recognition, OCR) называются технологии, превращающие бумажные документы с печатным текстом в редактируемые электронные файлы.
Современные системы оптического распознавания символов ( optical character recognition , OCR ) могут быть условно разделены на две категории. Собственно OCR-системы решают ставшую классической задачу распознавания печатных символов, нанесенных на бумагу при помощи принтера, плоттера или пишущей машинки. То есть, документ с печатным текстом сканируется, затем его «фотография» поступает в систему распознавания, которая и превращает его в документ с редактируемым текстом.
Кроме того, выделяют класс ICR-систем (intelligent character recognition), в задачи которых входит обработка документов, заполненных печатными буквами и цифрами от руки, или, иначе говоря, распознавание рукопечатных символов. Наиболее часто данная технология используется для распознавания отдельно написанных рукописных символов в так называемых машиночитаемых (жестких) формах. Например, формы налоговой декларации, анкеты, бланки заявлений, результаты тестов и проч.
Преобразование изначального документа выполняется OCR-системами поэтапно: сканирование и предварительная обработка изображения, анализ структуры документа, распознавание, проверка результатов, затем производится реконструкция (воссоздание исходного вида) документа, и экспорт.
Обработка документа начинается с получения графического образа (изображения) страницы. Современные OCR-системы поддерживают оба основных способа получения изображений, из файла и от сканера.
Анализ и предварительная обработки изображения включает две основные задачи: во-первых, подготовить изображение к процедурам распознавания, во-вторых, выявить структуру документа – с тем, чтобы в дальнейшем иметь возможность воссоздать её в электронном виде.
Прежде, чем приступить к структурированию страницы, выделению и идентификации блоков, OCR-система производит бинаризацию, то есть преобразование цветного или полутонового образа в монохромный
После этого анализируется структура страницы, то есть выделяется несколько иерархически организованных логических уровней. Объект наивысшего – собственно страница, на следующей ступени иерархии располагаются таблица, текстовый блок и картинка, и так далее.
Собственно распознавание символов представляет довольно сложную процедуру, предполагающую создание целого списка гипотез и его дальнейшую обработку.
На выходе пользователь получает распознанный текст, который можно экспортировать в выбранный формат – doc, txt, rtf и т.д.
На российском рынке систем оптического распознавания лидирует продукт компании ABBYY Fine Reader. По разным оценкам он занимает от 85% до 96% розничных продаж систем распознавания. Остальные системы занимают очень небольшие доли рынка, и фактически, не продаются.

Ссылка на основную публикацию
Adblock
detector