Image Image Image Image Image Image Image Image Image Image

Интересное о компьютерах | Сегодня: Понедельник, 18 декабря 2017 года

Scroll to top

Top

No Comments

Распознавание документов Cognitive ScanPack - Интересное о компьютерах

В настоящее время основными задачами , которые необходимо решить для усовершенствования процесса оцифровки бумажных документов, являются снижение требований к качеству бумажного оригинала, повышение скорости обработки полученной информации и экономному хранению электронных образов. Компания Cognitive Technologies для их решения разработала технологию Cognitive ScanPack. Она позволяет осуществлять пакетное сканирование и сжатие изображений документов. Кроме того, в результате использования новых алгоритмов анализа изображений расширился круг качественно распознаваемых документов и обеспечилось их сохранение в виде pdf-файлов, имеющих объем, в 4—10 раз меньший, чем у файлов в популярных графических форматах JPEG и др.
Технология Cognitive ScanPack позволяет не только распознать текст на подобных документах, но и сохранить их в небольшом объеме для последующего воспроизведения в электронном виде.

Общие сведения о Cognitive ScanPack
Казалось бы, выгода от электронной формы представления материалов очевидна. Прежде всего, она поддерживает более высокую степень доступа пользователей к фонду документов, избавляет от заботы по хранению оригиналов, а также обеспечивает возможность многопользовательской работы и удаленный доступ, что принципиально невозможно при обычной организации функционирования документооборота. Однако до сих пор масса текстов представлена на бумаге, так что для перевода в электронную форму их надо сканировать. При этом плохое состояние оригинала накладывает ограничения на скорость сканирования и качество получаемых образов, а также может негативно сказываться на памяти, требуемой для хранения. Решение ScanPack улучшает эти показатели благодаря применению фирменной технологии Cognitive PDF/A структурного представления документов, опирающейся на стандарт ISO 19005-1:2005, для их долговременного хранения. При ее использовании отсканированный документ преобразуется в два вида структурных слоев — текстовый и графический.
Они порождают специальные файлы, подвергающиеся собственным видам обработки по фирменным алгоритмам. Так, текстовые файлы сканируются с помощью программы распознавания с ядром CuneiForm. Графические слои формируются в виде файлов в формате PDF/A, которые соответствуют образам иллюстраций, печатей, подписей и т.п. Заканчивается обработка сборкой слоев в электронный образ документа в виде pdf/a-файла.

Особенности алгоритмов обработки
Для получения высокого качества электронных копий разработчики ScanPack уделили большое внимание описанию слоев документов. Это позволило с большой детальностью формализовать представление различных слоев, а затем и применить интеллектуальные алгоритмы в программах их обработки, чтобы достичь одновременно высокой точности и степени сжатия файлов, образующих слои документа. Так, еще на стадии расслаивания документа предусмотрена типизация информации из него, позволяющая выбирать наиболее подходящие алгоритмы обработки. Например, идентификация текстовой и графической части страницы приводит не только к возможности детального учета параметров текста, включая его шрифтовые, цветовые и другие особенности, но и к топологии, сохраняя связи с графикой страницы и подготавливая сжатие файлов слоев. Более того, учет различий в параметрических описаниях страниц документов позволяет выстраивать в алгоритмах обработки свои цепочки операций, что интеллектуализирует технологический процесс перевода документа в электронную форму. В частности, применение к текстовой части ядра Cognitive CuneiForm на базе нейронных сетей дает возможность работать как со шрифтовыми, так и со шрифтонезависимыми алгоритмами. Для увеличения коэффициента компрессии текстовые и графические файлы сжимаются по-разному. Вследствие важности информации текстовой части документа соответствующие слои сохраняются с разрешением исходного документа, для чего используется алгоритм кодирования без потерь — CCITT Group 4, а для графических слоев производятся приведение к разрешению 100 тнд и кодирование алгоритмом JPEG.
После этого наступает завершающая фаза оцифровки документа. В ходе ее все файлы распознанного текста и графических слоев сохраняются в формате PDF/A.

Возможности технологий:

Автоматическая идентификация документа

  • Без ручной сортировки;
  • Распознавание видов документов в пачке на этапе сканирования;
  • Не требуется нанесения реперных элементов на документ.

Выравнивание изображение документа

  • Выравнивание изображения документа на углы ±12 градусов;
  • Повороты изображения на углы, кратные 90 градусам;
  • Зеркальное отображение изображения документа.

Обработка изображения

  • Снятие цветного фона, как всего документа, так и его отдельных частей;
  • Удаление цветных печатей с изображения документа;
  • Снятие гербового фона документа.

Распознавание документов низкого качества

  • Обработка ксерокопий документов и факсов;
  • Удаление бликов ламинарной пленки и следов от изгибов бумажного документа.

Несколько документов за один проход сканера

  • Идентификация документа на изображении;
  • Определение размеров, границ и ориентации документа на изображении;
  • Распознавание нескольких документов за один проход сканера.

Идентификация стиля заполнения документа

  • Печатный текст (OCR);
  • Рукопечатный текст (ICR);
  • Метки/Чекбоксы (OMR);
  • Штрихкоды, одномерные и двумерные.

Архивирование документов в формате PDF/A

  • Компактное сжатие — объем архивных данных уменьшается в 4-10 раз;
  • Максимальное качество изображения при минимальном объеме файла;
  • Гарантия воспроизведения документа через несколько лет.

Основные модули программы:

Система Cognitive Forms состоит из нескольких модулей, каждый из которых выполняет свою работу на отпределенном этапе автоматизации ввода, от подготовки документа и его сканирования до взаимодействия с внешними информационными системами и администрирования всего кмплекса ввода.

Благодаря модульной архитектуре каждый этап ввода (сканирование, обработка изображений, распознавание, верификация и экспорт) можно с легкостью масштабировать, увеличивать производительность за счет увеличения колличества модулей.

CF ScanPack — сканирование пакетов документов
Модуль CF ScanPack предназначен для сканирования пакетов документов. Пакет пропускается через сканер. Образ каждой отсканированной страницы представляет собой отдельный файл.
Все файлы одного пакета записываются на диск в одну директорию. Имя пакета формируется в соответствии с настройками конфигурации.
Удобный пользовательский интерфейс позволяет настроить режим сканирования, разрешение, размер сканируемых страниц и прочие параметры ввода.

CF AutoScan — автоматическое постраничное сканирование
Модуль CF AutoScan реализует постраничное сканирование. После запуска приложения процесс сканирования начинается автоматически, как только в лотке сканера появляется страница. По завершению сканирования страницы создается файл в формате TIFF. Файл размещается в директории, указанной в настройках модуля.
Приложение позволяет настроить режим сканирования, разрешение, размер области сканирования и прочие параметры работы.

CF Processor — сервер распознавания
Модуль Сервер Распознавания (CF Processor) предназначен для автоматической обработки отсканированных документов. В процессе обработки определяется тип документа, находятся поля ввода, распознается содержимое полей. Вся работа сервера протоколируется.

CF Editor — верификация оператором
Модуль Верификатор (CF Editor) предназначен для обработки результатов распознавания. Распознанные данные подвергаются перекрестному и логическому контролю. Сомнительные и ошибочные поля подсвеченными предъявляются оператору для подтверждения или редактирования. Поля предъявляются одновременно с фрагментом графического образа документа. Подключенные справочники и словари облегчают работу оператора по верификации.

CF Designer — создание электронных форм документов
Модуль CF Designer предназначен для создания электронных форм документов. Электронная форма содержат полный список элементов документа. В списке указаны свойства каждого элемента – его тип, расположение и геометрические размеры. Для таких элементов, как чекбоксы и поля ввода, дополнительно указаны правила их заполнения.
Форма может быть создана с чистого листа. Элементы друг за другом прорисовываются на форме либо копируются с других ранее созданных форм.
Второй вариант создания электронной формы — это создание “под кальку” с бумажного документа.
При сохранении в формате pdf форма может быть использована как макет бланка для тиражирования. При сохранении во внутреннем формате системы Cognitive Forms форма используется в качестве шаблона на этапе распознавания документа.

CF Wizard — мастер логических проверок
Модуль Мастер Логических Проверок (CF Wizard) является удобным визуальным инструментом для добавления в электронный шаблон описания логических проверок и правил заполнения полей документа. Правила и проверки могут быть выбраны из списка стандартных, реализованных в модуле, или созданы пользователем самостоятельно программными средствами Visual Basic, C++ или прочее.
Если результат распознавания не удовлетворяет правилам заполнения или итог логической проверки отрицательный, то на этапе верификации оператор будет об этом проинформирован, а на экране указана причина ошибки. Форма сообщения об ошибке задается в модуле.

CF Monitor — контроль за состоянием документов
Модуль Монитор Оператора (CF Monitor) предназначен для контроля за текущим состоянием документов, проходящих по цепочке потоковой обработки документов.
Каждый из модулей системы в момент начала и завершения этапа обработки документа регистрирует это событие для Монитора Оператора. В результате в окне Монитора отображается список документов, пропущенных через сканер, и для каждого документа указывается его текущее состояние — “отсканирован”, “распознается”, “распознан”, “проверяется”, “проверен”. Если на каком-либо из этапов обработки документ отбракован, это также отражается на Мониторе Оператора с указанием причины отбраковки.
Если мониторинг производят несколько операторов, то каждый оператор наблюдает за состоянием только тех документов, информация о которых попадает в его директорию мониторинга.

CF Administrator — общее управление
Каждый из модулей, входящих в состав технологической цепочки ввода и обработки документов, может иметь свой список пользователей. Модуль Администратор (CF Administrator) формирует списки пользователей для каждого из модулей системы, устанавливает индивидуальные пароли, а также определяет маршрут движения документа по этапам обработки для каждого конкретного пользователя.

CF Statistics — создание отчетов
Модуль Формирования Статистики (CF Statistics) предназначен для создания отчетов о работе системы и состояниях обрабатываемых документов. Статистическая информация формируется на этапах сканирования, потоковой сортировки и распознавания, обработки отбракованных пакетов, верификации, интеграции с внешней информационной системой.

Видеообзор программы:

Теги: