Spolrussia.ru

Совершенствование управления персоналом

Автоматизация хранения и поиска документов

Важное значение для организации эффективного управления неструктурированными документами имеют методы хранения информации, навигации, поиска и анализа документов. Для этого ввод информации сопровождается классификацией документов путем задания атрибутов и ключевых слов, аннотированием их содержания. Для ускорения последующего контекстного поиска производится полнотекстовое индексирование документов.

Документы могут храниться просто в файловой системе, и при этом система каталогов служит средством группирования и навигации в хранилище документов. В современных операционных системах типа Windows есть возможность задания длинных имен каталогов и файлов в качестве названий лапок и документов, а также имеются соответствующие средства поиска файлов по их параметрам.

Ряд систем, основанных на электронной почте, хранят документы в почтовых ящиках в виде почтовых сообщений с присоединенными файлами. Навигация в хранилище упрощается с помощью вложенных папок личного и коллективного пользования (рис. 1.1). Однако в таких системах поиск и фильтрация ограничены лишь отбором и сортировкой документов по атрибутам и тексту почтового сообщения.

Рис. 1.1 Способы хранения и поиска документов

Многие современные системы электронных документов используют в дополнение к файловой системе так называемые библиотеки документов, содержащие в БД карточки документов с атрибутами и ключевыми словами. Для логической группировки документов применяются папки.

Поиск и фильтрация документов производится по запросам на основе контекстного поиска: по атрибутам, по ключевым словам и по полному содержанию текста на основе индекса. При использовании механизма четкого поиска в запросе не должно быть орфографических ошибок, а в тексте документа - ошибок распознавания.

На основе нейронных сетей и искусственного интеллекта реализована технология нечеткого поиска по полному содержанию документа. Нечеткий поиск не требует полного соответствия искомых фраз с содержимым документов, кроме того, исключает потребность в исправлении ошибок после распознавания текста. Система поиска всегда выдает пользователю ответ, наилучшим образом согласованный с терминами или фразами запроса.

В реляционных СУБД реализованы другие схемы хранения - текстовые и универсальные БД. Тексты документов хранятся в символьных полях переменной длины, расширенные средства SQL-поиска позволяют формировать смешанные запросы для поиска по атрибутам и контекстного поиска, а дополнительные функции обеспечивают обработку текста.

Распределенный гипертекст составляет основу широко внедряемой Web - технологии. Хранилище информации представляет собой совокупность гипертекстовых страниц, распределенных по узлам сети Internet или Корпоративной сети (Intranet). Каждая страница размещается в отдельном файле и представляет собой текст, размеченный с помощью языка HTML. Структуризация документа осуществляется путем форматирования, выделения полей, создания форм для диалогового заполнения документа и организацией внутренних гипертекстовых ссылок. Навигация по хранилищу гипертекста осуществляется с помощью внешних гипертекстовых ссылок URL на документы, расположенные на различных узлах сети (Web-серверах). Кроме того, для определения местонахождения документов служит контекстный поиск. Для ускорения поиска информации в Internet применяются специальные программы-роботы, сканирующие Web-сервера и строящие некое подобие индекса. Использование гипертекста позволяет создать информационную инфраструктуру территориально распределенного учреждения и упростить диалоговый интерфейс пользователя, что наиболее важно при разработке информационных приложений для руководителей.