Полнотекстовые документальные базы данных и документальные информационно поисковые системы

Термин «база данных» можно определить как совокупность взаимосвязанных данных, обработка, поиск и хранение которых осуществляется при помощи ЭВМ. При этом данные структурированы и относятся к определенной предметной области.
По характеру обрабатываемой информации различают документальные и фактографические базы данных. Фактографические базы данных оперируют фактическими сведениями, представленными в виде специальным образом организованных совокупностей формализованных записей данных. Документальные базы данных содержат сами документы. Выделяют полнотекстовые, библиотечные и реферативные документальные базы данных. Таким образом, основным элементом фактографической базы данных является факт, а документальной базы данных – документ.
Полнотекстовые документальные базы данных содержат тексты документов, а зачастую и их графические образы. В организациях подобные базы данных создаются, как правило, в результате внедрения автоматизированных компьютерных технологий в документационное обеспечение управления. В основе большинства существующих автоматизированных систем ДОУ лежат технологии управления базами данных. Переход на электронный документооборот, таким образом, предполагает создание базы данных, включающей в себя полностью или частично документальный массива организации.
Большое распространение получили также полнотекстовые базы данных, содержащие документированную информацию по определенной теме. Например, правовые, учебные, энциклопедические и т.п. Такие базы данных часто являются коммерческими продуктами. Наиболее востребованы среди них правовые базы данных, которые содержат законодательные и нормативные документы.
Основным назначением любых баз данных является хранение информации и организация быстрого и удобного доступа к ней. Специальный поисковый инструментарий позволяет даже в огромных по масштабам базах данных найти необходимую информацию. А современные технологии распределенного доступа позволяют одновременно работать с одними и теми же документами нескольким пользователям.
Таким образом, любая база данных, по сути, представляет собой информационно-поисковую систему (ИПС), то есть упорядоченную совокупность документов (фактов) и информационных технологий, предназначенных для хранения и поиска информации.
Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим представлением пользователю подмножества этих документов или их копий. Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных. Например, на запрос «какова скорость света» в документальной ИПС будут выданы статьи и книги, в которых говорится о скорости света, и, возможно, содержится ответ на поставленный вопрос, в фактографической же системе в той или иной форме будет выдано сообщение о том, какова она («Триста тысяч километров в секунду»).
В документальных системах анализируется и описывается, «о чем говорится в документе», а в фактографических – «что именно сообщается в документе». Соответственно, следует различать два типа запросов: документальные («Найти документы, в которых говорится о скорости света») и фактографические («Найти, какова скорость света»).
В состав информационно-поисковой системы входят:
1) информационные массивы (документы, запросы, метаданные);
2) логико-лингвистический аппарат, включающий информационно-поисковый язык (ИПЯ), правила его использования и критерий смыслового соответствия, а также некоторые другие лингвистические средства;
3) вычислительные средства, обеспечивающие реализацию функций системы (программы, компьютеры);
4) средства, обеспечивающие ее эксплуатацию (персонал, инструктивно-методические материалы и т.п.).
ИПС в этом составе называют конкретной (рабочей) ИПС.
В документальных ИПС обычно содержатся два типа документов – первичные и вторичные. К первичным относят документы, содержащие информацию, исходящую от автора. К вторичным – документы, являющиеся результатом аналитико-синтетической обработки одного или нескольких первичных. В ИПС в качестве вторичных документов выступают поисковые образы документов (ПОД). Они являются результатом индексирования – записи основного содержания документа на специальном информационно-поисковом языке.
Вторая часть информационного обеспечения ИПС – это запросы. Запрос представляет собой информационную потребность, сформулированную на естественном языке. Однако собственно поиск осуществляется с помощью поискового образа запроса (ПОЗ), который тоже является результатом индексирования – «перевода» информационного запроса на информационно-поисковый язык.
Третья часть информационного обеспечения – так называемая «выдача», результаты поиска. Выдача существует в двух видах: краткое описание документов и собственно документы.
Важно понимать, что поиск, выполняемый ИПС, является чисто формальной компьютерной обработкой данных по заданной программе. Какой бы то ни было сущностный смысл в заданный системе вопрос и полученный от нее ответ вкладывает пользователь.
Помимо деления ИПС на документальные и фактографические существует еще ряд классификаций.
По степени автоматизации информационных процессов различают ручные, механизированные и автоматизированные ИПС. Документальные базы данных представляют собой автоматизированные ИПС.
ИПС различают в зависимости от режима работы. Режим запрос-ответ предусматривает разовые запросы, поиск по которым проводится, как правило, во всем накопленном массиве документов, который называют ретроспективным. Поиск в режиме избирательного распространения информации – это поиск в массиве новых поступлений документов по постоянным (действующим в течение определенного срока) запросам.
С точки зрения взаимодействия человека и компьютера различают пакетный и диалоговый режим поиска. Поиск в пакетном режиме выполняется автономно, без участия человека. Диалоговый поиск предполагает, что в процессе поиска фиксируются те или иные промежуточные результаты и по ходу решения задачи человек ведет с компьютером диалог – то есть принимает некоторые решения, уточняющие запрос или стратегию поиска.
По способу хранения информации системы делятся на одноконтурные и двухконтурные. Под «первым контуром» имеют в виду хранящиеся в машине поисковые образы документов. Сами документы – «второй контур» — хранятся вне машины, в привычном бумажном виде или на микроносителях (микрофильмы, микрофишы). В последнее время встречаются одноконтурные ИПС, когда и поисковый, и документальные контуры содержатся непосредственно в компьютере и поиск заканчивается выдачей полных текстов документов. В то же время глобальные ИПС сети Интернет – типичные двухконтурные системы, хотя оба контура представлены в электронном виде: вначале пользователь проводит поиск в базе данных ИПС, получает список найденных документов с ссылками на их сетевые адрес, обратившись по которым он может получить сам документ.
Подводя итог, следует подчеркнуть, что современные документальные ИПС представляют собой сложнейшие программные комплексы, для которых характерно использование гипертекстовых сетевых технологий и специальных языков представления электронных документов; видовое, тематическое и языковое разнообразие информационных массивов; ориентация на полнотекстовый поиск; глобальный масштаб. Очевидность преимуществ поиска необходимой информации привела к тому, что документальные базы данных (документальные ИПС) в настоящее время находят самое широкое применение во всех отраслях современного общества.

Ссылка на основную публикацию
Adblock
detector