Интеллектуальные системы

Доступ к данным разнородных информационных источников

Наличие доступа к большому количеству информационных источников информации, не означает, что пользователь сможет получить из них необходимые сведения. В первую очередь это связано с разнородностью самих информационных источников, и сложностями изучения правил работы с каждым конкретным информационным ресурсом. Кроме того, необходимые пользователю сведения зачастую могут быть получены только путём обобщения информации из нескольких источников информации.

Для предоставления пользователям доступа к данным содержащимся в разных информационных источниках, применяется два основных подхода: сбор данных в единое хранилище, к которому предоставляется доступ пользователям, и обобщение структур данных в некой метамодели, работая с которой пользователи получают доступ к реальным источникам данных. Каждый из подходов имеет свои преимущества и недостатки, а также свои трудности. Можно говорить, что за исключением некоторых частных случаев, сильно упрощающих постановку задачи, на сегодняшний день нет подобных систем, которые бы удовлетворяли потребности пользователей.

Более десяти лет наша команда разработчиков занималась созданием различных систем, основанных на интеллектуальной обработке текстовой информации на естественном языке, таких как информационно-поисковые системы, системы авторубрицирования документов и системы автоматического перевода. Оказалось, что для построения реально применимых, а значит достаточно быстродействующих интеллектуальных систем, недостаточно разработать некий интеллектуальный модуль, необходимо переделывать практически все базовые компоненты, используемые при построении информационных систем, от баз данных, до механизмов поиска.

Разработанные нами компоненты позволяют снять некоторые недостатки и упрощает решение ряда задач создания и поддержки работоспособности систем доступа к данным разнородных информационных источников.

При анализе каждого информационного источника производится лингвистический анализ его документов (страниц), названий его структурных элементов и названий гиперссылок, на основании чего формируются смысловые поисковые индексы для документов, или структурно-тематический портрет информационного источника, в зависимости от используемого системой подхода.

Лингвистический анализ текстов документов позволяет выявлять его тематическую направленность, сформировать смысловые описания выражений документа, и построить поисковые индексы по смысловым описаниям.

Лингвистический анализ названий структурных элементов информационного источника и названий гиперссылок, позволят делать выводы о смысловом назначении разделов, заложенных создателями информационного источника. Эта информация используется как вспомогательная, для дополнения структурно-тематического портрета информационного источника, позволят не загружать все документы из разделов, которые не могут соответствовать заданию по сбору информации определенной направленности, позволяет оперативно отслеживать изменения в структуре информационного источника.

Использование этих возможностей, при построении систем предоставляющих доступ пользователям к информации из большого числа разнородных источников информации, позволяет:

  • - выполнять автоматическое подключение нового информационного источника;
  • - автоматически контролировать и учитывать изменения в структуре информационного источника;
  • - автоматически формировать смысловое описание структуры информационного источника и тематического описания его разделов;
  • - предоставлять пользователю возможность выбора тематик документа как параметра фильтрации результатов поиска;
  • - улучшить временные показатели по предоставлению результатов пользовательских запросов.