Интеллектуальные системы

Интеллектуальные информационно-поисковые системы

Поиск информации в хорошо структурированных данных относительно легко реализуется и даёт точные результаты, но только если пользователь сможет так же хорошо структурировано сформулировать поисковый запрос.

Если пользователь не является профессионалом, способным использовать специальный язык формулирования запросов (например SQL), или сами данные не структурированы, а в большинстве случаев верны сразу оба утверждения, то поиск информации становится достаточно сложной задачей, и не гарантирует точных результатов.

Современные системы полнотекстового поиска по документам (как основной форме представления неструктурированной информации) позволяют находить фрагменты документов, которые содержат слова из поискового запроса. Эти системы позволяют находить именно совпадение слов, а при ранжировании результатов поиска могут учитывать только некие статистические показатели, а не смысловую близость найденных документов к поисковому запросу. Несмотря на предпринимаемые усилия по доработке механизмов поиска по словам, направленные в основном на обработку каких-то особенных случаев, выдаваемые результаты поиска редко удовлетворяют потребности пользователей. Зачастую на поиск нужной информации пользователи должны потратить очень много времени, перебирая разные формулировки поисковых запросов и просматривая большое количество результатов поиска, практически без гарантии на получение искомого, и при том существующего документа.

Для качественного улучшения результатов решения задачи поиска информации создаваемой людьми, и по поисковым запросам составляемым обычными людьми на естественном языке, поисковая система должна быть способна формировать из текста смысловые конструкции и сравнивать их.

Компоненты лингвистического анализа обеспечивают формирование и обработку смысловых образов текстовых выражений на естественном языке, в виде графов концептуальных понятий. Такая форма фиксации смыслового содержания выражений позволяет формально описать значения терминов и особенности связей между ними в выражении (предложении), и обеспечивает возможность корректной обработки смысловых конструкций при решении задач поиска и сравнения. При обработке текстовой информации учитываются синонимы, омонимы, родовидовые отношений, многократные отрицания и прочие особенности естественного языка, которые хранятся в онтологических описаниях системы.

Загружаемые в систему документы проходят лингвистическую обработку, при этом производится формирование смыслового описания текстовых выражений (предложений), определение тематик документа (авторубрицирование), формирование семантических поисковых индексов по смысловому описанию документа.

При обработке поискового запроса пользователя производится лингвистический анализ поискового запроса, для выявления его смыслового описания и определения темы, на основании чего производится подбор документов по советующим темам и с похожими смысловыми высказываниями. При предъявлении первой порции результатов поиска, дополнительно пользователю может быть предложен перечень тем найденных документов, а также смысловое и тематическое описание его поискового запроса, что позволит пользователю эффективно уточнить поисковый запрос или дополнительно отфильтровать найденные документы по темам.

Найденные в результате смыслового поиска документы не обязаны содержать такие же слова, из которых составлен поисковый запрос, важно именно смысловая близость запроса и найденного фрагмента. Например, по запросу «глава подразделения» будут найдены фрагменты «начальник цеха», «директор департамента фирмы», «командир батальона», и не будут найдены фрагменты «Глава 2: Управление подразделением» или «мэр города» (так как город на может быть частью организационно-штатной структуры).

Ранжирование результатов поиска может выполняться в соответствии со смысловой близостью найденных в документах фрагментов к смысловому описанию поискового запроса. При этом, фрагменты использующие более общие понятия, или синонимы, будут представлены ниже чем более точное соответствие поисковому запросу.

Разработанные компоненты позволяют создавать интеллектуальные информационно-поисковой системы, сравнимые по быстродействию с привычными системами полнотекстового поиска, в то же время позволяют избавиться от важнейших недостатков поиска по словам и не требует от пользователя системы овладения каким-либо специальным языком формулирования запросов.