Интеллектуальные системы

Интеллектуальные системы обработки текстовой информации на
естественном языке

Информация — это единственный ресурс, который человечество производит, а не потребляет. Большинство информационных артефактов создается людьми на естественном языке, в неструктурированном или слабоструктурированном виде. Анализ таких документов средствами автоматической обработки структурированных данных практически невозможен. А для автоматизации доступны лишь учётные функции, и функции анализа формальных свойств документов, все остальные задачи анализа должен выполнять оператор.

Для решения задачи автоматического анализа неструктурированной информации на естественном языке, необходимо реализовывать интеллектуальные системы, способные осуществлять смысловой анализ документов, сравнимый по качеству с результатами анализа человеком. Неотъемлемой частью таких систем безусловно, должна являться обширная база знаний, включающая как минимум описание естественного языка, и описания физических и иных закономерностей предметной области, в которой производится анализ.

Более десяти лет наша команда разработчиков занималась созданием различных систем, основанных на интеллектуальной обработке текстовой информации на естественном языке, таких как информационно-поисковые системы, системы авторубрицирования документов и системы автоматического перевода. Оказалось, что для построения реально применимых, а значит достаточно быстродействующих интеллектуальных систем, недостаточно разработать некий интеллектуальный модуль, необходимо переделывать практически все базовые компоненты, используемые при построении информационных систем, от баз данных, до механизмов поиска.

Это обуславливает довольно высокий порог технической проработанности интеллектуальной системы, достаточный для демонстрации конечному потребителю. Что в совокупности с необходимостью применения ещё и достаточно полного описания базы знаний, определило отсутствие подобных систем на рынке, и ситуацию, когда практически любое суррогатное дополнение в области анализа информации, претендует на перевод системы в статус интеллектуальной, хотя реальные преимущества часто весьма спорны.

Только некоторые крупные корпорации обладают интеллектуальными системами обрабатывающими неструктурированную информацию на естественном языке. Но такие решения практически не готовы к широкому применению и в большей степени являются имиджевыми. Они узконаправленные, основаны на особенностях только одного языка, используют огромное количество серверов для обеспечения работы одного пользователя с требуемой оперативностью.

На сегодняшний день нами разработаны основные компоненты, необходимые для построения информационных систем, основанных на интеллектуальном анализе информации на естественном языке: семантический решатель и лингвопроцессор, формат базы знаний, сами онтологические описания базового языка и некоторых предметных областей, записанные в этом формате, специализированное семантическое хранилище данных, специализированная лингвистическая поисковая система, основанная на особых поисковых индексах, и ряд других компонентов, существенно отличающихся от привычных аналогов. Разработанные компоненты позволяют создавать различные информационные системы, обладающие признаками интеллектуальности, обеспечивающими качественно новые возможности. Все разработанные компоненты достаточно производительны и соответствуют требованиям по вертикальному и горизонтальному масштабированию, что позволит создавать на их основе, как достаточно мобильные, так и высоко нагруженные системы, в зависимости от потребностей заказчика.

Перспективы применения возможностей лингвистической обработки при создании информационных систем

В таблице приведены основные характеристики некоторых функций доступных для информационных систем, создаваемых с применением разработанных компонентов.

Функция системыОсобенности реализацииОсновные преимущества
1 Лингвистический анализ текста документа Решаются следующие задачи:
- лексический анализ;
- сегментирование предложений;
- выделение структуры документа;
- морфологический разбор;
- синтаксический анализ;
- семантический пропозиционный анализ.
Используются онтологические описания естественного языка.
Учёт всех особенностей языка, в т.ч. попытка использования правил словообразования при анализе неизвестных словоформ (новые термины).
Интерпретация содержания документа в семантические графы концептуальных понятий, не зависящих от особенностей языка оригинала.
2 Обработка документов загружаемых в систему Преобразование документа в унифицированный формат.
Лингвистический анализ текста документа.
Выявление основных тематик документа.
Формирование поисковых индексов.
Выявление цитирования и смысловых дублетов.
Авторубрицирование и микроаннотирование документа.
Выявление метаданных документа по его содержимому.
3 Анализ информационного источника (исследование нового сайта) Лингвистический анализ информации на странице, определение тематик содержимого.
Лингвистический анализ сверхкоротких сообщений.
Формирование тематического профиля информационного источника и его метаописания.
Возможность не проводить анализ нецелевых веток информационного источника, на основании анализа названий их ссылок.
Возможность автоматического выявления и исключения из анализа содержимого нецелевых элементов страницы (рекламы).
4 Поиск информации в загруженных ранее документах Лингвистический анализ поискового запроса.
Поиск в индексах по концептуальным понятиям (результатам лингвистического анализа документов).
Определение тематик пула найденных документов, обеспечение фильтрации по темам.
Результаты поиска соответствуют смысловому описанию поискового запроса, учтены особенности естественного языка (отрицания, синонимы, омонимы, родовидовые отношения и т.п.).
Увеличение числа слов в поисковом запросе не увеличивает число результатов поиска (если дополнительные слова уточняют формулировку).
Возможность фасетной навигации по результатам поиска, как способ уточнения или обобщения поискового запроса. Фасеты формируются из:
- более общих рубрик классификации понятий поискового запроса;
- более детальных рубрик, классификации понятий в поисковом запросе, для которых найдены документы;
- рубрик, не связанных напрямую с поисковым запросом, но разделяющих найденные документы на крупные части.
5 Перевод текста документа на другой язык Лингвистический анализ текста документа, формирование графов концептуальных понятий, определение тематик.
Синтез текста документа на целевом языке, с использованием терминологии выявленных тематик оригинала, по графам концептуальных понятий.
Осмысленный перевод текста, с учётом специфики тематической терминологии.
Корректный перевод для языков различных структурных групп.
Добавление онтологических описаний дополнительного языка, автоматически позволяет выполнять разнонаправленный перевод с его использованием (нет необходимости формировать словари перевода на все другие языки).
6 Управление базой знаний Сбор сведений о встретившихся новых терминах.
Применение редактора онтологии для коррекции базы знаний.
Возможность поддержания актуальности базы знаний лингвистами, не связанными с разработчиками системы.
Возможность формирования наборов узкоспециализированных терминов и понятий, сотрудниками организации эксплуатирующей систему.
Возможность анализа полноты покрытия понятий для различных языков.

В обозримой перспективе могут быть разработаны компоненты для проведения автоматического фактологического анализа, который позволит связывать воедино смысловые конструкции из разных частей документа (разных документов), что приведет к возможности создания вопрос-ответной системы.

Вторым перспективным направлением является разработка новых и модификация имеющихся компонентов, для обеспечения обработки изображений, на тех же принципах, что и извлечение смыслового содержания из текста.