Интеллектуальные системы

Системы автоматического осмысленного перевода текстов

Системы автоматического перевода начали развиваться в середине ХХ века, и в настоящее время распространенные системы представлены двумя типами решений, пословный перевод и статистический перевод.

Пословный перевод используется в автономных настольных и мобильных приложениях, характерен тем, что переводит отдельные слова и некоторые устоявшиеся словосочетания, при этом учитываются только самые распространенные значения слов. Пользователю может предоставляться возможность выбора дополнительного словаря определенной направленности, обычно профессионального, который заменяет наиболее распространенный перевод некоторых слов, значением, которое обычно используется в выбранной узкоспециальной тематике. Причем, весь текст целиком переводится либо с одним набором специализированных словарей, либо с другим, в зависимости от выбора пользователя. Если в одной части текста некоторое слово использовано в общебытовом смысле, а в другой части текста, в некотором узкоспециальном, то перевод этого слова скорее всего будет одинаковым в обоих случаях.

Второй негативной особенностью пословного перевода является то, что при анализе оригинального текста используются только самые общие правила языка, именно это позволяет системе выбирать один из вариантов перевода слова. Такое упрощение сокращает количество используемых для каждого слова значений (обычно не более трех значений), и позволяет формировать текст перевода более или менее правильно, с точки зрения правил языка перевода, с сохранением относительной компактности словарей. Текст перевода достаточно часто получается неуклюжим, не похожим на текст изначально составленный на этом языке, а в большей степени похожим на то как формируются предложения и обороты на языке оригинального текста. Этот эффект менее заметен для технических и формально-деловых текстов, и заметен в большей степени для художественной литературы.

Вследствие значительных отличий в упрощенных правилах перевода с одного языка на другой, для каждой пары языков используется два однонаправленных словаря. Это значит, что для перевода между тремя языками нужно иметь 6 словарей, а для перевода между 4 языками – уже 12 словарей. Кроме того, качественные словари такого типа можно получить только для родственных языков, которые грамматически, синтаксически и лексически достаточно похожи. Поэтому для многих пар языков не существует словарей для автоматического перевода текстов, а для получения хоть какого-то перевода между ними используется транзитный перевод на промежуточный язык, но в этом случае о качестве перевода говорить не приходится.

Статистический перевод использует заведомо правильные и качественные переводы предложений из текстов на разных языках. Это позволяет получать более правильные переводы в привычном для языка перевода формате. Намного чаще правильно передается стилистика и узкоспециальная терминология. Необходимость использования огромного числа правильных переводов, ограничивает применение этой технологии только в качестве онлайн-переводчиков, без возможности автономного использования.

Однако на практике не все предложения оказываются в базе правильных переводов, тогда производятся поиск статистического перевода для отдельных фраз, а недостающие фрагменты переводятся по методу пословного перевода.

Важным для качества перевода является правильный выбор тематической и стилистической направленности текста оригинала, что бывает сложно сделать из-за того что предложения, из которых составлен оригинальный документ, могут содержаться в разных тематических и стилистических разделах базы правильных переводов.

Качество статистического перевода зависит от числа парных текстов в базе правильных переводов, поэтому подобные системы со временем могут повышать качество перевода. Источником документов правильно переведенных на разные языки часто служат официальные документы и всевозможные инструкции, поэтому именно деловые, технические и прочие формальные тексты переводятся боле корректно.

Если для какой-то пары языков в базе данных правильных переводов не содержится достаточно много парных документов, то перевод текстов между этими языками методом статистического перевода оказывается практически не осуществимым.

Другим недостатком является то, что при пополнении базы правильных переводов могут добавляться предложения, в которых какое-то обычное слово должно переводиться необычным образом, или является именем собственным, тогда и в других случаях это слово часто будет переводиться точно так же, вместо своего традиционного значения.

Разработанные нами компоненты лингвистической обработки текстовой информации позволяют создавать интеллектуальные системы автоматического перевода, лишенные большинства недостатков распространенных сегодня систем автоматического перевода.

Наиболее важным отличием является то, что при анализе текста оригинала не производится непосредственно его перевод на другой язык, и не используются словари перевода с одного языка на другой. Система производит лингвистический анализ оригинального текста, при этом формируется его смысловое описание в терминах концептуальных понятий не зависящих от конкретного языка, а затем производит синтез нового текстового документа на требуемый язык.

При лингвистическом анализе используются онтологические описания соответствующего языка, которые позволяют корректно учитывать синонимы, омонимы, родовидовые отношения, многократные отрицания и прочие особенности естественного языка. Для учета различных терминологических особенностей в онтологические описания включаются сведения, подробно описывающие отдельные области знаний.

Дополнительным результатом лингвистического анализа текста документа является его авторубрицирование. Система может использовать одновременно несколько рубрикаторов, общеприменимых и специальных. Определение рубрик документа и его частей, позволяет системе правильнее выбирать варианты значения используемых в тексте терминов и речевых оборотов.

Результатом лингвистического анализа текста документа является описание структуры документа, перечень рубрик его структурных единиц, и описание смыслового содержания текстовой информации в виде графов концептуальных понятий.

При синтезе текста перевода документа на другой язык используются только онтологические описания языка перевода и результаты лингвистического анализа оригинального текста. Синтез текста перевода опирается именно на смысловые конструкции выявленные в оригинальном тексте, а не на сами фрагменты оригинального текста, поэтому смысл высказываний на одном языке может быть достаточно точно передан на другом языке, с учетом принятых в языке перевода принципов построения выражений и предложений. Синтез текста перевода осуществляется с сохранением выявленных стилистических и тематических особенностей оригинального документа, но существует принципиальная возможности изменения этих параметров, для получения другой версии перевода, с сохранением смыслового содержания.

Другой важной особенностью построения системы автоматического перевода на предлагаемых принципах является то, что используются не однонаправленные словари перевода с одного языка на другой, а онтологические описания языка, применяемые и при анализе оригинального текста и при синтезе перевода. Это означает что добавление в систему описания нового языка, автоматически добавляет возможность переводить документы с этого языка и на этот язык, со всех ранее имевшихся в системе языков. Например, если в систему использующуюся для разнонаправленного перевода между 11 официальными языками ЕС добавить описание русского языка, система сразу получит возможность переводить русские тексты на любой из 11 языков ЕС, а также переводить с любого из этих 11 языков на русский. В случае использования однонаправленных словарей, для достижения такого же эффекта потребовалось бы добавлять в систему 22 словаря, а всего в такой системе должно быть 132 словаря.

Онтологические описания каждого языка содержат в себе все особенности этого языка, необходимые для понимания смыслового содержания текстов на этом языке. Независимо от языковой группы, все онтологические описания используются системой одинаково. Это означает что возможно построение систем автоматического перевода для разноструктурных языковых групп. Эффект подтвержден для разнонаправленного перевода между русским, английским, китайским и арабским языками.

Перечисленные особенности позволяют создавать не только системы автоматического осмысленного перевода между многими языками, но и разработать принципиально новые системы, например портал для кроссязыкового общения, с поддержкой большого количества языков. Такой портал мог бы анализировать сообщение на языке его автора и выявлять его смесовое содержание, а при отображении этого сообщения другим участникам производить синтез сообщения на язык читателя. Сфер применения у таких систем много, от многоязыковых новостных агрегаторов, до систем обеспечения международного онлайн общения.

Подобные системы при ограниченном числе поддерживаемых языков могут быть реализованы даже в мобильном автономном варианте. А для построения высоконагруженных систем полезным свойством окажется готовность разработанных компонент к вертикальному и горизонтальному масштабированию.