Машинного перевода не существует

© Все права защищены.

Технологии машинного перевода развиваются семимильными шагами. Они всё дальше проникают в жизнь людей, никак не связанных с переводческим бизнесом, что уж говорить о профессиональных переводчиках.

Благодаря этим технологиям обычный турист легко объясняется с жителями диковинных стран, на изучение языка которых ему пришлось бы потратить полжизни. Чтобы прочесть объявление, написанное, например, на кхмерском языке, достаточно навести на него камеру смартфона — и через секунду получить его перевод. Skype умеет распознавать ваш голос и автоматически переводить вашу речь на другой язык в режиме реального времени. Будущее уже наступило, оно даже не за окном — оно прямо у вас в руках.

Глядя на все это техноторжество, удивляешься: чем вообще занимаются переводчики и за что им платят, если машина уже научилась мгновенно переводить и текст, и голос, и надписи практически с любого языка на любой?

Жестокий силлогизм

Сделаем два сильных утверждения.

Первое: перевод — это передача смысла.

Второе: машины не умеют оперировать смыслом.

С первым утверждением обычно никто не спорит; второе, наоборот, порождает бурные дискуссии. Подробное его обсуждение способно увести нас в дебри околофилософских рассуждений о том, что такое смысл, что означает мыслить и т. п. Однако сложно спорить с тем, что современные компьютеры, по крайней мере на современном этапе их развития, не извлекают из текста смысл в человеческом понимании этого слова.

Из этих двух утверждений с неизбежностью следует неожиданный вывод: то, что производит машина, априори не является переводом.

Не только «обычного» туриста, но и многих лингвистов этот вывод часто огорошивает. Почему это машина не может выполнять перевод? Ведь мой смартфон уже читал мне объявления, написанные на другом языке, а мне уже доводилось переводить тексты с абсолютно незнакомого языка с помощью Google Translate. Это реально работает!

Разберемся в определениях.

Неудачные термины

В науке, технике и других сферах человеческой деятельности есть много неудачных, но, к сожалению, прижившихся терминов. Их «терпят» и продолжают применять не потому, что они отражают суть, а потому, что к ним все привыкли, так исторически сложилось.

Например, «сверхновая звезда» — неудачный термин. Вспышка сверхновой — это не рождение новой звезды, как многие думают, а наоборот — предсмертная агония старой, умирающей звезды. Нам, людям, с расстояния в тысячи световых лет кажется, что на небе зажглась новая звезда, на самом же деле где-то невероятно далеко погибла звезда, которая благополучно светила миллионы лет. К слову, и «световой год» — тоже неудачный термин. Слыша слово «год», несведущие люди воспринимают его как единицу измерения времени, тогда как в световых годах измеряют чудовищные астрономические расстояния.

«Машинный перевод» — еще один пример крайне неудачного термина. Машинный перевод — это оксюморон. Перевод машинным быть не может. Если его выполнила машина — это не перевод, а если его выполнил человек — он не машинный.

Сейчас сложно установить, кто именно ввел в обиход термин «машинный перевод». Судя по всему, этот человек был далек от лингвистики или просто не озаботился тем, чтобы придумать более точный термин. И тем самым он породил жуткую терминологическую путаницу: переводом (тем, который передача смысла) начали называть бездумную подстановку слов одного языка вместо слов другого — лишь на том основании, что внешне результаты этих двух процессов выглядят похоже.

Так машинный перевод начали воспринимать как одну из разновидностей перевода. Разница огромная, но в глазах обывателей присутствие слова «перевод» в обоих терминах ее нивелирует.

Перевод — это французское вино, а машинный перевод — попытка воспроизвести его формулу в химической лаборатории. Это суррогат. Выглядит так же, на вкус похоже, но все равно не то. Вы ведь не станете называть этот синтетический продукт французским вином. Но синтетический продукт, созданный машиной в подражание переводу, мы почему-то называем переводом.

Если бы процесс замены одних слов другими назвали как-нибудь иначе, обойдясь без слова «перевод», терминологической путаницы и многих связанных с ней недоразумений не возникло бы. Можно было бы назвать его, например, трансподстановка, автоконвертация — как угодно, главное, чтобы в нем не присутствовало слово «перевод».

Но неудачный термин «машинный перевод», к сожалению, прижился.

Машины и тест Тьюринга

Здесь могут возразить: как же так? Ведь машинный перевод почти неотличим от «человеческого». Конечно, есть огрехи, но ведь он понятен, а огрехи есть и у людей!

Да, это верно — схожесть поразительная. Проанализировав миллионы предложений, переведенных человеком (это важно), машина сама выводит очень сложные и не всегда понятные зависимости между предложениями на разных языках. Впоследствии, применяя их, она порождает тексты, по которым уже сложно понять, кто их создал, человек или машина. То есть она с успехом проходит тест Тьюринга.

Однако сути это не меняет: машинный перевод бессмыслен — в том понимании, что создающая его машина не вдумывается в то, что она создает. Она способна найти часто встречающиеся слова, установить, как они синтаксически связаны, определить структуру предложений. Но в отличие от человека, она не способна извлекать из всего этого смысл.

Машины умеют оперировать данными и выявлять связи между ними. Они делают это намного лучше и быстрее человека — их для того и создавали. Количество данных может быть огромным, и тогда их называют большими. Закономерности связей между ними иногда оказываются неожиданными и любопытными. Причем чем больше данных, тем сложнее выявляемые между ними зависимости и тем сильнее машинный перевод похож на «человеческий». В таких случаях говорят: «движок машинного перевода натренирован». Однако натренировать не означает придать смысл.

Для машины текст, который в нее вводят, — это просто последовательность знаков и ничего больше. Для нее одинаково бессмысленны и «Гамлет» Шекспира, и бред больного шизофазией, и lorem ipsum, и даже случайный набор букв, которые набрал ваш кот, потоптавшись по клавиатуре.

Машина с равным усердием «переведет» и «Гамлета», и любую абракадабру. Поскольку она ни из того, ни из другого не извлекает смысла, для нее это одинаково ценные (точнее, наоборот — одинаково бессмысленные) последовательности знаков. И в их «перевод» она вложит равное количество смысла — ноль. Для нее бессмысленны не только исходные тексты, но и тексты, порожденные ею самой, какими бы осмысленными они не казались человеку.

Машины и утиный тест

Существует так называемый «утиный тест», позволяющий определять суть явлений по их внешним проявлениям. Формулируется он так:

Если что-то выглядит, как утка, плавает, как утка и крякает, как утка, то, вероятно, это и есть утка.

На первый взгляд, вслед за тестом Тьюринга машинный перевод с успехом проходит и утиный тест. Ведь он выглядит, как перевод, читается, как перевод, слышится, как перевод, — казалось бы, налицо все основания считать, что это и есть перевод.

Но дьявол в деталях. Хорошо проходить утиный тест в идеальных условиях — когда рассматриваешь объект при дневном освещении, с небольшого расстояния и в спокойной обстановке. А если эта «утка» плывет далеко, на другой стороне реки? А если у вас миопия? А если уже сумерки или идет дождь? А если вы ведете автомобиль и успели взглянуть на нее лишь мельком?

Присмотришься повнимательнее — и выясняется, что это не утка, а гусь, или выдра, или отражение в воде облака причудливой формы. И всё — утиный тест завален. Не зря его автор предусмотрительно оставил себе лазейку и включил в его формулировку слово «вероятно».

То же и с машинным переводом. На первый взгляд, все хорошо, слова синтаксически связаны, текст читабелен. Но стоит вчитаться повнимательнее — и карточный домик рушится: один и тот же термин в разных местах переведен по-разному, здесь машина не смогла расшифровать аббревиатуру, здесь не уловила юмора, здесь «забыла», какого пола действующее лицо, здесь вообще на голубом глазу написала беспорядочный набор слов, и т. п.

В каждом языке есть характерные признаки машинного перевода. Они иногда сложно поддаются формулировке, но опытные переводчики влет определяют, какой текст создан человеком, а какой машиной. Их не проведешь.

Отдадим должное машинам: они научились довольно точно имитировать «человеческий» перевод, порой до неотличимости. Это воодушевляет туристов и огорчает переводчиков. Но это не перевод, а его имитация. Вам показалось.

Машины в поисках смысла

Как видим, разграничительной линией между человеком и машиной является смысл. Возникает вопрос: что требуется машине для того, чтобы овладеть смыслом? Чего ей не хватает, чтобы вывести машинный перевод на уровень человеческого?

Рассмотрим для примера того же «Гамлета». Это нетипичный текст, но он позволяет наиболее выпукло показать разницу между людьми и машинами.

Даже люди порой с трудом воспринимают это произведение. Оно считается классическим, дети изучают его в школах. Но оно плохо воспринимается в подростковом возрасте.

Понять, какой смысл вкладывал в свое творение Шекспир, может только подготовленный читатель. Он уже заранее должен знать, что такое любовь, дружба, предательство, ирония, месть. Чтобы понять мотивы поведения героев, нужно самому хоть раз испытать те чувства, которые они переживают. Нужно, как говорят, «пожить на свете». Поэтому «Гамлета» обычно начинают ценить в зрелом возрасте, уже имея за плечами некоторый жизненный опыт.

И без того непростая задача перевести такое многогранное произведение на другой язык дополнительно осложняется тем, что действие разворачивается в далекие от нас Средние века, а текст изложен в стихотворной форме. Неудивительно, что количество его различных переводов огромно. Одних только русских переводов «Гамлета» существует более 30.

Вывод: чтобы понять, какой смысл вкладывал в свое произведение автор, нужно разбираться в человеческой природе. Вообще говоря, для этого нужно иметь в своей голове (в случае компьютера — в процессоре) модель всего мира. Вот за что платят переводчикам — за смысл. Это недешевая штука.

Чтобы овладеть смыслом, машине не хватает способности быть человеком. Обидный факт для машины. Но она не обижается — ей неизвестен смысл слова «обида».

Неправильные выводы

В заключительной части каждой статьи мы обычно формулируем «правильные» выводы, к которым пришли. Эта статья нетипична: в ней будут «неправильные» выводы. Мы перечислим то, что не следует из изложенного выше.

  • Настоящий переводчик никогда не будет пользоваться машинным переводом. Это слишком категоричное утверждение. Применять машинный перевод в переводе совсем не значит покрыть себя позором. Использовать его вполне можно. Например, «натренированный» машинный перевод значительно ускоряет работу при переводе однотипных технических текстов. Но применяя его, важно четко осознавать: автор текста, над которым вы работаете, в его смысл не вдумывался.
  • Машинный перевод бесполезен. Это не совсем так. Он бесполезен, если применять его для решения задач, на которые он не рассчитан. Он не справится с «Гамлетом», слишком высокая в нем концентрация смысла. Настолько высокая, что даже люди переводят его снова и снова, но до сих пор не существует перевода, устраивающего всех. Однако есть задачи, которые машинный перевод решает с успехом (мы их уже обсуждали), и для их решения он очень даже полезен.
  • Машины никогда не научатся оперировать смыслом. Мы этого не знаем. Во всяком случае, это из вышеизложенного не вытекает. Вполне возможно, что в один прекрасный день ваш умный холодильник начнет писать стихи или пожелает обсудить с вами смысл своего существования. Возможно также, что развитие машин пойдет по другому пути и в будущем нас с вами ждет техноапокалипсис в стиле «Матрицы».

Одно можно сказать наверняка: когда машины научатся оперировать смыслом, переводчики действительно станут не нужны. Но когда это случится и случится ли вообще — предсказать невозможно.

-->

Другие cтатьи

Как с помощью продукта «масло» испортить продукт «каша»

02.03.2016 Одна из крупных проблем локализации — контроль терминологии. Как правило, у серьезных компаний хорошо проработана терминология, относящаяся к выпускаемым ими продуктам, и есть большие глоссарии утвержденных терминов. Важно, чтобы при переводе было соблюдено единство терминологии. Отклонения от нее в лучшем случае создадут неприятное впечатление у пользователей, а в худшем способны привести, например, к патентным разбирательствам. Поэтому для контроля терминологии проводятся специальные проверки, в любой современной программе автоматизированного перевода (так называемой «кошке») предусмотрены средства контроля терминологии и т. п.

Переводчик или бюро переводов?

04.09.2015 В профессиональных переводческих кругах то и дело возникают дискуссии между переводчиками и бюро, в которых переводчики задаются смыслом существования бюро как таковых, поскольку видят в них лишь торговых посредников, снимающих сливки и не приносящих реальной пользы заказчику. Постоянно возникают споры по поводу того, к кому лучше обратиться заказчику: к независимому переводчику или в компанию, оказывающую переводческие услуги. В этой статье мы попытаемся разобраться в этом вопросе и рассмотреть все преимущества и недостатки работы с независимыми переводчиками и с бюро переводов.

Обзор Smartcat

06.03.2018 Из канала связи Интернет стал средой для хранения и обработки информации, а увеличение пропускной способности сетей, совершенствование оборудования и технологии виртуализации сделали возможным широкий доступ к облачным вычислениям.

Спасибо!

Мы получили ваше резюме.

Как только мы его изучим, мы свяжемся с вами.

Спасибо!

Мы получили ваше сообщение.

Как только мы его изучим, мы свяжемся с вами.


В рабочее время мы обычно отвечаем
в течение часа.

Спасибо!


Вы успешно подписаны!

Сообщение

+ Прикрепить файл

Мы внимательно изучим ваше резюме
и свяжемся с вами в ближайшее время