наш блог

На що потрібно звертати увагу, якщо ви користуєтеся машинним перекладом

  • Пропуски та вигадки (omissions & additions). Деякі частини вихідного тексту МП може просто викинути, а може нафантазувати такого, чого в оригіналі й не було. Цієї хиби припускаються й люди, але з інших причин. Технічні перекладачі, які працюють у «кішках» (CAT tools), найчастіше роблять такі помилки, коли поспішають і бездумно підтверджують неточні збіги (fuzzy matches), сприймаючи їх за 100%-ві (100% matches).
  • Термінологія. Той самий термін МП може перекласти по-різному навіть у межах одного речення. Screw у вас в одному місці буде гвинт, у другому шуруп, у третьому болт. Для технічного перекладача це катастрофа. Її намагаються позбутися шляхом «тренування» МП-модулів — створення так званого trained МП engine. Але для цього потрібні великі за обсягом напрацювання в конкретній термінологічній галузі — щонайменше 500 тисяч сегментів, перекладених людиною. Далеко не завжди вони взагалі існують.
  • Рід і стать. Це та сфера, де МП-служби надзвичайно неполіткоректні. Звертатиметься МП то на ти, то на ви. Про жінку з попереднього речення він у наступному запросто може казати пан, сер, пішов, приїхав. Якщо ви користуєтеся машинним перекладом, слідкуйте за тим, щоб ваша дійова особа, зокрема й нежива, тишком-нишком не змінила свою стать («Олег підняв годинник. Вона була прекрасна.»). Особливої уваги потребують особові займенники (він, вона, його, її тощо) та інші частини мови, які мають морфологічні ознаки роду.
  • Короткі речення. У них багато хиб, оскільки МП бракує контексту. Переклад в умовах відсутності контексту — це й для людей проблема.
  • Регістр букв і знаки пунктуації. Іноді результат машинного перекладу змінюється, лише якщо змінити регістр першої літери речення, додати або забрати крапку тощо. Більшість МП-служб цю ваду успішно подолали, але вона не щезла.
  • Погіршення якості, якщо ні вихідна, ні цільова мова не є англійською. Англійська — мова міжнародного спілкування і, найчастіше, рідна мова розробників МП-служб. Англійські датасети, на яких вони тренують нейронні МП-мережі (NMT), найбільші за обсягом. Для рідкісної мовної пари, як-от угорська — суахілі, просто не знайдеться датасету достатнього обсягу, на якому можна було б натренувати нейронну МП-мережу. Тому машинний переклад у таких мовних парах часто відбувається через посередництво англійської: угорська → англійська, потім англійська → суахілі. Тобто здійснюється подвійний машинний переклад, і кількість усіх описаних вище вад подвоюється. З цим недоліком теж намагаються боротися.
  • Гумор, гра слів, алюзії, натяки, алегорії. Для машинного перекладу це поки що terra іncognіta: він їх просто не бачить і перекладає в лоб. З почуттям гумору та кмітливістю в МП погано.
  • Теги (variables і placeholders). МТ сприймає теги як якісь дивні елементи посеред тексту і найчастіше просто викидає їх. Він не розуміє, яке слово підставлятиметься замість тега, тому не враховує відмінки, однину/множину тощо.

 

Цей допис у нашому телеграм-каналі.

Рекомендований контент

Карта чи мапа?

Жодне з цих слів не є питомим українським: обидва походять із латини або вже її нащадків, обидва потрапили в українську мову через посередництво німецької та польської. У СУМ-20 для карти першим серед багатьох значенням наведено «загальне зображення земної поверхні, її частини або окремих країн світу, зменшене відповідно до певного масштабу; мапа». У мапи ж просто […]

Відсоток чи процент?

Процент — очевидне запозичення, походження якого простежується до латини, але відсоток також не без гріха (на думку пуристів, для яких грішним є все, що не питоме) — це калька з тієї ж латини. Як і слова в першій парі, вони мають те саме значення: у СУМ-20 у першому значенні для відсотка читаємо: «сота частина певного числа, що […]

«Без вас чи без світла? — Без вас!»

Зауваження нудного редактора. Фраза Зеленського «Без вас чи без світла? — Без вас!» не зовсім коректна з погляду логіки. Адже, будучи «без вас», можна бути як зі світлом, так і без, а будучи без світла, можна бути як «без вас», так і «з вами». Коректніше було б так: «Без вас і без світла чи з вами […]

Як позбавитися бюрократичного звороту «у той час як»

Незграбного й довжелезного бюрократичного звороту у той час як часто вдається позбавитися, замінивши його сполучником а: ❌ Успішний кидок із-за меж зони приносить команді три очки, у той час як ізсередини зони — два. ✅ Успішний кидок із-за меж зони приносить команді три очки, а ізсередини зони — два. ❌ Цибуля добре виганяється при температурі 10–12 °С, у […]

Нові приставки СІ: рона-, квета-, ронто-, квекто-

Оскільки вченим не вистачало слів для висловлення своїх думок, система SI порадилася та вирішила додати ще кілька десяткових префіксів для позначення страшних одиниць вимірювання: Це видатна подія: попередні зміни в систему SI вносили понад 30 років тому. Відтепер ронаметр — це 10²⁷ метрів, квектосекунда — 10³⁰ секунд тощо, звикайте. Донині найбільшим десятковим префіксом SI була йота (10²⁴), найменшим — йокто (10⁻²⁴). Англійською […]