СДЕЛАЙТЕ СВОИ УРОКИ ЕЩЁ ЭФФЕКТИВНЕЕ, А ЖИЗНЬ СВОБОДНЕЕ

Благодаря готовым учебным материалам для работы в классе и дистанционно

Скидки до 50 % на комплекты
только до

Готовые ключевые этапы урока всегда будут у вас под рукой

Организационный момент

Проверка знаний

Объяснение материала

Закрепление изученного

Итоги урока

Машиналық аударма жүйелерінің жіктелуі

Нажмите, чтобы узнать подробности

Машиналық аударма - мәтінді бір табиғи тілден екіншісіне арнайы компьютерлік бағдарлама көмегімен аудару үрдісі.

Кейде «машиналық» сөзінің орнына автоматты сөзі қолданылады, бұдан оның мағынасы өзгермейді. Алайда машиналық аударманы автоматтандырылған аудармамен шатыстырмаған жөн, оның мағынасы мүлдем басқа, ол тек адамға мәтінді аударуға көметеседі.

Машиналық аударма жүйелері үш категорияға жіктеледі:

  • грамматикалық ережелер негізіндегі жүйелер (Rule-Based Machine Translation, RBMT);
  • статистикалық жүйелер (Statistical Machine Translation, SMT);
  • гибридті жүйелер, бұлар екі жүйенің артықшылықтарын біріктіреді.

Грамматикалық ережелер негізіндегі жүйелер - бастапқы және аударылатын тілдер туралы лингвистикалық ақпаратқа негізделген машиналық аударма жүйесі. Олар әр тілдің негізгі семантикалық, морфологиялық, синтаксистік заңдылықтарын қамтитын екі тілді сөздіктер мен грамматикалардан тұрады. Осы берілгендердің негізінде бастапқы мәтін біртіндеп, әр сөйлемі ретімен аударылады. Мұндай жүйелердің жұмыс принципі енгізілетін және шығарылатын сөйлемдерінің құрылымының байланысы болып табылады.

RBMT жүйелер үш топқа жіктеледі:

  • сөз аударма жүйесі;
  • трансферлік жүйелер (Transfer) – енгізілетін тілдің құрылымын шығарылатын тілдің грамматикалық құрылысына түрлендіреді;
  • интерлингвистикалық жүйелер (Interlingua) – мағыналық сипаттаудың аралық тілі.

RBMT компоненттері:

  • Лингвистикалық берілгендер қоры: – екі тілді сөздіктер; – атаулар файлы, транслитерациялар; – морфологиялық кестелер;
  • Аудару модулі: – грамматикалық ережелер; – аудару алгоритмі.

RBMT жүйесінің артықшылықтары:

  • синтаксистік және морфологиялық дәлдік;
  • нәтиженің тұрақтылығы және болжамдылығы;
  • пәндік облысқа сай баптау мүмкіндігі.

RBMT жүйелерінің кемшіліктері:

  • жүйені құрудың күрделілігі және ұзақ уақыт алуы;
  • лингвистикалық берілгендер қорын сүйемелдеу және белсендіріп отыру;
  • аударма барысындағы «машиналық акцент».

Статистикалық машиналық аударма – мұнда аударма статистикалық модельдер негізінде генерацияланады, олардың параметрлері екі тілді мәтін корпусын талдаудан туындайды.

Статистикалық машиналық аударма туралы алғашқы идеяларды 1949 жылы Уоррен Уивер (Warren Weaver) жариялады. «Екінші толқын» - 1990 жылдардың басында IBM фирмасының ат салысуынмен болды. «Үшінші толқынға» Google, Microsoft, Language Weaver, Яндекс дайындаған жүйелер жатады.

Аударманың статистикалық моделі:

  • сөздер бойынша (Word-based translation – WBT)
  • сөздер тізбегі бойынша (Phrase-based translation – PBT)
  • синтаксис бойынша (Syntax-based translation – SBT)
  • иерархиялық сөздер тізбегі бойынша (Hierarchical phrase-based translation – HPBT)

SMT артықшылықтары:

  • жылдам баптаулар
  • аударманың жаңа бағыттарын оңай қосу
  • аударма тегістігі

SMT кемшіліктері:

  • параллель корпустар тапшылығы
  • көптеген грамматикалық қателер
  • аудару тұрақсыздығы

Машиналық аударма жүйелерін әзірлеушілер аударма сапасын арттыру үшін кейбір ережелерді енгізеді, осылайша статистикалық жүйелерді гибридты машиналық аудармаға айналдырады. Кейбір ережелерді қосу, яғни гибридті жүйеледі құру аударма сапасын біршама жақсартады.

Гибридті машиналық аударма – әр түрлі машиналық аударма тәсілдерінің интеграциясы болып табылады:

  • Rule-based machine translation (RBMT) – ережелер негізіндегі машиналық аударма.
  • Corpus-based machine translation (CBMT) – мәтіндер корпусына негізделген машиналық аударма.
  • Example-based machine translation (EBMT) Мысалдарға негізделген машиналық аударма.
  • Statistical machine translation (SMT) – Статистикалық машиналық аударма.

Гибридті архитектура көмегімен осы тәсілдердің артықшылықтарын біріктіру күтіледі.

Аударудың гибридті технологиясы параллель корпустар негізінде сөздік қорын автоматты түрде құрудың статистикалық әдістерін қолданады.

Гибридті технология архитектурасы «SMT және RBMT»

RBMT жүйе екі компонентпен толықтырылған: статистикалық өңдеуден кейінгі модуль және тілдік модельдер модулі.

HMT архитектурасы:

  • Параллельді корпус;
  • Оқыту;
  • Тілдік модель;
  • Өңдеуден кейінгі берілгендер;
  • Синтез ережелері;
  • Терминдер сөздігі.

Гибридті аударма артықшылықтары:

  • Translation Memories негізіндегі жылдам автоматты баптаулар;
  • Аударманың терминологиялық дәлдігі, стильдің біртектілігі.
16.07.2017 11:22


Рекомендуем курсы ПК и ПП