2016. május 04., szerda 09:54

A gépi fordítás korlátai

Ha valakinek gyorsan van szüksége fordításra, a XXI. században már számos megoldás közül választhat. A mesterséges intelligencia az elmúlt évtizedekben rengeteget fejlődött, és lehetővé tette, hogy gyakorlatilag valós időben írott szöveget, vagy akár élőben elhangzó beszédet tudjunk fordítani különböző számítógépes programok és mobilalkalmazások segítségével, mindezt akár teljesen ingyen. A legtöbben rendszeresen élünk is ezekkel a lehetőségekkel a mindennapokban egy-egy internetes keresésnél, utazáskor vagy csupán információszerzésnél. Kézenfekvő lenne tehát a gépi fordítás beépítése a mindennapi vállalati gyakorlatba, elsősorban a költségek és az időtényező csökkentése céljából. A lehetőség természetesen adott, viszont a gépi fordításnak egyelőre számos olyan hiányossága és hátránya van, amivel érdemes tisztában lenni és a módszer vállalati alkalmazását ezek fényében megfontolni.

Hibák és hiányosságok magyar forrás-/célnyelv esetében

Aki próbálkozott már gépi fordítással magyar nyelvről vagy magyar nyelvre, valószínűleg azt gondolja magában, hogy ebben a tekintetben még lenne hová fejlődni. Ha valamilyen idegen nyelvről próbálkozunk, sokszor kapunk megmosolyogtató, rosszabb esetben félrefordított, hibás és hiányos magyar szövegeket, teletűzdelve idegen, esetenként teljesen értelmetlen kifejezésekkel. Így nem lehet szó nélkül elmenni amellett a tény mellett, hogy magyar nyelvről/nyelvre egyelőre meglehetősen sok hibával dolgozik a gép, és nem eléggé kidolgozott szemben például az angol nyelvvel, amivel számos kombinációban meglepően jól boldogul.a_gepi_forditas_hatranyai_es_hianyossagai_1

Nem elég pontos

Mivel a gép nem tesz mást, mint a fordítandó szöveg szavainak célnyelvi megfelelőjét kikeresi egy adatbázisból, majd előre meghatározott algoritmusok alapján igyekszik megfelelő szórendbe helyezni ezeket (jobb esetben még helyesen ragozza is a szavakat) – a végeredmény azonban sokszor még az informálódásra sem alkalmas. A gyakorlatban tehát mindezt valahogy úgy kell elképzelni, mintha a szótárból keresgélnénk ki a szavakat és szépen egymás mellé pakolnánk. Kontextus nélkül még azt is nehezen lehet eldönteni egy-egy szó esetében, hogy a számos lehetőség közül melyik lehet az adott helyzetben a megfelelő. Ebből következik, hogy a hibázási lehetőség meglehetősen nagy, hiszen könnyen előfordulhat, hogy a gép nem a helyes szót választja, hanem egy gyakrabban használt, de az adott szövegkörnyezetben nem releváns jelentést.

Kevés esetben jelent valódi megoldást

Vitathatatlan, hogy néhány esetben valóban megoldást jelenthet a gépi fordítás, de ugyanúgy tévútra is vihet: a technikai fejlődés ma még nem áll azon a szinten (különösen nem a magyar nyelv esetében), hogy teljes mértékben a gép által készített fordításra hagyatkozhassunk. A folyamatos fejlesztések nem titkolt célja persze az lenne, hogy a gép (a nem is olyan távoli) jövőben felvehesse a versenyt az emberrel és közel ugyanolyan minőségű fordítást tudjon készíteni, jelenleg azonban még viszonylag kevés esetben jelenthet ideális megoldást. Speciális szakmai szövegek (például orvosi, jogi, műszaki vagy marketing anyagok) esetében például szinte biztosan nem kapunk elfogadható végeredményt, és nem várhatunk választékos megfogalmazást, ahogy kifogástalan nyelvtani megoldásokat sem. További problémaként említendő, hogy a gép nem feltétlenül ismeri az adott szöveg esetében használandó szakszókincset vagy ha ismeri, helytelenül alkalmazza azt.

A gép nem tud gondolkodni

Míg az ember számára a szövegkörnyezet segítséget jelenthet a pontosabb fordításban, a gép továbbra sem rendelkezik emberi aggyal és logikával, tehát a kontextust sem minden esetben tudja adekvát módon értelmezni, mindössze azt tudja, amire „megtanították”. A gép gyakorlati tapasztalatokra sem tud hagyatkozni, mindössze adatbázisokban és matematikai képletekben „gondolkodik”. A szleng, a szólások, közmondások, márkanevek, földrajzi nevek, stb. lefordítása például nehézséget okozhat. Természetesen a gép is „tanul” bizonyos értelemben, tehát a folyamatos fejlesztésekkel a használat során felmerülő hibák fokozatosan javíthatók, és kiküszöbölhetők, mindegyik azonban nem. Egyelőre legalábbis.A gépi fordítás korlátai - 2. rész

A humán faktor hiánya

A rálátás, az elemző és szintetizáló gondolkodás, a gyakorlati tapasztalatok, és az érzelmek, azaz a humán faktor hiányzik a gépi fordításból. Vagyis számos olyan tulajdonság, amivel a gépek egyelőre nem rendelkeznek, és talán soha nem is fognak rendelkezni. Az emberi tényező nélkül azonban csak félmegoldást kínál a gép. Ha elfogadható minőségű szakfordítást szeretnénk, akkor a humán nyelvi szakemberek alkalmazása gyakorlatilag megkerülhetetlen. Végezetül pedig ne feledkezzünk meg arról, hogy a számítógépeket, a gépi fordító szoftvereket is emberek tervezték!

Ha ismerjük a gépi fordítás hátrányait és tisztában vagyunk alkalmazásának korlátaival, a módszer valamilyen szinten beilleszthető a mindennapi életbe, szakfordítások esetében azonban még nem képes elfogadható minőségű anyagot létrehozni, így rendszeres és kizárólagos alkalmazása a vállalati gyakorlatban nem javasolt. A gépi fordításoknak egyelőre számos hátulütője van és közel sem jelentenek tökéletes megoldást. Ma még lehetetlen megmondani, hogy meddig fog fejlődni a technológia, és a fejlődésnek milyen szintjén áll meg. Vajon képesek leszünk-e valaha olyan gépet alkotni, ami úgy fordít, mint az ember?

 

Hasznos lehet még:

A Google Fordító előnyei és hátrányai

Jelnyelvről fordít a SignAloud kesztyű

2015. augusztus 24., hétfő 09:12

A Google Fordító – előnyök és hátrányok

A jelenleg használatos gépi fordítórendszerek többsége, így többek között a Google Fordító is matematikai elven működik, ez az úgynevezett statisztikai alapú gépi fordítás, vagyis angolul statistical machine translation (SMT). Ez lényegében azt jelenti, hogy a gép nem nyelvtani szabályokat követve dolgozik, hanem statisztikai analízisre épülő algoritmusok alapján fordít. A statisztikai alapú gépi fordítás rendszerét alkalmazva a fordítás a legtöbb esetben nem közvetlenül történik egyik nyelvről a másikra, hanem az angol nyelv közbeiktatásával.neural machine translation


2016 szeptemberében a Google kutatócsoportja, a Google Brain Team nagy bejelentést tett: hosszú évek munkája során kifejlesztették az úgynevezett Google Neural Machine Translation (GNMT) rendszert, vagyis a neurális alapú gépi fordítást. Ez abban tér el a korábbi statisztikai alapú gépi fordítástól, hogy képes a tanulásra (ún. „deep learning”). A több millió lefordított mondat alapján folyamatosan javul a fordítások minősége, mivel a gép fokozatosan megtanulja a kontextusnak megfelelően értelmezni a szövegeket. Ezzel a módszerrel már nem lesz szükség közvetítő nyelv beiktatására, hanem közvetlenül a forrásnyelvről a célnyelvre készülhet a fordítás (ún. „zero-shot” fordítás).

A folyamatos technológiai fejlesztéseknek köszönhetően bizonyos nyelvi viszonylatokban egyre jobb minőségűek a fordítások, ennek ellenére a magyar felhasználónak valószínűleg az jut eszébe legelőször a Google Fordítóról, hogy hiába lehet mondatokat, folyó szöveget fordíttatni vele, a minőség – komoly szándékok esetén – meglehetősen rossz. Azt azonban mindenképpen el kell ismernünk, és a gépi fordító teljesítményének megítélésekor figyelembe kell vennünk, hogy nagy hátrányban vagyunk, hiszen a magyar nyelv egyedülálló, rendkívül bonyolult és nem utolsó sorban kevesek által használt nyelv.

google fordito elonyok es hatranyokA nyelvi nehézségek ellenére a Google Fordítónak kétségkívül hatalmas előnye, hogy bárki, aki rendelkezik internetkapcsolattal, kevesebb, mint egy másodperc alatt képes megtalálni egy szó, kifejezés, mondat vagy akár hosszabb lélegzetű szövegek idegen nyelvű megfelelőjét, több mint 100 nyelven, egyszerre 5000 karakterig. Az eszköz további nagy előnye, hogy ingyenes, így valóban bárki által hozzáférhető akár útközben is, hiszen létezik mobil applikáció, amely már képes arra, hogy lefordítson például egy táblát a mobileszköz kamerájának segítségével. Emellett szintén hasznos, hogy a Google Fordító figyelmezteti a felhasználót, ha a szöveg elírásokat vagy egyeztetési hibákat tartalmaz. Rövidebb szöveg esetében javaslatot tesz, hosszabb szövegnél pedig nem fordítja le az elgépelt szót, így a hibát mi is észrevehetjük és kijavíthatjuk.

Az előnyök mellett szót kell ejteni a hátrányokról is, illetve arról, hogy mire nem érdemes használni ezt a fordítóeszközt. Leginkább kis igénybevételre felkészült, tehát komolyabb fordítási munka nem végezhető vele: nem, vagy kevésbé ismeri a köznyelvi kifejezéseket, a helyi nyelvjárást, ezért jelenleg nem képes pontos fordításra. A Google Fordító által lefordított szövegek gyakran mesterkéltek, természetellenesek, amit nehéz észrevenni, ha a felhasználó nem beszéli azt a nyelvet, amire fordított. A kevesek által beszélt, kevésbé elterjedt nyelvekre fordító felhasználók gyakran jelzik, hogy a fordított szöveg használhatatlan. Ugyanakkor a Google Fordító más, több nyelvhasználó által beszélt nyelvek esetében – mint például a spanyol, a német vagy a francia – gond nélkül képes összefüggő, értelmes, igaz nem mindig pontos szöveget generálni. Gyakran előfordul ugyanis – legfőképpen az olyan nyelvek esetében, mint a szláv nyelvek, a török vagy a német –, hogy a Google Fordító éppen ellentétes jelentést ad ki egy szövegre. Ez az olyan összevont szavaknál fordul elő, amelyek tagadást tartalmaznak. Emellett gyakran maradnak le olyan tartalmak is, amelyek a forrásszövegben benne vannak, például számok vagy bizonyos írásjelek után következő szövegrészletek.

Mindezeken kívül nincs lehetőség minőség-ellenőrzésre, a kapott fordítással kell beérnünk. Ha tehát egy pontos, jó fordítást szeretnénk, mindenképpen egy fordítótól kell segítséget kérnünk a szöveg ellenőrzésére, javítására.

 

Hasznos lehet még:

A gépi fordítás korlátai

Milyen hatással van a technológiai fejlődés a fordításokra?

neural machine translation deepl

2017. augusztus végén DeepL Translator néven újabb online fordító indult útjára, amely az előzetes várakozások szerint idővel akár legfőbb versenytársát, a Google Fordítót is legyőzheti. Merésznek tűnhet a kijelentés, hiszen a keresőóriás fordítószolgáltatása jelenleg több mint 100 nyelven érhető el, ezzel szemben az újonnan piacra lépő DeepL Translator jelenleg mindössze 7 nyelven fordít (angol, német, francia, spanyol, olasz, holland és lengyel), összesen 42 kombinációban. Folyamatban van ugyan a mandarin, japán és orosz nyelvek fejlesztése is, a nyelvek száma tekintetében viszont még így sem veheti fel a versenyt a már piacon lévő online fordítókkal.

A DeepL Translator szolgáltatásról egyelőre meglepően keveset lehet tudni; a közzétett sajtóanyagok szolgálhatnak valamelyest bővebb információval. Ezekből kiderül, hogy egy vakteszt során a fordítóeszköz magasan a versenytársak fölött teljesített. A teszt abból állt, hogy 100 különböző mondatot adtak fordításra a Google Translate, a Microsoft Translator, a Facebook és a DeepL Translator programoknak, majd angolról németre, franciára és spanyolra, illetve ugyanerről a három nyelvről angolra kellett átültetni a forrásszöveget. Ezután profi szakfordítókat kértek meg, hogy értékeljék az elkészült fordításokat. (A fordítók nem tudták, hogy melyik fordítást melyik program készítette.) A végeredmény alapján a trónkövetelő leiskolázta a mezőnyt: a második legjobban teljesítő Google Fordítóval szemben háromszor annyi szakfordító választotta a DeepL Translator által készített célnyelvi verziót. Az eredményre bizonyára sokan felkapják a fejüket, hiszen a köztudatban egyelőre még a Google Fordító él mint a leghatékonyabb gépi fordító szolgáltatás. De mit is tud pontosan a DeepL és kik állnak mögötte?

A DeepL Translator egy német vállalat, a DeepL legújabb fejlesztése, amely kifejezetten mesterséges intelligencián alapuló termékekre specializálódott. Ha elsőre ez nem mondana túl sokat, korábbi nevük talán ismerősen csenghet, a cég ugyanis 2017-ig Linguee néven működött. A Linguee.com a vállalat népszerű webalapú szótár- és fordítószolgáltatása, amely a DeepL Translator fejlesztésében is kiemelt szerepet játszott. Lássuk, hogyan.

A DeepL Translator az ún. mesterséges neurális hálózatok technológiáján alapul. A fogalom talán már nem ismeretlen, hiszen közel három éve tartja lázban a mesterséges intelligenciával foglalkozókat, erőteljes paradigmaváltást hozva el a gépi fordítás területén is, ahol neurális gépi fordítás (neural machine translation, NMT) néven alkalmazzák. A nagy vetélytárs, a Google 2016 őszén kezdte alkalmazni az új technológiát a Google Translate által készített fordításokban, bizonyos nyelvpárokban, a Microsoft pedig szintén ezt az újítást használja szöveg- és beszédalapú fordítórendszereiben, többek között a Skype Translator alkalmazásban is. A neurális hálózatok technológia lényegében egy mesterségesen létrehozott neurális hálót takar, amely az emberi agyban található neuronok működését imitálja. Ez a mesterséges neurális háló ugyanúgy képes a különböző tanulási folyamatokra (ún. deep learning), akárcsak az emberi agy.

Gereon Frahling, a DeepL vállalat alapítója és ügyvezető igazgatója – aki egyébként maga is a Google-nél kezdte a pályafutását – nem kevesebbet állít, mint hogy a neurális háló felépítésében történt jelentős fejlesztéseknek köszönhetően, valamint a neuronok és a közöttük lévő összeköttetések átrendezésével az általuk megalkotott program minden eddiginél természetesebb és érthetőbb fordításokat képes készíteni. A fejlesztők megközelítése szerint ugyanis a neurális háló teljesítménye nagyban függ attól, hogy a tanulási folyamat során milyen anyag áll a gép rendelkezésére. A DeepL esetében a helyzeti előny éppen a forrásanyag minőségében rejlik, és itt jön ismét a képbe a Linguee.

A Linguee szerverei kétnyelvű formában tárolják a kizárólag humán fordítók által lefordított szövegeket. A korpusz alapját főként európai uniós illetve különféle szabadalmi dokumentumok képezik, a tárolt szövegek száma jelenleg egymilliárd felett van, és mivel webalapú, folyamatosan bővül. A Linguee keresőmotorjai minőség szerint válogatják le a talált kétnyelvű szövegeket, az online felület pedig lehetőséget ad arra is, hogy a felhasználók visszajelzéseket küldjenek be, még tovább javítva ezzel a fordítások minőségét. Ez a humán fordítók által lefordított kétnyelvű szövegekből álló hatalmas korpusz képezi a DeepL Translator tanulási anyagának alapját. Helyzeti előnye tehát abban rejlik, hogy a neurális háló ezeket a fordításokat vizsgálja és találja meg bennük a mintákat egy-egy szöveg lefordításához.

Érdekesség, hogy a DeepL a világ 23. legnagyobb szuperszámítógépén fut, amelyet Izlandon építettek meg. A helyszínválasztás oka, hogy a szigetország megújuló energiaforrásainak köszönhetően jóval költséghatékonyabb módon képesek elérni ugyanazt az eredményt: az eszköz jelenleg egymillió szót képes lefordítani, kevesebb mint 1 másodperc alatt.

A Le Monde francia napilap tesztelte is az újonnan megjelent online fordítót: angolról franciára fordíttattak a programmal különböző műfajú és típusú szövegeket: Emily Dickinson To Make a Prairie c. versét, a PlayStation 4 útmutatójának rövid részletét, egy régészeti témájú újságcikket, egy miniszteri beszéd néhány mondatát, és egy sportösszefoglalót. A kapott eredményeket a Google, Bing, Yandex és Baidu teljesítményével hasonlították össze. Az újságcikk és a miniszteri beszéd fordításában egyértelműen a DeepL teljesített a legjobban, a műszaki szöveggel mind az öt program viszonylag könnyen megbirkózott, a versfordítás mindegyik programnak feladta a leckét, de nem született egyértelmű győztes, az archeológiai témájú cikk fordításában pedig lényegében az összes versenyző elvérzett. Összefoglalásként a cikk szerzői azt állapították meg, hogy még mindig meglehetősen könnyű átverni a gépi fordítót, illetve a gép „ridegsége” még akkor is kiérződik a szövegből, ha nagyjából helyesen lett lefordítva. Tagadhatatlan azonban, hogy a fejlődés még így is látványos, már ami a különböző eszközök teljesítményét és a fordítás minőségét illeti.

 

Forrás:

deepl.com

Le Monde

 

Hasznos lehet még:

A gépi fordítás korlátai

A Google Translate – előnyök és hátrányok