Az optikai karakterfelismerő (OCR, azaz Optical Character Recognition) szoftverek a csak papír alapon rendelkezésre álló, valamint a nem szerkeszthető formátumú, például szkennelt JPG vagy PDF fájlokat alakítják át szerkeszthető (pl. MS Word, Excel, PowerPoint stb.) dokumentumokká. Ezek a programok tehát nemcsak a digitalizálásban nyújtanak segítséget, hanem egy lépésben fel is dolgozhatóak velük a beolvasott dokumentumok, az így kapott elektronikus fájlok pedig a későbbi munka során tetszőlegesen formázhatóak, tovább alakíthatóak. Az OCR szoftver ehhez egyesével szkenneli be és ismeri fel a karaktereket, majd alakítja azokat elektronikus karakterekké, így egy kereshető és szerkeszthető digitális fájlt hoz létre.

Az első ilyen típusú szoftverek a 80-as évek végén, a 90-es évek elején jelentek meg, meglehetősen kezdetleges formában. Az első OCR szoftverek megannyi korláttal rendelkeztek, ezek túlnyomó többségét mára a technológia fejlődése révén sikerült áthidalni, így a karakterfelismerő programok számos fájlformátumot és nyelvet képesek felismerni, feldolgozni, és konvertálni.

Ezen szoftverek további nagy előnye, hogy nemcsak szöveges formában képesek átemelni és megjeleníteni a tartalmat, hanem ezzel egyidejűleg megtartják a forrásdokumentum minden formai elemét, a képeket, táblázatokat, ábrákat, grafikonokat – gyakorlatilag a teljes elrendezést. A legújabb, mobiloptimalizált verziókkal pedig már a mobiltelefonnal vagy tablettel készített jó minőségű képek is feldolgozhatóak, beolvashatóak, és szerkeszthető dokumentummá alakíthatóak.

Az így átkonvertált anyagok minősége azonban számos tényezőtől függ. Többek között a rendelkezésre álló szkennelt dokumentumok minősége (gyenge felbontás, elmosódott részek, túl halvány vagy homályos), és természetesen az OCR szoftver típusa is befolyásolja a végeredményt. A technológia jelenlegi szintjén elsősorban a szkennelt anyagok minősége jelenti a legnagyobb korlátot: a rosszabb minőségű szkennelt vagy fotózott dokumentumok feldolgozása jóval nehézkesebb, időigényesebb és bonyolultabb folyamat, az eredmény pedig sokszor elmarad a tökéletestől: a konvertált szövegben előfordulhatnak kisebb-nagyobb karakterkódolási, formázási hibák, amiket utólag, manuálisan lehet csak korrigálni. Jelenleg több tucat OCR szoftverből válogathatunk, a technológia folyamatos fejlődésével pedig a beolvasott anyagok minősége is fokozatosan javul. A karakterfelismerő programok jelenleg ismert további hátránya, hogy a kézzel írott szöveggel kevés esetben vagy egyáltalán nem tudnak megbirkózni.

Mi az a karakterfelismerő szoftver, és miért van rá szükség?

Hogyan segíti mindez a fordítási munkát?

Az OCR szoftverek természetesen számos területen használhatóak, főként papír alapú dokumentumok digitalizálása során, a fordítási iparágban azonban elsősorban a felismerő funkció használatos, hiszen a fordítási projektek során napi szinten találkozunk különböző szkennelt, illetve nem szerkeszthető anyagokkal, amelyeket fel kell dolgozni a fordítási munka megkezdése előtt. Így még inkább felértékelődik az optikai karakterfelismerő programok szerepe.

Az OCR programok tehát nagyban megkönnyítik a fordítási munkát, és gyorsítják a teljes fordítási folyamatot. Segítségükkel könnyedén feldolgozhatóak a szkennelt szövegek, így analizálhatóak szószám és egyéb szempontok szerint, például a pontos árajánlat elkészítéséhez. További előnyük, hogy a formázás megtartásának köszönhetően gyorsan és könnyedén beazonosíthatóak a lefordított részek, és áttekinthetőbbek lesznek a dokumentumok. Ezzel jelentős mértékben megkönnyítik a munkát egy-egy ajánlatkészítés vagy fordítási projekt során, ugyanis nem szükséges új dokumentumot létrehozva újragépelni és szerkeszteni a teljes szöveges tartalmat, ezzel pedig nemcsak jelentős időt takarítanak meg, hanem a költségeket is csökkentik.

A különböző optikai karakterfelismerő szoftverek tehát jelentős szerepet töltenek be a fordítási folyamatban, s ez a szerep a technológia fejlődésével és tökéletesítésével még tovább nő majd.

 

Hasznos lehet még:

Így lehetséges a dokumentum eredeti elrendezésének és formázásának megtartása a fordítás során

Milyen hatással van a technológiai fejlődés a fordításokra?