Bitekst

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 5. juni 2020; verifikation kræver 1 redigering .

Paralleltekst ( bitekst ) er en tekst på ét sprog sammen med dens oversættelse til et andet sprog. "Parallel tekstjustering" er identifikation af matchende sætninger i begge halvdele af den parallelle tekst. Store samlinger af parallelle tekster kaldes "parallel corpus" (eng. parallel corpora ). Parallel korpusjustering på sætningsniveau er en nødvendig forudsætning for forskellige aspekter af sproglig forskning. Under oversættelsesprocessen kan sætninger opdeles, flettes, slettes, indsættes eller omarrangeres. Som et resultat bliver tilpasning ofte en vanskelig opgave.

Bitekst

Inden for oversættelsesforskning er en "bitekst" et kombineret dokument bestående af kilde- og målsprogsversioner af den tilsvarende tekst. Bitekster oprettes ved hjælp af specielle computerprogrammer kaldet "justeringsværktøjer" ( justeringsværktøj ) eller "bitekstværktøjer" ( bitekstværktøj ), som giver dig mulighed for automatisk at justere den originale version af teksten og dens oversættelse. Sådanne programmer matcher som regel to tekster (original og oversættelse) for hver sætning. Samlingen af ​​bitekster kaldes "bitekstdatabase" eller "tosproget korpus" og kan bruges som reference og til at finde de rigtige kombinationer.

Historie

Ideen om bitekst tilhører Brian Harris, som først skrev en undersøgelse om dette koncept i 1988, og som efterfølgende blev udviklet af en gruppe videnskabsmænd ved University of Montreal (Université de Montréal), kaldet RALI ( Recherche appliquée en linguistique informatique ) eller Applied Research in Computational Linguistics - "Applied Research in Computational Linguistics"). Gruppen bestod af programmører og lingvister, der studerede naturlig tekstbehandling. Bemærkelsesværdige fortalere for Bitext-konceptet er Pierre Isabelle og Claude Bédard.

Bitekster og oversættelseshukommelse

Ideen om "bitekst" har meget til fælles med begrebet oversættelseshukommelse . Hovedforskellen mellem de to er, at oversættelseshukommelse er en database, hvor tekstsegmenter (tilsvarende sætninger) er arrangeret på en sådan måde, at de ikke er relateret til den oprindelige kontekst, dvs. den oprindelige rækkefølge af sætninger går tabt. Bitekst bevarer den oprindelige rækkefølge af sætninger. Standardformatet til udveksling af oversættelseshukommelsesdatabaser mellem forskellige automatiserede oversættelsessystemer er TMX-formatet (en XML-ordbog udgivet af LISA (Localization Industries Association). TMX gør det muligt at bevare den originale rækkefølge af sætninger.

Bitekster er oprettet som et referenceværktøj til konsultationer af specialiserede oversættere, ikke automatiserede programmer. Derfor er små justeringsfejl eller unøjagtigheder, der kan føre til fejl i oversættelseshukommelsen, ingen betydning for dem.

Se også

Noter

Litteratur

Links

Parallelle korpus på internettet

Programmer til justering af parallelle tekster

Dokumentation