Tatoeba-projektet | |
---|---|
URL | tatoeba.org |
Kommerciel | Ikke |
Site type | Åbn flersproget online sætningsordbog |
Registrering | Kun påkrævet til redigering |
Sprog) | 19 grænsefladesprog, inklusive russisk ; indhold på 130 sprog (maj 2013) |
Ejer | Trang Ho |
Forfatter | Trang Ho |
Begyndelse af arbejdet | 2006 |
Nuværende status | Faktisk [1] |
Mediefiler på Wikimedia Commons |
Tatoeba- projektet (fra det japanske ord tatoeba ( jap. 例えば, "for eksempel") er et websted til udveksling af eksempler på sætninger på alle tilgængelige sprog i verden. I modsætning til onlineordbøger, der gemmer ordoversættelser, er projektet fokuseret på solide semantiske konstruktioner - sætninger, sætninger, ordsprog osv., deres akkumulerede modstykker på forskellige sprog sammenlignes manuelt eller automatisk med hinanden.Et træk ved projektet er dets åbenhed og offentlig tilgængelighed: Tatoeba er erklæret som en ikke-kommerciel projekt [2], og alle, uanset specialisering og sproglig tilknytning, kan foretage ændringer i projektdatabasen (tilføje og i nogle tilfælde redigere eksisterende sætninger, rette fejl).
Med disse funktioner er Tatoeba-projektet langsomt ved at vinde anerkendelse som et unikt medium for selvstyret læring [3] . Fra december 2010 understøttede projektet 81 sprog og gav 11 sproggrænseflademuligheder; i november 2011 var disse tal henholdsvis 94 og 17; i januar 2014—132 og 19.
Skaberen og lederen af projektet er Chang Ho ( Trang Ho ), en fransk kvinde af vietnamesisk oprindelse [4] . De første eksempler på stedet er dateret 30. september 2007 [5] . Sætning #1 er fra bruger sysko: det er den kinesiske sætning "Lad os se!" [6] .
Princippet i projektet er at indsamle og linke oversættelser af en bestemt sætning på et givet sprog. Systemet analyserer alle modtagne data. Hvis konstruktion A er oversat til et andet sprog som konstruktion B, og det til gengæld som konstruktion C, vil alle tre blive vist som en kæde af direkte eller indirekte oversættelser, som som standard vil blive vist, når der søges efter nogen af fragmenterne af de tilsvarende sætninger A, B og C (antallet af viste sprog kan være begrænset af individuelle brugere).
Alle kan se det akkumulerede materiale, kun registrerede deltagere kan tilføje og redigere det. Medlemmer med erfaring kan få status som "betroet" ("betroet bruger"). Det giver adgang til tags og giver dig også mulighed for at linke passende oversættelser til hinanden eller "afskære" utilstrækkelige oversættelser. En begrænset kreds af projektdeltagere har status som "værger" (korpusvedligeholdere), som har administrative beføjelser.
I modsætning til lærebøger, onlineordbøger og fora er Tatoeba-projektet ikke rettet mod et specifikt sprogpublikum eller en professionel brugerbase. Alle med grundlæggende læsefærdigheder kan registrere og udfylde eksempler på sætninger på deres modersmål eller målsprog [2] . Til arbejde tilbydes brugerne det fulde udvalg af tilgængelige sprog eller muligheden for selektivt at læse med en angivelse af originalsproget og/eller oversættelsen. For dine egne oversættelser til Tatoeba anbefales det samtidig kun at fokusere på originalen, da relaterede oversættelser kan være unøjagtige [2] . Diskussion af nuancerne i oversættelsen er mulig lige der i kommentarerne til hvert af forslagene.
Materialet akkumuleret på denne måde kan distribueres gratis til alle typer brug, inklusive kommercielt, når det sendes til kilden under CC-BY-licensen [7] . Siden har links til at downloade hele materialekorpuset [8] eller dele af det [9] . Den eneste indholdsbegrænsning er forbuddet mod sætninger, der er ophavsretligt beskyttet i henhold til fransk lov.
Hver sætning tildeles et serienummer, når den indsendes til platformen, men nogle bidrag (maskinoversættelse, dubletter, ufærdige sætninger osv.) slettes efterfølgende. Fjernelsesprocenten kan beregnes ved at sammenligne det sidste løbenummer (åbn den øverste sætning i listen over seneste bidrag på forsiden) med sætningstælleren på forsiden. For eksempel den 12. dec. I 2011 var de henholdsvis 1295340 og 1241274.
Grammatisk korrekte sætninger, der ikke matcher godt som oversættelser, kan skilles ad (holde op med at blive vist som en streng), men ikke fjernes. De gemmes i projektbasen som udgangspunkt for nye oversættelser. Historien om ændringer af hver af sætningerne, såvel som forbindelser / afbrydelser mellem dem, er knyttet til hver sætning og er synlig for alle brugere.
Fra juli 2019 understøtter siden teknisk 342 sprog. [10] Den oprindelige ressource for webstedet var det engelsk-japanske Corpus of Language Examples af Prof. Yasuhiro Tanaka . I december 2010 indeholdt Tatoeba over 648.000 sætninger; i april 2012 nåede dette tal næsten 1,5 millioner, den 12. januar var det 2.037.379. Det største antal sætninger (i faldende rækkefølge, februar 2013):
Derudover er der over tusind sætninger på følgende sprog: arabisk , islandsk , hindi , uigurisk , vietnamesisk , norsk ( bokmål ), hviderussisk , Shanghainesisk og kantonesisk kinesisk.
Sammen med naturlige sprog optræder kunstige sprog i projektet : Esperanto , Klingon , Interlingua , CycL , Tokipona .
I første omgang, for at introducere et nyt sprog, var det nok bare at kontakte administratorerne og indtaste fem eksempler på det. Efterfølgende blev certificering af det indførte sprog i henhold til ISO 639-3 standarden et nødvendigt krav . Når du ansøger om tilføjelse af en ny sprogsektion, kan du tilbyde et flagsymbol, der vil angive det på webstedet; dette grafiske tegn er ikke forpligtet til at repræsentere en specifik tilstand fra moderne eller allerede eksisterende [11] .
Ud over den skriftlige transmission af sætninger, indsamler Tatoeba-platformen deres udtale. (Derfor er det forbudt for deltagere at indtaste sætninger med varianter af grammatiske og leksikalske former i parentes, som ville kræve mere end én læsemulighed). For at deltage i genopfyldningen af lydsektionen skal du bestå en akkreditering, der beviser kvaliteten af de optagede eksempler. [1] Af denne grund er Tatoebas lydsektioner relativt langsomme at færdiggøre.
Åbenheden og tilgængeligheden, kombineret med sidens brugervenlighed, har ført til en støt stigning i populariteten. (Webstedets aktivitetsdiagram [12] registrerer antallet af nye sprogeksempler siden 30. september 2007). I december 2010 var antallet af daglige besøgende ca. 1.800 [13] som lagde op til halvanden til to tusinde eksempler om dagen. I 2013 var det andet tal steget til 2,5-3 tusinde.
Tatoeba fremmer internettets åbenhed og frihed i Mozilla Drumbeat- projektet , blandt flere hundrede andre deltagende projekter.
Tatoeba bidrager til mange elektroniske ordbøger og oversættere, såsom den japanske elektroniske ordbog WWWJDIC [14] . Tatoeba samarbejder med Shtooka -projektet , en gratis samling af lydoptagelser af ord, sætninger, ordsprog osv. på forskellige sprog [15] . Platformmaterialet bruges i Glosbe elektroniske ordbøger [16] .
På grundlag af Tatoeba blev der udviklet en applikation til selvstudie af sprog ved hjælp af computer flash-kort TaToTen [17] .
Korpuslingvistik | |
---|---|
engelske korpus |
|
Russisksprogede korpus |
|
Corpora på andre sprog |
|
Organisationer |