Elektronisk ordbog
Giver dig mulighed for hurtigt at finde det rigtige ord , ofte under hensyntagen til morfologi og evnen til at søge efter sætninger (eksempler på brug), samt muligheden for at ændre retningen af oversættelsen (f.eks. engelsk - russisk eller russisk - engelsk ) .
Internt arrangeret som en database med ordbogsopslag .
Maskinlæsbare ordbøger (forkortet MRD) bruges af computerprogrammer til at løse forskellige problemer, for eksempel til behandling af tekster i naturligt sprog . Maskinlæsbare ordbøger er en type elektroniske ordbøger.
Maskinlæsbare ordbøger
Oprettelse af maskinlæsbare ordbøger
Lad os overveje metoder til automatisk oprettelse og genopfyldning af maskinlæsbare (elektroniske) ordbøger.
I projektet Leipzig Corpora Collection [1] (LCC) bygges korpus og ensprogede ordbøger på baggrund af tekster hentet fra internettet [2] . LCC omfatter omkring 400 ordbøger. LCC-projektet brugte teksten fra Verdenserklæringen om Menneskerettigheder som kimen til at søge tekster på internettet , da erklæringen indeholder omkring 2000 almindelige ord og er blevet oversat til 370 sprog og dialekter [3] . Af de 200 Wikipedias blev tekster udvalgt til at samle i alt 70 ordbøger. Ikke alle Wikipedia-tekster er blevet inkluderet i LCC-korpuset, da mange wikier starter med at lave stub-artikler, der indeholder næsten de samme sætninger [3] .
En sådan tilgang er svær at implementere for sprog med lav ressource, men Crúbadán [4] -projektet , der har indsamlet data for mere end 2200 sprog, viser, at automatisk søgning efter sprog repræsenteret på internettet af et lille eller enkelt antal tekster er også muligt [5] . I fremtiden bliver disse tekster brugt til at skabe ordbøger, for eksempel i Crúbadán-projektet blev der indsamlet mere end 100 millioner walisiske ord, og halvdelen af de walisiske tekster med disse ord blev overført til University of Wales for at lave en walisisk ordbog [ 6] .
Brug af maskinlæsbare ordbøger
I 1980'ernes værker blev det foreslået, at der kunne bygges store vidensbaser på basis af maskinlæsbare ordbøger . Men senere blev det erkendt, at til dette skal du bruge mange ressourcer, primært corpora [7] .
Det maksimale, der blev opnået ved at udtrække viden fra ordbøger, var automatisk at bygge flere uperfekte taksonomier [8] .
Vanskeligheder med at udtrække information fra ordbøger:
- Konvertering fra det originale format kræver en stor indsats, og denne opgave er værdig til en separat undersøgelse, dog foretrækker videnskabsmænd at beskæftige sig med mere videnskabelige opgaver [10] . Vanskeligheden er, at uklarhederne og modsætningerne i reglerne for organisering af den originale ordbog udelukker muligheden for at bygge en fuldautomatisk ordbogsparser. At bygge sådanne parsere er en tidskrævende og utaknemmelig opgave, så der er meget få ordbøger tilgængelige til computerbehandling [10] .
- Modsigelser og uoverensstemmelser i ordbøger fører til opbygningen af meget forskellige semantiske netværk for forskellige ordbøger [11] . Kontrol af fragmenter af de fem vigtigste engelske ordbøger viste, at i 50-70% af tilfældene er informationen i ordbøgernes fortolkninger forvrænget eller mangler [12] . Det samme beklagelige billede får man i analysen af de tre franske hovedordbøger. Det følger heraf, at de WSD- metoder , der er baseret på analyse af fortolkningstekster, ikke vil fungere i disse talrige tilfælde [12] .
- Delvis manuel verifikation er nødvendig for at opbygge vidensbaser af høj kvalitet på ordbøger [13] .
- Integration af flere datakilder er påkrævet . Det giver mening at kombinere information fra flere ordbøger, da ufuldstændigheden af en ordbog kompenseres af en anden, som har andre huller og udeladelser af information. I et lille eksperiment med at opbygge et hierarki af fem engelske ordbøger blev fejlprocenten reduceret fra 55-70 % til 5 %. Kvaliteten af de oplysninger, der udvindes ved kombination af ordbøger, er forbedret, men manuel verifikation er nødvendig [13] . Til gengæld viste analysen af 12 russiske ordbøger, at der er store skæringspunkter mellem ordbøgernes ordbøger [9] . Figuren viser andelen af "unik" ordforråd i hver af de betragtede russiske ordbøger [9] .
Format af maskinlæsbare ordbøger
For at bruge maskinlæsbare ordbøger skal de konverteres til et brugbart format. Formatet skal være generelt nok til kompatibilitet mellem forskellige ordbøger, til at skabe en enkelt software og genbruge ordbøger [13] . Et eksempel er formatet udviklet af TEI -fællesskabet [13] .
Nært forbundet med valget af ordbogsformat er opgaven med at vælge en passende model til at repræsentere maskinlæsbare ordbogsdata. Hvis du ser på en ordbogspost, kan du se, at organiseringen af leksikografiske data er meget mere kompliceret end dataene i opgaven " vareleverandør " eller organiseringen af "medarbejderdatabasen". Klassiske ( relationelle ) databaser er ikke ideelle til leksikalske databaser [14] .
I værkerne [15] [16] om forskning inden for databasedesign foreslås en alternativ model for en egenskabsbaseret leksikalsk database. Funktioner ved denne model: (1) understøttelse af indlejringsværdier, (2) der er en arvemekanisme til at eliminere overflødig information.
Populære elektroniske ordbøger
Ordbøger
Programmer
Programmer, hjemmesider osv.
- ABBYY Lingvo
- DICT - netværksprotokol
- Multitran
- polyglossum
- MultiLex - Russisk-engelsk, tysk, fransk, spansk, italiensk, portugisisk og flersprogede ordbøger. De omfatter forklarende ordbøger og tematiske ordforrådsbaser til oversættelse af specialiseret ordforråd.
Se også
Noter
- ↑ Leipzig Corpora Collection
- ↑ Goldhahn et al., 2012 , s. 760.
- ↑ 1 2 Goldhahn et al., 2012 , s. 762.
- ↑ An Crúbadán - Corpus Building for Minority Languages
- ↑ Scannell, 2007 .
- ↑ Scannell, 2007 , s. 9.
- ↑ Ide, Veronis, 1994 , s. 137-138.
- ↑ Ide, Veronis, 1994 , s. 138.
- ↑ 1 2 3 Kiselev et al., 2015 .
- ↑ 1 2 Ide, Veronis, 1994 , s. 139.
- ↑ Ide, Veronis, 1994 , s. 141.
- ↑ 1 2 Ide, Veronis, 1994 , s. 140.
- ↑ 1 2 3 4 Ide, Veronis, 1994 , s. 143.
- ↑ Ide, Veronis, 1994 , s. 144.
- ↑ Ide, N., Le Maitre, J., & Veronis, J. (1994). Skitse af en model for leksikalske databaser . In Current Issues in Computational Linguistics: In Honor of Don Walker (s. 283-320). Springer, Dordrecht.
- ↑ Veronis, J., & Ide, N. (1992, august). En funktionsbaseret model for leksikalske databaser . I Proceedings of the 14th conference on Computational linguistics-Volume 2 (s. 588-594). Foreningen for Datalingvistik.
Litteratur
- Goldhahn D., Eckart T., Quasthoff U. Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: Fra 100 til 200 sprog // LREC : Istanbul , Tyrkiet. - 2012. - Bd. 29 . - S. 759-765 .
- Ide, N., & Véronis, J. Maskinlæsbare ordbøger: Hvad har vi lært, hvor går vi hen // Proceedings of the International Workshop on the Future of Lexical Research: Beijing, Kina. - 1994. - S. 137-146 .
- Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N. Russisk leksikografisk landskab: en fortælling om 12 ordbøger (engelsk) // Computational Linguistics and Intellectual Technologies: "Dialogue". — Moskva: RGGU, 2015. — Iss. 14 (21) . - S. 254-271 .
- Scannell KP Crúbadán-projektet: Corpus-bygning til sprog med mindre ressourcer // Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. - 2007. - Bd. 4 . - S. 5-15 .