Elektronisk ordbog

Giver dig mulighed for hurtigt at finde det rigtige ord , ofte under hensyntagen til morfologi og evnen til at søge efter sætninger (eksempler på brug), samt muligheden for at ændre retningen af ​​oversættelsen (f.eks. engelsk - russisk eller russisk - engelsk ) .

Internt arrangeret som en database med ordbogsopslag .

Maskinlæsbare ordbøger (forkortet MRD) bruges af computerprogrammer til at løse forskellige problemer, for eksempel til behandling af tekster i naturligt sprog . Maskinlæsbare ordbøger er en type elektroniske ordbøger.

Maskinlæsbare ordbøger

Oprettelse af maskinlæsbare ordbøger

Lad os overveje metoder til automatisk oprettelse og genopfyldning af maskinlæsbare (elektroniske) ordbøger.

I projektet Leipzig Corpora Collection [1] (LCC) bygges korpus og ensprogede ordbøger på baggrund af tekster hentet fra internettet [2] . LCC omfatter omkring 400 ordbøger. LCC-projektet brugte teksten fra Verdenserklæringen om Menneskerettigheder som kimen til at søge tekster på internettet , da erklæringen indeholder omkring 2000 almindelige ord og er blevet oversat til 370 sprog og dialekter [3] . Af de 200 Wikipedias blev tekster udvalgt til at samle i alt 70 ordbøger. Ikke alle Wikipedia-tekster er blevet inkluderet i LCC-korpuset, da mange wikier starter med at lave stub-artikler, der indeholder næsten de samme sætninger [3] .

En sådan tilgang er svær at implementere for sprog med lav ressource, men Crúbadán [4] -projektet , der har indsamlet data for mere end 2200 sprog, viser, at automatisk søgning efter sprog repræsenteret på internettet af et lille eller enkelt antal tekster er også muligt [5] . I fremtiden bliver disse tekster brugt til at skabe ordbøger, for eksempel i Crúbadán-projektet blev der indsamlet mere end 100 millioner walisiske ord, og halvdelen af ​​de walisiske tekster med disse ord blev overført til University of Wales for at lave en walisisk ordbog [ 6] .

Brug af maskinlæsbare ordbøger

I 1980'ernes værker blev det foreslået, at der kunne bygges store vidensbaser på basis af maskinlæsbare ordbøger . Men senere blev det erkendt, at til dette skal du bruge mange ressourcer, primært corpora [7] .

Det maksimale, der blev opnået ved at udtrække viden fra ordbøger, var automatisk at bygge flere uperfekte taksonomier [8] .

Vanskeligheder med at udtrække information fra ordbøger:

Format af maskinlæsbare ordbøger

For at bruge maskinlæsbare ordbøger skal de konverteres til et brugbart format. Formatet skal være generelt nok til kompatibilitet mellem forskellige ordbøger, til at skabe en enkelt software og genbruge ordbøger [13] . Et eksempel er formatet udviklet af TEI -fællesskabet [13] .

Nært forbundet med valget af ordbogsformat er opgaven med at vælge en passende model til at repræsentere maskinlæsbare ordbogsdata. Hvis du ser på en ordbogspost, kan du se, at organiseringen af ​​leksikografiske data er meget mere kompliceret end dataene i opgaven " vareleverandør " eller organiseringen af ​​"medarbejderdatabasen". Klassiske ( relationelle ) databaser er ikke ideelle til leksikalske databaser [14] .

I værkerne [15] [16] om forskning inden for databasedesign foreslås en alternativ model for en egenskabsbaseret leksikalsk database. Funktioner ved denne model: (1) understøttelse af indlejringsværdier, (2) der er en arvemekanisme til at eliminere overflødig information.

Populære elektroniske ordbøger

Ordbøger

Programmer

Programmer, hjemmesider osv.

Se også

Noter

  1. Leipzig Corpora Collection
  2. Goldhahn et al., 2012 , s. 760.
  3. 1 2 Goldhahn et al., 2012 , s. 762.
  4. An Crúbadán - Corpus Building for Minority Languages
  5. Scannell, 2007 .
  6. Scannell, 2007 , s. 9.
  7. Ide, Veronis, 1994 , s. 137-138.
  8. Ide, Veronis, 1994 , s. 138.
  9. 1 2 3 Kiselev et al., 2015 .
  10. 1 2 Ide, Veronis, 1994 , s. 139.
  11. Ide, Veronis, 1994 , s. 141.
  12. 1 2 Ide, Veronis, 1994 , s. 140.
  13. 1 2 3 4 Ide, Veronis, 1994 , s. 143.
  14. Ide, Veronis, 1994 , s. 144.
  15. Ide, N., Le Maitre, J., & Veronis, J. (1994). Skitse af en model for leksikalske databaser . In Current Issues in Computational Linguistics: In Honor of Don Walker (s. 283-320). Springer, Dordrecht.
  16. Veronis, J., & Ide, N. (1992, august). En funktionsbaseret model for leksikalske databaser . I Proceedings of the 14th conference on Computational linguistics-Volume 2 (s. 588-594). Foreningen for Datalingvistik.

Litteratur