Wiktionary

Wiktionary
engelsk Wiktionary


URL	wikitionary.org
Kommerciel	Ikke
Site type	Netværksordbog
Registrering	Valgfri
Sprog)	170
Serverplacering	Miami
Ejer	Wikimedia Foundation
Forfatter	Jimmy Wales
Begyndelse af arbejdet	12. december 2002
Mediefiler på Wikimedia Commons

Wiktionary er en frit opdateret multifunktionel flersproget ordbog og synonymordbog baseret på en wiki-motor . Et af projekterne i Wikimedia Foundation . Oprindeligt udkom på engelsk den 12. december 2002 .

Ordbogen indeholder grammatiske beskrivelser, fortolkninger og oversættelser af ord. Derudover kan artiklerne afspejle information om ords etymologi , fonetiske egenskaber og semantiske relationer. Wiktionary er således et forsøg på at kombinere grammatik , forklarende , etymologiske og flersprogede ordbøger samt en synonymordbog i ét produkt.

Wiktionary-data bruges aktivt til at løse forskellige problemer relateret til maskinel behandling af tekst og tale .

Leksikografisk koncept

Gennem det indbyrdes forhold mellem de forskellige sprogsektioner af Wiktionary og mellem bidragydere til Wikimedia Foundations ordforråd og andre projekter , kan bidragydere til hvert projekt bruge de begreber, værktøjer og leksikografiske materialer, der er skabt af deres medtalere på andre sprog. I løbet af arbejdet med forskellige sprogsektioner af ordbogen blev et komplekst koncept af en universel leksikografisk ressource dannet, hvilket blev muligt for første gang takket være elektroniske teknologier. Konceptet forudsætter i sidste ende en fuldstændig, omfattende beskrivelse af alle leksikalske enheder af alle naturlige (og grundlæggende kunstige) sprog, der har et skriftsprog. Fuldstændigheden af beskrivelsen betyder tilgængeligheden af information om fonetik, morfologi, syntaktiske og semantiske egenskaber af den leksikalske enhed, dens etymologi, kompatibilitet og fraseologi. Fuldstændigheden og graden af sammenhæng i implementeringen af dette koncept kan variere i forskellige sprogsektioner af projektet.

I hver sprogsektion er det "titulære" sprog centralt - alle artikler er udelukkende skrevet i det, derudover er målet at give oversættelser af ord og andre enheder af dette sprog til det størst mulige antal andre sprog. Ordene fra andre sprog oversættes som regel kun til dette "titulære" sprog. Så i den russiske Wiktionary for russiske ord gives fortolkninger og oversættelser til fremmedsprog, for fremmede ord, i stedet for fortolkninger, gives oversættelser til russisk .

Ved beskrivelse af morfologien tilstræbes det at give det mest fuldstændige billede af bøjning, herunder angivelse af bøjningsklassen. Især er morfologisk information om russiske leksemer givet i overensstemmelse med klassificeringen foreslået af A. A. Zaliznyak .

For at genopbygge Wiktionary er der lavet en omfattende bibliografi , og den engelske Wiktionary har udviklet regler for at inkludere et udtryk i ordbogen (se Kriterier for optagelse ). I modsætning til russisk Wikipedia , hvor prioritet i udvælgelsen af materiale gives til autoritative kilder [Note 1] , i Russian Wiktionary, er analysen af ordbrug udført af redaktøren af artiklen [Note 2] fremherskende .

Thesaurus

Wiktionary indeholder følgende semantiske relationer: synonymer , antonymer , hypernyms , hyponymer , kohyponymer , holonymer , meronymer , paronymer .

Wikipedia og Wiktionary

Wiktionary indeholder ikke detaljerede beskrivelser af fakta og encyklopædisk information. Wiktionary giver dog unik information, der ikke findes på Wikipedia: kollokationer, ordsprog, forkortelser, akronymer, beskrivelser af stavefejl, forenklede/forvanskede stavemåder/udtale af ord, kontroversielle brugstilfælde, protologismer , onomatopoeia , forskellige stilarter (f.eks. dagligdags) og emner områder [1] . Således supplerer Wikipedia og Wiktionary hinanden.

Wiktionary ligner Wikipedia ved, at (1) der er interne links til indlæg om ord i Wiktionary, (2) der er kategorier, (3) der er interwikier der linker til indlæg om det samme ord i en fremmedsprogsordbog [1] .

Russisk sektion

Dynamikken i udviklingen af den russiske Wiktionary

Den russiske del af Wiktionary blev oprettet i foråret 2004 . I halvandet år udviklede det sig praktisk talt ikke og genopfyldte sig selv tilfældigt, hovedsageligt med materiale af lav kvalitet. Situationen begyndte at ændre sig i slutningen af 2005 - begyndelsen af 2006 .

I 2006 blev den første administrator af Schwallex udnævnt , mængden af artikler steg næsten fire gange i forhold til året før, kraftfulde værktøjer til at beskrive morfologi blev skabt, og et udviklet system af semantiske kategorier begyndte at tage form.

I efteråret 2006 var antallet af opslag i den russiske Wiktionary nået op på 10.000; så, takket være oprettelsen af en bot, der bruger ordbøger fra andre sektioner af Wiktionary til at generere tomme artikler i den russiske sektion, blev der tilføjet omkring 70.000 flere artikler på halvanden måned. Den 7. november 2006 krydsede Wiktionary 80.000-grænsen, og den 10. december 2006 blev milepælen på 100.000 poster taget. Den 17. december 2018 oversteg antallet af artikler 1.000.000. Antallet af aktive deltagere var omkring 230.

I modsætning til situationen med traditionelle ordbøger kan fuldstændigheden af Wiktionary ikke vurderes tilstrækkeligt ved en formel indikator for antallet af opslag. Den automatiske tæller skelner ikke mellem halvtomme diske og virkelig informative artikler, derudover tager den ikke højde for intralingual og interlingual homonymi. For eksempel er ordbogsposten boron opført som én post, i mellemtiden beskriver denne artikel flere homonyme leksemer af det russiske sprog, såvel som leksemer af samme navn på andre sprog (bulgarsk, tatarisk), - i traditionelle ordbøger dette materiale ville blive arrangeret og taget i betragtning i form af flere poster.

Sammenligning med andre Wiktionaries

Fra august 2008 kom den russiske Wiktionary ud i toppen med hensyn til databasestørrelse blandt alle Wiktionaries [3] . Samtidig er antallet af opslag i den russiske Wiktionary ikke det største [4] . Det skyldes blandt andet, at for projekter, der har flere artikler end i den russiske Wiktionary, kan artiklerne have en gennemsnitlig størrelse på en mindre størrelse, som det kan ses på statistikhjemmesiden [5] .

Derudover indeholder den russiske Wiktionary, sammenlignet med andre sektioner af Wiktionary, en større mængde hjælpeinformation, herunder opslagstabeller, lister over hyppige ord osv. (i modsætning til ordbogsposter, der udgør det såkaldte hovednavneområde, er sådanne oplysninger placeret i sektionerne ", "Indekser" osv.). Et betydeligt antal poster i den russiske Wiktionary er stadig tomme, der er genereret af bots. Selvom man nogle gange kan støde på kritik af et stort antal tomme artikler, har en sådan pre-markup mange fordele. For det første hjælper det med at skabe artikler hurtigere ved at forudinkludere nogle oplysninger, såsom orddelen af det ord, der beskrives. For det andet er strukturen af artikler ved at blive standardiseret. På grund af den udbredte brug af skabeloner (som normalt straks lægges ned af bots ved automatisk oprettelse af artikler), bliver det muligt centralt at ændre udseendet af mange artikler på én gang. Tilstedeværelsen af et stort antal skabeloner hjælper også med at udføre yderligere automatiseret redigering af allerede oprettede artikler - for eksempel automatisk lægge oversættelsen ned i henhold til forhåndsforberedte ordbøger (da det er lettere for bots at navigere i strukturen af en artikel allerede markeret med specialiserede strukturer snarere end menneskeligt sprog). Et karakteristisk træk ved den russiske Wiktionary er et veludviklet udviklingsbegreb (som kan findes på hovedsiden). På grund af det veludviklede koncept og den brede brug af skabeloner ser artikler i den russiske Wiktionary mere ud af samme type end i mange andre projekter (antallet af sektioner, rækkefølgen de vises i, designet af hver sektion er grundlæggende samme).

Forfatterne har beregnet antallet af ordbogsoptegnelser om russiske ord, antallet af opslag med og uden fortolkninger i to Wiktionarys (illustreret). Politiken for redaktørerne af den engelske Wiktionary (ikke at oprette tomme artikler) blev bekræftet: der er kun 5,57% af ordbogsposter om russiske ord uden fortolkning. I den russiske Wiktionary er der 60,39% af sådanne artikler. Men i den russiske Wiktionary (fra 2011) er der næsten 3,4 gange flere opslag med fortolkninger af russiske ord end i den engelske Wiktionary: 53,6 tusinde mod 15,7 tusinde [2] .

Anvendelse i NLP- opgaver

For at bruge Wiktionary leksikografiske data til at løse problemer med automatisk tekst- og talebehandling, er det nødvendigt at konvertere teksterne i ordbogsopslag ( semi-strukturerede data [6] ) til et maskinlæsbart format [7] [8] [9] .

Det er ikke en nem opgave at udtrække data fra Wiktionaries. Følgende vanskeligheder kan identificeres [10] : (1) regelmæssige og hyppige ændringer i både data og selve strukturen af artikler, (2) forskellige Wiktionaries har en forskellig struktur og format af artikler [Note 3] , (3) wiki -teknologi er oprindeligt fokuseret på brugervenlighed menneskelig, ikke maskinfremstillet.

Der er flere parsere til forskellige Wiktionaries [11] :

DBpedia Wiktionary er en af udvidelserne af DBpedia- projektet , data er udtrukket fra de engelske, franske, tyske og russiske Wiktionaries. Uddrag: sprog, ordled, fortolkning, semantiske relationer, oversættelser. Til dataudtræk bruges følgende: deklarativ beskrivelse af ordbogsindgangsstrukturen [12] , regulære udtryk [13] og FST - en slags tilstandsmaskine [14] .
JWKTL (Java Wiktionary Library) - API til data fra de engelske og tyske Wiktionaries [15] . Uddrag: sprog, ordled, fortolkning, citater, semantiske relationer, etymologi og oversættelser. Programmet er tilgængeligt til ikke-kommerciel brug.
wikokit er en parser for de engelske og russiske Wiktionaries [16] . Uddrag: sprog, ordled, fortolkning, citater [17] (kun for russisk Wiktionary), semantiske relationer [18] og oversættelser. Kildekoden til programmet er tilgængelig under vilkårene for en åben multi -licens .

Wiktionaries bruges til at løse forskellige opgaver relateret til tekst- og talebehandling [19] :

regelbaseret maskinoversættelse mellem hollandsk og afrikaans ; data fra de engelske og hollandske Wiktionaries og to wikipediaer bruges inden for rammerne af Apertium -systemet [20] ;
oprettelse af en maskinlæsbar ordbog af NULEX-parseren, der integrerer åbne sproglige ressourcer: Engelsk Wiktionary, WordNet og VerbNet [21] . For et substantiv blev ordled og flertalsform uddraget fra den engelske Wiktionary, og for verber, tiden. Screen scraping blev brugt til at udtrække data fra Wiktionary ;
talegenkendelse og syntese , hvor Wiktionary fungerer som en datakilde til automatisk opbygning af en udtaleordbog [22] . Ordudtalepar er udtrukket (transskription i IPA -systemet ) fra de tjekkiske, engelske, franske, tyske, polske og spanske Wiktionaries [Note 4] . Ved kontrol viste det største antal fejl sig at være i transskriptioner uddraget fra den engelske Wiktionary [23] ;
opbygning af ontologier [24] og vidensbaser [25] ;
ontologi kortlægning [26] ;
forenkling af teksten . I [27] estimeres ords kompleksitet baseret på Wiktionary-data. For et ord fra den engelske Wiktionary uddrages følgende: størrelsen af ordbogsposten, antallet af orddele, antallet af betydninger og antallet af oversættelser. Forfatterne af [27] foreslog, at enklere, mere grundlæggende, mere almindelige ord ville være dem, der har flere betydninger (det vil sige, at artiklens størrelse vil være større), flere dele af tale og flere oversættelser. Yderligere skal de "komplekse" ord, der findes i teksten, omskrives, mere "simple" ækvivalenter bør findes, hvilket vil føre til forenkling (tilpasning) af teksten;
delvis markering . I (Lee et al., 2012) [28] , baseret på data fra den engelske Wiktionary, blev POS-taggere bygget til otte sprog med "dårlige sproglige ressourcer" ved hjælp af skjulte Markov-modeller . [Note 5]
tekstsentimentanalyse [29] .

Se også

Tatoeba

Noter

Kommentarer

↑ Wikipedia: Autoritative kilder
Wikipedia-artikler skal være baseret på offentliggjorte autoritative kilder .
↑ Wiktionary: Leksikografisk koncept
Hvis der er uenighed om nogen af de beskrevne egenskaber ved en sprogenhed, prioriteres (med hensyn til bevis) til korpuskilder.
↑ Sammenlign for eksempel strukturen og reglerne for formatering af artikler i den engelske Wiktionary og den Russiske Wiktionary .
↑ Hvis der er flere transskriptioner i ordbogsopslaget, tages den første.
↑ Kildekoden til programmet og resultaterne af delvis tagging er tilgængelige online: https://code.google.com/p/wikily-supervised-pos-tagger Arkiveret 14. april 2013 på Wayback Machine

Kilder

↑ 12 Zesch et al, 2008 , s. 2.
↑ 1 2 Smirnov et al., 2012 .
↑ Wiktionary-statistik: Databasestørrelse . Dato for adgang: 28. oktober 2010. Arkiveret fra originalen den 10. august 2011. (ubestemt)
↑ Wiktionary statistik . Hentet 14. februar 2010. Arkiveret fra originalen 5. januar 2009. (ubestemt)
↑ Wiktionary-statistik: Bytes pr. artikel . Hentet 14. februar 2010. Arkiveret fra originalen 10. august 2011. (ubestemt)
↑ Meyer og Gurevych, 2012 , s. 140.
↑ Zesch et al, 2008 , figur 1, s. fire.
↑ Meyer og Gurevych, 2010 , s. 40.
↑ Krizhanovsky, Transformation, 2010 , s. en.
↑ Hellmann og Auer, 2013 , s. 16 i PDF, s. 302.
↑ Hellmann et al, 2012 , tabel 1, s. 3.
↑ Hellmann et al, 2012 , s. 8-9.
↑ Hellmann et al, 2012 , s. ti.
↑ Hellmann et al, 2012 , s. elleve.
↑ Zesch et al., 2008 .
↑ Krizhanovsky, Transformation, 2010 .
↑ Krizhanovsky, 2011 .
↑ Krizhanovsky, Sammenligning, 2010 .
↑ Smirnov et al., 2012 , s. 233-234.
↑ Otte og Tyers, 2011 .
↑ McFate og Forbus, 2011 .
↑ Schlippe et al., 2012 .
↑ Schlippe et al., 2012 , s. 4804.
↑ Meyer og Gurevych, 2012 .
↑ ConceptNet 5 . Hentet 17. april 2013. Arkiveret fra originalen 19. april 2013. (ubestemt)
↑ Lin og Krizhanovsky, 2011 .
↑ 12 Medero og Ostendorf, 2009 .
↑ Li et al, 2012 .
↑ Chesley et al., 2006 .

Litteratur

Krizhanovsky A. Transformering af strukturen af en Wiktionary-ordbogsindgang til tabeller og relationer i en relationel database : fortryk. – 2010.
Krizhanovsky A. Sammenligning af synonymordbog i de russiske og engelske Wiktionaries konverteret til et maskinlæsbart format : fortryk. – 2010.
Krizhanovsky A. Evaluering af brugen af korpus og digitale biblioteker i den russiske Wiktionary // Proceedings of the international conference "Corpus Linguistics-2011". - Sankt Petersborg. : St. Petersborg stat. Universitet, Det Filologiske Fakultet, 2011. - S. 217-222. — 348 s. - ISBN 978-5-8465-0005-5 .
Smirnov A. V., Kruglov V. M., Krizhanovsky A. A., Lugovaya N. B., Karpov A. A., Kipyatkova I. S. Kvantitativ analyse af russisk WordNet-ordforråd og Wiktionaries // Proceedings of SPIIRAS. - Sankt Petersborg. , 2012. - T. 23. - S. 231–253.
Chesley P., Vincent B., Li Xu, Srihari RK Brug af verber og adjektiver til automatisk at klassificere blogfølelse // Træning. - 2006. - T. 580. - S. 233-235.
Hellmann S., Brekle J., Auer S. Udnyttelse af Crowdsourcing af leksikalske ressourcer til bootstrapping af en sproglig datasky : Proc. Fælles Int. Semantisk teknologikonference (JIST), 2.-4. dec. — Nara, Japan, 2012.
Hellmann S., Auer S. Towards Web-Scale Collaborative Knowledge Extraction // The People's Web Meets NLP / Gurevych, Iryna; Kim, Jungi. - Springer, 2013. - S. 287-313. — 378 s. - (Teori og anvendelser af naturlig sprogbehandling). - ISBN 978-3-642-35084-9 .
Li S., Graça JV, Taskar B. Wiki-ly-overvåget del-of-speech tagging : Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. - Jeju Island, Korea: Association for Computational Linguistics, 2012. - S. 1389-1398 . Arkiveret fra originalen den 22. maj 2013.
Lin F., Krizhanovsky A. Flersproget ontologimatchning baseret på Wiktionary-data tilgængelig via SPARQL-endepunkt // Proc. af den 13. russiske konference om digitale biblioteker RCDL'2011. 19-22 oktober, Voronezh, Rusland. - 2011. - S. 19-26.
McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon // The 49th Annual Meeting of Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19.-24. juni, 2011, Portland, Oregon, USA - Korte papirer. - Foreningen for Computerlingvistik, 2011. - S. 363-367. - ISBN 978-1-932432-88-6 .
Medero J. og Ostendorf M. Analyse af ordforrådsvanskeligheder ved hjælp af wiktionary // Proc. SLATE Workshop. – 2009.
Meyer CM og Gurevych I. Værd sin vægt i guld eller endnu en ressource - En sammenlignende undersøgelse af Wiktionary, OpenThesaurus og GermaNet : Proc. 11. internationale konference om intelligent tekstbehandling og computerlingvistik. - Iasi, Rumænien, 2010. - S. 38-49 . Arkiveret fra originalen den 1. december 2017.
Meyer CM og Gurevych I. OntoWiktionary – Constructing an Ontology from the Collaborative Online Dictionary Wiktionary // Semi-Automatic Ontology Development: Processes and Resources / MT Pazienza og A. Stellato. - IGI Global, 2012. - S. 131-161. — ISBN 978-1-4666-0188-8 .
Otte P., Tyers FM Hurtig regelbaseret maskinoversættelse mellem hollandsk og afrikaans // EAMT 2011: proc. af den 15. konference i European Association for Machine Translation / Mikel L. Forcada, Heidi Depraetere, Vincent Vandeghinste. - Leuven, Belgien, 2011. - S. 153-160.
Schlippe T., Ochs S., Schultz T. Grafem-til-fonem-modelgenerering for indoeuropæiske sprog // I forbindelse med den 37. internationale konference om akustik, tale og signalbehandling (ICASSP 2012), Kyoto, Japan , 25 -30 Mar. - 2012. - S. 4801-4804.
Zesch T., Müller C., Gurevych I. Uddrag af leksikalsk semantisk viden fra Wikipedia og Wiktionary. :Proc. af den 6. internationale konference om sprogressourcer og evaluering. — Marrakech, Marokko, 2008.

Links

I sociale netværk	Twitter
Ordbøger og encyklopædier	stor kinesisk

Wikimedia Foundation

Mennesker

Drift	Maryana Iskander Daryush Emelnyak Rebecca McKinnon Raju Narisetti Rosie Stevenson - Godnat Ezra Al Jimmy Wales
Skuespiller	Hampton Katlin Denise Bishaha Datta Florence Devoir Oscar van Sue Gardner Arnon Geshuri Mike Godwin Aaron Hafeiker James Heilman Guy Kawasaki Particio Lorente Katherine Mar Erik Möller Larry Sanger Laila Tretikov Luis Villa

Projekter

Andet

Wikimedia bevægelse
- Wikimedias regionale organisationer
Wikimania
Indaba
MediaWiki
Retssager
- Wikimedia Foundation v. NSA
Videnssystem

Relaterede

Vejviseren
Wikipedia monument
Årets Wikimedian
Tides Foundation
Wikipedia for verdensarv