Wiktionary | |
---|---|
engelsk Wiktionary | |
URL | wikitionary.org |
Kommerciel | Ikke |
Site type | Netværksordbog |
Registrering | Valgfri |
Sprog) | 170 |
Serverplacering | Miami |
Ejer | Wikimedia Foundation |
Forfatter | Jimmy Wales |
Begyndelse af arbejdet | 12. december 2002 |
Mediefiler på Wikimedia Commons |
Wiktionary er en frit opdateret multifunktionel flersproget ordbog og synonymordbog baseret på en wiki-motor . Et af projekterne i Wikimedia Foundation . Oprindeligt udkom på engelsk den 12. december 2002 .
Ordbogen indeholder grammatiske beskrivelser, fortolkninger og oversættelser af ord. Derudover kan artiklerne afspejle information om ords etymologi , fonetiske egenskaber og semantiske relationer. Wiktionary er således et forsøg på at kombinere grammatik , forklarende , etymologiske og flersprogede ordbøger samt en synonymordbog i ét produkt.
Wiktionary-data bruges aktivt til at løse forskellige problemer relateret til maskinel behandling af tekst og tale .
Gennem det indbyrdes forhold mellem de forskellige sprogsektioner af Wiktionary og mellem bidragydere til Wikimedia Foundations ordforråd og andre projekter , kan bidragydere til hvert projekt bruge de begreber, værktøjer og leksikografiske materialer, der er skabt af deres medtalere på andre sprog. I løbet af arbejdet med forskellige sprogsektioner af ordbogen blev et komplekst koncept af en universel leksikografisk ressource dannet, hvilket blev muligt for første gang takket være elektroniske teknologier. Konceptet forudsætter i sidste ende en fuldstændig, omfattende beskrivelse af alle leksikalske enheder af alle naturlige (og grundlæggende kunstige) sprog, der har et skriftsprog. Fuldstændigheden af beskrivelsen betyder tilgængeligheden af information om fonetik, morfologi, syntaktiske og semantiske egenskaber af den leksikalske enhed, dens etymologi, kompatibilitet og fraseologi. Fuldstændigheden og graden af sammenhæng i implementeringen af dette koncept kan variere i forskellige sprogsektioner af projektet.
I hver sprogsektion er det "titulære" sprog centralt - alle artikler er udelukkende skrevet i det, derudover er målet at give oversættelser af ord og andre enheder af dette sprog til det størst mulige antal andre sprog. Ordene fra andre sprog oversættes som regel kun til dette "titulære" sprog. Så i den russiske Wiktionary for russiske ord gives fortolkninger og oversættelser til fremmedsprog, for fremmede ord, i stedet for fortolkninger, gives oversættelser til russisk .
Ved beskrivelse af morfologien tilstræbes det at give det mest fuldstændige billede af bøjning, herunder angivelse af bøjningsklassen. Især er morfologisk information om russiske leksemer givet i overensstemmelse med klassificeringen foreslået af A. A. Zaliznyak .
For at genopbygge Wiktionary er der lavet en omfattende bibliografi , og den engelske Wiktionary har udviklet regler for at inkludere et udtryk i ordbogen (se Kriterier for optagelse ). I modsætning til russisk Wikipedia , hvor prioritet i udvælgelsen af materiale gives til autoritative kilder [Note 1] , i Russian Wiktionary, er analysen af ordbrug udført af redaktøren af artiklen [Note 2] fremherskende .
Wiktionary indeholder følgende semantiske relationer: synonymer , antonymer , hypernyms , hyponymer , kohyponymer , holonymer , meronymer , paronymer .
Wiktionary indeholder ikke detaljerede beskrivelser af fakta og encyklopædisk information. Wiktionary giver dog unik information, der ikke findes på Wikipedia: kollokationer, ordsprog, forkortelser, akronymer, beskrivelser af stavefejl, forenklede/forvanskede stavemåder/udtale af ord, kontroversielle brugstilfælde, protologismer , onomatopoeia , forskellige stilarter (f.eks. dagligdags) og emner områder [1] . Således supplerer Wikipedia og Wiktionary hinanden.
Wiktionary ligner Wikipedia ved, at (1) der er interne links til indlæg om ord i Wiktionary, (2) der er kategorier, (3) der er interwikier der linker til indlæg om det samme ord i en fremmedsprogsordbog [1] .
Den russiske del af Wiktionary blev oprettet i foråret 2004 . I halvandet år udviklede det sig praktisk talt ikke og genopfyldte sig selv tilfældigt, hovedsageligt med materiale af lav kvalitet. Situationen begyndte at ændre sig i slutningen af 2005 - begyndelsen af 2006 .
I 2006 blev den første administrator af Schwallex udnævnt , mængden af artikler steg næsten fire gange i forhold til året før, kraftfulde værktøjer til at beskrive morfologi blev skabt, og et udviklet system af semantiske kategorier begyndte at tage form.
I efteråret 2006 var antallet af opslag i den russiske Wiktionary nået op på 10.000; så, takket være oprettelsen af en bot, der bruger ordbøger fra andre sektioner af Wiktionary til at generere tomme artikler i den russiske sektion, blev der tilføjet omkring 70.000 flere artikler på halvanden måned. Den 7. november 2006 krydsede Wiktionary 80.000-grænsen, og den 10. december 2006 blev milepælen på 100.000 poster taget. Den 17. december 2018 oversteg antallet af artikler 1.000.000. Antallet af aktive deltagere var omkring 230.
I modsætning til situationen med traditionelle ordbøger kan fuldstændigheden af Wiktionary ikke vurderes tilstrækkeligt ved en formel indikator for antallet af opslag. Den automatiske tæller skelner ikke mellem halvtomme diske og virkelig informative artikler, derudover tager den ikke højde for intralingual og interlingual homonymi. For eksempel er ordbogsposten boron opført som én post, i mellemtiden beskriver denne artikel flere homonyme leksemer af det russiske sprog, såvel som leksemer af samme navn på andre sprog (bulgarsk, tatarisk), - i traditionelle ordbøger dette materiale ville blive arrangeret og taget i betragtning i form af flere poster.
Fra august 2008 kom den russiske Wiktionary ud i toppen med hensyn til databasestørrelse blandt alle Wiktionaries [3] . Samtidig er antallet af opslag i den russiske Wiktionary ikke det største [4] . Det skyldes blandt andet, at for projekter, der har flere artikler end i den russiske Wiktionary, kan artiklerne have en gennemsnitlig størrelse på en mindre størrelse, som det kan ses på statistikhjemmesiden [5] .
Derudover indeholder den russiske Wiktionary, sammenlignet med andre sektioner af Wiktionary, en større mængde hjælpeinformation, herunder opslagstabeller, lister over hyppige ord osv. (i modsætning til ordbogsposter, der udgør det såkaldte hovednavneområde, er sådanne oplysninger placeret i sektionerne ", "Indekser" osv.). Et betydeligt antal poster i den russiske Wiktionary er stadig tomme, der er genereret af bots. Selvom man nogle gange kan støde på kritik af et stort antal tomme artikler, har en sådan pre-markup mange fordele. For det første hjælper det med at skabe artikler hurtigere ved at forudinkludere nogle oplysninger, såsom orddelen af det ord, der beskrives. For det andet er strukturen af artikler ved at blive standardiseret. På grund af den udbredte brug af skabeloner (som normalt straks lægges ned af bots ved automatisk oprettelse af artikler), bliver det muligt centralt at ændre udseendet af mange artikler på én gang. Tilstedeværelsen af et stort antal skabeloner hjælper også med at udføre yderligere automatiseret redigering af allerede oprettede artikler - for eksempel automatisk lægge oversættelsen ned i henhold til forhåndsforberedte ordbøger (da det er lettere for bots at navigere i strukturen af en artikel allerede markeret med specialiserede strukturer snarere end menneskeligt sprog). Et karakteristisk træk ved den russiske Wiktionary er et veludviklet udviklingsbegreb (som kan findes på hovedsiden). På grund af det veludviklede koncept og den brede brug af skabeloner ser artikler i den russiske Wiktionary mere ud af samme type end i mange andre projekter (antallet af sektioner, rækkefølgen de vises i, designet af hver sektion er grundlæggende samme).
Forfatterne har beregnet antallet af ordbogsoptegnelser om russiske ord, antallet af opslag med og uden fortolkninger i to Wiktionarys (illustreret). Politiken for redaktørerne af den engelske Wiktionary (ikke at oprette tomme artikler) blev bekræftet: der er kun 5,57% af ordbogsposter om russiske ord uden fortolkning. I den russiske Wiktionary er der 60,39% af sådanne artikler. Men i den russiske Wiktionary (fra 2011) er der næsten 3,4 gange flere opslag med fortolkninger af russiske ord end i den engelske Wiktionary: 53,6 tusinde mod 15,7 tusinde [2] .
For at bruge Wiktionary leksikografiske data til at løse problemer med automatisk tekst- og talebehandling, er det nødvendigt at konvertere teksterne i ordbogsopslag ( semi-strukturerede data [6] ) til et maskinlæsbart format [7] [8] [9] .
Det er ikke en nem opgave at udtrække data fra Wiktionaries. Følgende vanskeligheder kan identificeres [10] : (1) regelmæssige og hyppige ændringer i både data og selve strukturen af artikler, (2) forskellige Wiktionaries har en forskellig struktur og format af artikler [Note 3] , (3) wiki -teknologi er oprindeligt fokuseret på brugervenlighed menneskelig, ikke maskinfremstillet.
Der er flere parsere til forskellige Wiktionaries [11] :
Wiktionaries bruges til at løse forskellige opgaver relateret til tekst- og talebehandling [19] :
Wikipedia-artikler skal være baseret på offentliggjorte autoritative kilder .
Hvis der er uenighed om nogen af de beskrevne egenskaber ved en sprogenhed, prioriteres (med hensyn til bevis) til korpuskilder.
![]() | |
---|---|
Ordbøger og encyklopædier |
Wikimedia Foundation | ||||||
---|---|---|---|---|---|---|
Mennesker |
| |||||
Projekter |
| |||||
Andet |
| |||||
Relaterede |
|