Opløsning af leksikalsk polysemi

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 3. april 2021; checks kræver 12 redigeringer .

Ordsans- disambiguation ( WSD ) er et  uløst naturligt sprogbehandlingsproblem , som består i opgaven med at vælge betydningen (eller betydningen) af et flertydigt ord eller en sætning afhængigt af konteksten , hvori det er placeret. Dette problem opstår i diskursiv analyse , når man optimerer relevansen af ​​resultater af søgemaskiner, når man løser anaforiske referencer , når man studerer den sproglige sammenhæng i en tekst, når man analyserer slutninger .

Videnskabelig forskning i opløsning af leksikalsk polysemi har været inden for anvendt og datalingvistik i lang tid og har en lang historie. I årenes løb er antallet af foreslåede løsninger og deres effektivitet vokset støt, indtil effektiviteten har nået et vist niveau af relativt effektiv nøjagtighed for en bestemt række ord og typer af polysemi . Problemet har endnu ikke fået en fuldstændig løsning, da mange problemer, der er direkte relateret til de sproglige træk ved menneskelig tale, står i vejen for en vellykket løsning.

En lang række metoder er blevet undersøgt, lige fra vidensbaserede metoder, regler, leksikografiske kilder, superviseret læring på et korpus af tekster, til uovervågede læringsmetoder , der klynger ord baseret på betydning. Blandt disse har overvågede læringsmetoder til dato vist den bedste effektivitet. Men objektiv sammenligning og evaluering af metoder er en kompleks proces, der afhænger af mange faktorer. For generaliserede ordforrådssystemer (for engelsk) overstiger effektiviteten regelmæssigt baren på 90 %, nogle gange når den endda 96 %. For mere differentierede ordforrådssystemer er effektiviteten i området 59 % -69 %.

Om flertydighedsfjernelsesprocessen

Generelt forstås flertydigheden (eller flertydigheden) af et sprogligt udtryk eller taleværk (tekst) som tilstedeværelsen af ​​flere forskellige betydninger på samme tid [1] . Forskere deler flere typer af sådan tvetydighed: leksikalsk, syntaktisk og tale, men udtrykket "WSD" inkluderer opløsningen af ​​leksikalske (semantiske) dem.

Det, vi taler om, kan forstås ud fra følgende eksempel med det tvetydige ord "nøgle":

  1. nøgle som et værktøj til at åbne
  2. nøgle som en kilde til vand

samt 3 sammenhænge:

  1. Nøglen kom op, døren gik op
  2. Jeg blev fuld af nøglen
  3. Livet bugner

Det er indlysende for en person, at i den første sætning bruges ordet " nøgle " i den første betydning, i den anden sætning - henholdsvis i den anden betydning, og i den tredje - er varianter mulige. At udvikle algoritmer, der efterligner denne menneskelige evne, kan nogle gange være en skræmmende opgave.

Opløsningsprocessen kræver flere ting: ordforrådsvidensystemer til at definere flere betydninger af ord og et korpus af tekster at løse ( andre videnskilder kan være nødvendige i nogle tilfælde ).

Kort historie om området

Dette problem blev først formuleret som et separat problem i 1940'erne, i de tidlige dage af maskinoversættelse, hvilket gjorde det til et af de ældste problemer inden for computerlingvistik. Warren Weaver præsenterede i sit berømte " The  'Translation' memorandum" (1949) [2] problemet i et computer-computing aspekt. Datidens forskere var godt klar over dets betydning og kompleksitet, især Joshua Bar-Hillel (en af ​​pionererne) i 1960 udtrykte tvivl om, at opgaven med universel fuldautomatisk maskinoversættelse nogensinde ville være gennemførlig på grund af behovet for at modellere al menneskelig viden om verden [3] .

I 70'erne blev WSD-problematikken en del af de semantiske fortolkningssystemer udviklet inden for AI -området , men de bestod for det meste af manuelt afledte regler og var derfor helt afhængige af mængden af ​​tilgængelig viden, hvilket på det tidspunkt var ekstremt besværligt. at udvinde.

I 1980'erne blev så omfangsrige ressourcer som Oxford Advanced Learner's Dictionary of Current English tilgængelige, og manuel skrivning af regler blev erstattet af automatisk udtrækning af viden fra sådanne kilder, men metoderne forlod stadig ikke klassen af ​​såkaldt "viden- baseret metoder".

Men i 90'erne ændrede den "statistiske revolution" fuldstændig tilgange og metoder inden for datalingvistik, og problemet med at løse leksikalsk polysemi blev et problem, som alle former for overvågede læringsmetoder er anvendelige til [4] .

2000'erne viste, at overvågede læringsmetoder har nået et vist niveau af nøjagtighed og ikke kan overvinde det, så videnskabsmænds opmærksomhed er flyttet mod at arbejde med mere generaliserede systemer af ordforrådsviden (grovkornede sanser), tilpasning til fagområder (domænetilpasning) , delvis overvåget læring (semi-superviserede systemer) og uovervåget læring (ikke-superviserede korpusbaserede systemer), blandede metoder, samt bearbejdning af vidensbaser og visning af resultater i form af grafer (retur af videnbaserede systemer via grafbaserede metoder). Men indtil i dag anses superviserede læringssystemer for at være de mest effektive.

Problemer og vanskeligheder

Men hvorfor forårsager en sådan opgave så mange vanskeligheder, og resultaterne af dens løsninger viser relativt lav effektivitet? I processen med at arbejde med problemet med at løse leksikalsk polysemi blev et stort antal vanskeligheder opdaget, oftest på grund af egenskaberne ved menneskelig psykologi og tale.

Kompilering af ordbøger

For det første er alle ordbøger forskellige og ikke ækvivalente med hinanden. Oftest forårsager opgaven med at skelne betydningerne af et ord fra hinanden ikke vanskeligheder, men i nogle tilfælde kan forskellige betydninger af et ord være meget tæt på hinanden semantisk (for eksempel hvis hver af dem er en metafor eller metonymi for hinanden), og i sådanne situationer kan opdelingen i betydninger i forskellige ordbøger og tesaurier variere betydeligt. Løsningen på denne vanskelighed kan være den universelle brug af den samme datakilde: én universel ordbog. Globalt set er resultaterne af undersøgelser, der anvender et mere generaliseret semantisk divisionssystem, mere effektive [5] [6] , så nogle forskere ignorerer simpelthen behandlingen af ​​ordbøger og tesaurier med en mere detaljeret semantisk opdeling i deres arbejde.

Del af tale definition

For det andet, på nogle sprog, kan en del-af- ord-markering være meget tæt forbundet med problemet med disambiguation, med det resultat, at disse to problemer kan interferere med hinanden. Forskere er ikke nået til enighed om, hvorvidt det er værd at dele dem op i to autonome komponenter, men fordelen ligger hos dem, der mener, at dette er nødvendigt [7] .

Menneskelig faktor og konsistens af manuelle resultater

Den tredje vanskelighed ligger i den menneskelige faktor . Disambigueringssystemer er altid blevet evalueret ved at sammenligne resultater med menneskeligt arbejde. Og for folk er denne opgave måske ikke så simpel som POS-tagging  - det er flere gange sværere at markere betydninger blandt flere foreslåede [8] . Hvis en person kan huske på eller let gætte de dele af tale, som et ord kan være, så er det ikke muligt at huske alle de mulige betydninger af ord. Desuden, som det viste sig, er resultaterne af forskellige mennesker ikke altid sammenfaldende [9] , og de kommer ofte ikke til en fælles beslutning om den betydning, som et givet ord bruges i i en bestemt sammenhæng. På trods af dette tager videnskabsmænd resultatet af en person som en standard, et benchmark til sammenligning med resultaterne af en computer. Det skal bemærkes, at en person klarer sig meget bedre med generaliserede systemer af ordbøger end med detaljerede - og det er derfor, forskernes opmærksomhed er skiftet til dem [5] [6] .

Sund fornuft

Nogle forskere hævder [10] , at når man bearbejder tekster, er sund fornuft også vigtig , hvilket næppe er muligt for en computer at undervise. Følgende to sætninger er eksempler:

Den første sætning antyder, at Jill og Mary er hinandens søstre; i det andet, at både Jill og Mary begge er mødre, og det er ikke et faktum, at de er pårørende. Derfor, for en mere præcis analyse af betydningerne, er det nødvendigt at have sådan viden om verden og samfundet. Desuden er denne viden nogle gange også nødvendig, når man løser syntaktiske tvetydigheder, og når man analyserer anaphora og cataphora .

Opgaveafhængighed

For det femte giver et permanent opgaveuafhængigt (opgaveuafhængigt) sæt af metoder ikke mening, da tvetydigheden af ​​ordet mus (dyr og computerenhed) for eksempel ikke påvirker resultatet af engelsk-russisk og russisk- Engelsk oversættelse overhovedet (da begge disse betydninger på begge sprog er indeholdt i det samme ord), men det påvirker i høj grad informationssøgning. Det modsatte eksempel kan også gives: Når vi oversætter ordet 'flod' fra engelsk til fransk, skal vi kende ordets betydning ('fleuve' er en flod, der løber ud i havet, og 'rivière' er en flod, der løber ud i en anden flod). Som følge heraf kræver forskellige problemer forskellige algoritmer - så hvis der udvikles en god leksikalsk disambigueringsalgoritme, er det umuligt at være helt sikker på, at den passer til alle problemer.

Differentiering af ordenes betydninger

For det sjette rejser videnskabsmænd spørgsmålet om muligheden for en diskret repræsentation af et ords betydning. Selv udtrykket " betydningen af ​​et ord " er i sig selv ret generel og kontroversiel. De fleste er enige, når man arbejder med generaliserede vidensystemer med et højt niveau af ordhomografi, men efterhånden som niveauet falder, og ordbøgerne bliver mere detaljerede, er der en lang række uoverensstemmelser. For eksempel, på Senseval-2-konferencen, som brugte detaljerede systemer, kom de menneskelige annotatorer til enighed kun 85 % af tiden [11] .

Ordens betydninger er meget fleksible, ret foranderlige og ekstremt kontekstuelle, og nogle gange endda kontekstuelt afhængige, så de er ikke altid strengt opdelt i flere underbetydninger [12] . Leksikografer møder ofte for brede og semantisk overlappende underbetydninger i tekster, og standardbetydningerne af ord skal ofte rettes, udvides og indsnævres på de mest bizarre og uventede måder. For eksempel, i denne situation "børn løber til deres mødre", bruges ordet "børn" samtidigt i to betydninger: de er begge børn af deres forældre og kun børn. En leksikografs opgave er at analysere en enorm mængde tekster og materialer og beskrive hele den mulige række af betydninger af et ord. Det er dog stadig uvist, om denne tilgang er anvendelig inden for beregnings- og datalingvistik, fordi leksikografernes beslutninger træffes til fordel for fuldstændigheden af ​​de beskrevne betydninger, og ikke anvendeligheden af ​​den opnåede information i tekstbehandling.

For nylig er et problem kaldet leksikalsk substitution blevet foreslået som en løsning på problemet med at differentiere betydningen af ​​ord [13] . Dets betydning er at erstatte ordet med et andet, der bevarer betydningen af ​​det gamle i denne sammenhæng.  

Problemets relevans, mulige anvendelser

Det er et velkendt faktum, at resultaterne af processen ikke kun afhænger af metodernes innovativitet og effektivitet, men også af opgavens forskellige indstillinger/egenskaber og kravene til løsningsprocessen (f.eks. differentieringen). af ordets betydninger, karakteristika ved evalueringen af ​​resultaterne, disambigueringsdækningen osv.). Det er også vigtigt, at et stort antal NLP-felter kan drage fordel af resultaterne af WSD.

Informationssøgning

I informationssøgningssystemer - hvis man, når man søger efter en forespørgsel, skal udelukke de dokumenter fra overvejelse, hvor et af ordene i forespørgslen bruges i en anden betydning, som brugeren i øjeblikket er interesseret i, så kan forespørgselsresultaternes relevans være steget.

De allerførste værker, der undersøgte muligheden for at bruge WSD inden for informationssøgning , viste ikke en stigning i søgenøjagtigheden. Sanderson fandt imidlertid i 1994 [14] at forbedringer kun kan opdages, hvis disambigueringseffektiviteten overstiger 90 %, hvis generelle gyldighed diskuteres. Og i 1995 viste Schutze og Pedersen [15] , hvilket viste, at der med ovenstående effektivitet kan opnås en søgeforbedring på 4 %. Stokey viste dog , at brugen af ​​WSD kan give, om end lille - et gennemsnit på 1,73%, resultater selv med en lavere effektivitet på WSD (62,1%) [16] .

Maskinoversættelse

I maskinoversættelsessystemer reducerer manglen på pålidelige mekanismer til at genkende betydningen af ​​et ord betydeligt kvaliteten af ​​oversættelsen, da ordet ikke altid er entydigt oversat til et andet sprog . Og automatisk at bestemme den korrekte oversættelse afhængigt af konteksten er en meget vanskelig opgave. Leksikalsk disambiguation har længe været opfattet som en stor udfordring for at opnå næsten perfekt maskinoversættelse - disse tanker er baseret på ideen om, at WSD ikke kan lade være med at forbedre oversættelsessystemer ved at vælge de rigtige værdikandidater til oversættelse. Dette område er ikke blevet udforsket så meget, som det skal være, på grund af de traditionelle mindre effektive foruddefinerede ordforrådsdatabaser ( eng.  sense inventory ) , der længe er blevet traditionelle .

Udtræk information

Inden for specifikke områder er problemerne med at løse begreber, der er specifikke for dem, af størst interesse: for eksempel inden for det medicinske område kan det være nyttigt at definere navnene på lægemidler i teksten, mens det i bioinformatik er nødvendigt at løse tvetydigheder i navngivningen af gener og proteiner - denne proces er blevet kaldt Informationsekstraktion . Det omfatter sådanne opgaver som named-entity recognition ( eng.  named-entity recognition ) (NER), akronymudvidelse (f.eks. Den Russiske Føderation - Den Russiske Føderation) og andre - alt dette kan betragtes som en opløsningsopgavepolysemi, selvom dette er en ny og endnu ikke rigtig udforsket retning.

Indholdsanalyse

Indholdsanalyse og identifikation af tekstens hoveddele i form af ideer, temaer og lignende kan have stor gavn af WSD. For eksempel klassificeringen af ​​tekster (blogs), tildelingen af ​​tags til artikler eller blogindlæg , eller bestemmelsen af ​​relevante (måske semantisk) forbindelser mellem dem, eller den (semantiske) analyse af sociale netværk , som er blevet mere og mere aktiv i nyere tid. Dette område er det nyeste, ukendte af alle ovenstående.

Andre områder

Hovedtyper af metoder

Som altid er der i naturlig sprogbehandling to tilgange: dyb og overfladisk.

Tilgange, der tilhører den første kategori, involverer adgang til den såkaldte verdensviden (verdensviden eller commonsense-videnbase). For eksempel ved at vide, at "enhver livløs, materiel ting kan være grøn i betydningen farve, men ikke kan være grøn i betydningen uerfarenhed" gør det muligt at bestemme, i hvilken betydning ordet "grøn" bruges i en given sammenhæng. Sådanne tilgange er ikke så effektive i praksis, eftersom en sådan klasse af viden om verden, selvom det er muligt at gemme den i et computervenligt format, dækker meget små [22] områder af vores liv og ikke er helt anvendelig for alle undersøgelser. Jeg må sige, at denne tilgang heller ikke altid fungerer, for eksempel i sætningen "Instruktøren var så grøn", ved at bruge viden, er det umuligt at bestemme, i dette tilfælde er instruktøren grøn, fordi han blev grøn, eller fordi han er uerfaren - ofte kan dette kun bestemmes ud fra konteksten, men ud fra hele tekstens logik og betydning.

Også inden for datalingvistik er der en gammel tradition for at anvende disse metoder i form af programviden, og det er ofte ret svært at afgøre, om denne viden er lingvistisk eller viden om verden ( engelsk  Commonsense knowledge base ). Det første forsøg blev lavet af Margaret Masterman og hendes kolleger ved Cambridge Language Research Unit i England i 1950'erne: de brugte Rogers synonymordbogsdata og nummererede søgeord . ) som indikatorer for emner og analyserede gentagelser i teksten ved hjælp af den indstillede skæringsalgoritme. Dette eksperiment var ikke særlig vellykket [23] , men det havde en stærk indflydelse på det efterfølgende arbejde, især Yarovkskys arbejde i 1990'erne med at optimere tesaurusmetoden ved hjælp af en overvåget læringsmaskine.   

Overfladetilgange forsøger ikke at forstå teksten, de er kun afhængige af analysen af ​​nærliggende ord, for eksempel: hvis ordene "hav" eller "fiskeri" er til stede ved siden af ​​ordet "bas", er der højst sandsynligt i dette tilfælde er en betydning i biologisk forstand. Disse regler kan automatisk udtrækkes ved hjælp af et korpus af tekster med mærkede ordbetydninger. Denne tilgang, selvom den ikke dækker den foregående med hensyn til kraft, overgår den let i praksis. Dog er der altid faldgruber, som fx i sætningen "Hundene gøer på træet", som indeholder ordene "træ" og "hunde" ud for ordet "gø".

Der er fire hovedmetoder til disambiguation:

Vidensbaserede metoder

Lesk-metoden [24]  er en produktiv metode baseret på brug af ordforrådsviden. Det er baseret på hypotesen om, at de ord, der er ved siden af ​​hinanden i teksten, er relateret til hinanden, og denne sammenhæng kan observeres i definitionerne af ord og deres betydninger. To (eller flere) ord kan være tætte, hvis begge har det værdipar med det største overlap af ord i deres definitioner i ordbogen. For eksempel er udtrykket "fyrkogle", i definitionerne af begge i en af ​​betydningerne, ord som "stedsegrøn" og "træ". Som et alternativ til den foregående metode kan du også bruge det globale forhold mellem disse ord ved at beregne den semantiske nærhed af hvert par værdier i WordNet .

Som et alternativ til ovenstående metoder kan du bruge den generelle semantiske lighed ( engelsk  semantisk lighed ) af betydningen af ​​ord, baseret på WordNet 'e. Grafbaserede metoder baseret på spredningsaktivering er også blevet brugt med en vis succes: nogle af dem har vist nøjagtighed sammenlignelig [25] med overvågede læringsmetoder, og nogle gange bedre end [5] [26] på visse områder .  Det blev også for nylig vist [27] , at selv de enkleste metoder baseret på mål for grafforbindelse (såsom graden/valensen af ​​hele grafen) kan vise høje resultater i nærvær af en rig leksikalsk base.

Brugen af ​​såkaldte styringsmodeller ("selektionspræferencer" eller "selektionsbegrænsninger") kan også være ganske nyttig. For eksempel ved at bruge viden om, at ordet "bas" i betydningen fisk ofte forekommer sammen med ordet "lave mad" eller "spise", kan vi løse tvetydigheden i en sætning som "jeg laver bas". Men at skabe sådan viden om verden er ekstremt arbejdskrævende og næsten umuligt.

Superviserede undervisningsmetoder

Alle superviserede læringsmetoder er baseret på den antagelse, at konteksten af ​​det ord, vi overvejer, giver tilstrækkelig information til at beregne den betydning, som det anvendes i i dette tilfælde (og derfor er viden opnået fra ordbøger og tesauri afskåret som overflødig). Alle overvågede læringsmodeller er blevet anvendt på WSD-problemet , inklusive relaterede teknikker såsom variabelvalg , parameteroptimering og ensemblelæring . Understøttelse af vektormaskiner og instansbaseret læring har vist sig at være nogle af de mest effektive metoder, der findes i dag, måske fordi de kan håndtere multiparameteregenskaberne af ord og kontekster. Ovenstående metoder har dog som en flaskehals kravet om at have en enorm mængde manuelt opmærkede tekster til træning, hvilket som allerede nævnt er besværligt og dyrt. Igen opstår problemet med at eje sådanne mærkede skrog.   

Delvis overvågede metoder

Bootstrapping- metoden [28] er en almindelig metode til iterativ læring og evaluering af en klassifikator for at øge dens effektivitet. Algoritmen starter med en lille mængde frødata for hvert ord: enten et lille antal manuelt indtastede eksempler på kontekster eller et par umiskendelige regler til at bestemme betydningen af ​​et ord (f.eks. ordet "leg" i konteksten af ordet "bas" betyder næsten altid, at ordet er ment i musikalsk betydning). Disse data bruges til at træne klassificereren ved at bruge en af ​​de ovennævnte overvågede læringsmetoder. Derefter anvendes klassificeringen på et sæt af allerede umærkede tekster for at udtrække en stor træningsprøve, som kun inkluderer "pålidelige" sammenhænge. Processen gentages iterativt: hver næste klassifikator trænes på det tilsvarende større sæt af sammenhænge - og gentages indtil hele korpuset er dækket, eller indtil det maksimale antal iterationer er nået.

En anden metode bruger store mængder umærket tekst til at indhente information om ord-samforekomst, som i høj grad kan supplere vores data. Et velafstemt tosproget korpus kan også bruges til at løse flersproget tvetydighed, da et polysemantisk ord på et sprog altid oversættes til et andet sprog afhængigt af dets betydning, det bruges i. Denne metode kan i en vis forstand også betragtes som en metode til delvis læring.

Alle ovenstående teknikker kan gøre det muligt at tilpasse superviserede læringsmetoder til andre områder.

Uovervågede læringsmetoder

Denne type metoder er en af ​​de sværeste WSD-opgaver. Hovedantagelsen af ​​denne metode er udsagnet: "lignende betydninger forekommer i lignende sammenhænge", og de kan således uddrages fra teksten ved hjælp af clustering, ved hjælp af et vist mål for lighed mellem kontekster [29] . Derefter kan nye kontekster tildeles en af ​​de nærmeste klynger. Metodens ydeevne er bestemt lavere end andre metoder, dog er sammenligningen noget problematisk på grund af behovet for at projicere de resulterende klynger på de tilgængelige værdier i ordbogen. Hvis projektion ikke er påkrævet, kan der foretages estimater af klyngedannelse (inklusive entropi og renhed). Forskere har store forhåbninger om, at uovervågede læringsmetoder kan hjælpe med at overvinde manglerne ved tilegnelse af  viden , da de ikke kræver alt for besværlige opgaver med syntaktisk og semantisk markering af hele korpuset.

Andre metoder

Der er også andre metoder baseret på helt andre principper end ovenstående:

Lokale problemer og resultater

Flaskehalsen for videnindhentning er den største hindring for at løse tvetydighedsproblemet .  Uovervågede læringsmetoder er afhængige af viden, der næppe findes i elektroniske ordbøger og andre sproglige elektroniske vidensystemer. Superviserede læringsmetoder er på den anden side afhængige af eksistensen af ​​et manuelt kommenteret korpus, hvis eksistens kun er teknisk muligt for et lille sæt ord til testformål, som det blev gjort for Senseval.

Derfor er en af ​​de mest opmuntrende tendenser brugen af ​​internettet som et korpus til automatisk at indhente leksikalsk information [36] . WSD er traditionelt blevet forstået som en måde at forbedre resultater på områder som informationssøgning (IR). I dette tilfælde er det omvendte imidlertid også tilfældet: Søgemaskiner har enkle og hurtige nok kapaciteter til med succes at mine internettet til brug i WSD. Derfor provokerede problemet med at opnå viden fremkomsten af ​​visse metoder til at opnå den:

Eksterne videnskilder

Viden er en af ​​nøglerne til disambigueringsløsning: den leverer de data, som selve løsningsprocessen er afhængig af. Disse data kan være både tekstkorpus og ordbøger, tesuruser, ordlister, ontologier: [37] [38] [39]

Strukturerede kilder

Ustrukturerede kilder

Evaluering og sammenligning af metoder, Senseval konference

Test og sammenligning af metoder er ikke en triviel opgave på grund af forskelle i forskellige testsæt, sanseopgørelser og anvendte datakilder. Før særlige begivenheder blev oprettet for at sammenligne systemer, blev de sammenlignet manuelt, på deres egne, ofte små datasæt. Faktisk, for at teste deres algoritme, skal udviklere bruge tid på manuelt at markere al anvendelse af ord. Og det er umuligt at sammenligne de samme metoder selv på de samme tekster, hvis de bruger forskellige ordfortolkningssystemer.

Internationale konferencer, der sammenligner WSD-systemer, er blevet organiseret for at "kombinere" og sammenligne metoder. Senseval (nu omdøbt til Semeval ) er en international konference, der sammenligner leksikalske disambigueringssystemer, afholdt hvert tredje år siden 1998: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004), og deres logiske efterfølger til SemEval , som udelukkende var dedikeret til WSD-opgaven og blev afholdt én gang, i 2007. Hendes opgaver omfatter organisering af seminarer og workshops, forberedelse og opmærkning af korpus manuelt til systemtestning, samt sammenligning af algoritmer af forskellige typer (“all-words” og “lexical sample” WSD, kommenterede og ikke-annoterede palgorithmer) og undersøgelse af sådanne underopgaver som semantisk rollemærkning , gloss WSD , leksikalsk substitution osv. Som en del af ovenstående aktiviteter blev der også foretaget sammenligninger af WSD-systemer inden for rammerne af ikke kun det engelske sprog. Imidlertid var ikke et eneste sprog fra den slaviske gruppe til stede ved begivenhederne.

Valg af evalueringsmodeller

Ordets betydningssystem . Under de første konferencer, som systemer af ordbetydninger (ordbøger, leksikalske databaser), enten lidet kendte tidligere utilgængelige (for eksempel HECTOR-projektet) eller små, små, ufuldstændige versioner af et rigtigt komplet system, som var påkrævet i konkurrencen brugt.. Normalt var de begge utilstrækkeligt detaljerede og differentierede (eng. grovkornede), men de blev valgt for at undgå at bruge de mest populære og detaljerede (eng. finkornede) eksempler (f.eks. WordNet ), da dette ville gøre eksperimentet "urent", da disse vidensbaser allerede gentagne gange er blevet "lyset op" i forskellige undersøgelser og vurderinger. Det blev bemærket, at resultaterne var helt forskellige for mere detaljerede, så det blev besluttet at teste algoritmerne på begge sense-opgørelser.

Et sæt ord, der skal kontrolleres . Sammenligning af disambiguationsmetoder er også opdelt i to typer i henhold til antallet af ord, der skal kontrolleres: leksikalsk polysemi-opløsning af et bestemt sæt ord (oftest flere dusin) og leksikalsk polysemi-opløsning af alle ord i teksten. Deres forskel ligger i mængden af ​​dataanalyse og -behandling: opgaven "alle-ord" ("alle-ord-tekst") involverer bearbejdning af alle ord, der er til stede i teksten for tvetydighed (absolut alle ord i korpuset skal løses ), er opgaven "leksikalsk prøve" ("begrænset sæt") kun at tillade målord, der er defineret på forhånd og placeret i vores korpus. Den første type formodes at være et mere realistisk skøn, men meget mere besværligt med hensyn til at verificere resultaterne. På grund af vanskelighederne med at teste den anden, blev der kun udført test i de første konferencer testsæt, men begge blev senere inkluderet i testen.

I tilfældet med opgaven "begrænset sæt ord" skulle arrangørerne vælge netop de nøgleord, som systemerne skulle testes på. En kritik af de aktiviteter, der fandt sted før Senseval, var, at disse prøver fra sættet blev valgt efter forsøgsledernes indfald. På Senseval'e forsøgte man at undgå dette ved at vælge vilkårlige ord, inddelt i grupper efter dele af tale, hyppighed og grad af tvetydighed. Der var også en del kontroverser med hensyn til inddragelsen af ​​problemet med at bestemme orddelen i WSD-programmet, så arrangørerne besluttede at inkludere både tydeligt markerede dele af tale og et vist antal ubestemte dele i ordprøven.

Korps . Det er nødvendigt at præcisere, hvad der er markeret tekst, og hvad der er umærket tekst. Et ikke-allokeret korpus er i det væsentlige en masse almindelige tekster, der indeholder det nødvendige antal omtaler af ord, der skal "løses". Opmærket er den samme samling af tekster, men med den forskel, at alle de nævnte ord indeholder information tilskrevet (f.eks. som et tag eller anden meta-information) om betydningen af ​​de ord, der bruges i disse sammenhænge.

Både markerede tekster (overvågede læringssystemer) og umarkerede tekster (ikke-superviserede læringssystemer) kan fungere som undervisningsmateriale til vores systemer til løsning af leksikalsk polysemi. Denne proces foregår således: flere lingvister-leksikografer gennemgår hele teksten og tildeler i overensstemmelse med betydningsordbogen metainformation om betydningen af ​​de ord, der bruges i disse sammenhænge til alle ord fra en given prøve af ord, der er testet for polysemi. Derefter laves der for hvert ord en slags kvorum ud fra de beslutninger, der er truffet af leksikografer, og der tages stilling til, hvilken betydning det her bruges i, hvorefter de modtagne tags tilføjes til den endelige version af teksten; med andre ord er al brug af de ord, vi har valgt, suppleret med den nødvendige metainformation.

Derefter er kroppen opdelt i tre dele. Den første, den såkaldte dry-run distribution (eng. "preliminary run") giver teams mulighed for at justere og tilpasse deres programmer til typen og strukturen af ​​den information, der leveres til input; indeholder den mindst nødvendige information.

Den anden del kaldes en træningsfordeling , der indeholder ordbogsposter og et korpus med metainformation om målords betydning), som giver dig mulighed for at træne konkurrerende programmer til korrekt at vælge den rigtige betydning af ord; den gives til alle hold umiddelbart efter det indledende løb. Antallet af kontekster, der er nødvendige for ord, kan variere ret meget (fra nogle få til mere end 1000) og afhænger af antallet af tilgængelige kontekster. Så kommer træningsfasen.

Den sidste del, kaldet evalueringsfordelingen , uden metainformation om betydningen af ​​målordene, tilgængelig efter afslutningen af ​​træningsprogrammerne, giver dig mulighed for at beregne nøjagtigheden af ​​algoritmerne. Hver kontekst er blevet manuelt kommenteret af mindst tre personer, men denne metainformation er ikke inkluderet i de formidlede data, da det er den, der verificeres. Alle programmer, der passerede gennem denne prøve, skulle for hver kontekst beregne den mest sandsynlige betydning af det anvendte ord (eller en liste over værdier med deres tilsvarende sandsynligheder); efter at have sendt data til arrangørerne, modtager de automatisk resultaterne ved at sammenligne med deres egne (da evalueringsprøven, såvel som træningen, indeholder markant brug af ord).

Grupper og basislinjer . Det skal bemærkes, at alle algoritmer fungerer forskelligt og bruger forskellige informationskilder, så de blev alle delt op i grupper efter tekstbehandlingsmetoden: overvågede læringsmetoder og uovervågede læringsmetoder. Til sammenligning med allerede kendte algoritmer (kaldet startpunkter - basislinjer ) blev deres resultater også offentliggjort, for eksempel alle mulige variationer af Lesk-algoritmen .

Yderligere, da WSD-opgaven kræver en ordbog over værdier og et korpus , var arrangørerne nødt til at vælge nogle af de eksisterende til projektet. WordNet og SemCor er de mest populære eksempler på ovenstående nødvendige komponenter, men deres brug ville gøre eksperimentet urent, da disse vidensbaser allerede gentagne gange er blevet "fremhævet" i forskellige undersøgelser og vurderinger, derfor ufuldstændige versioner, der tidligere var utilgængelige eller selvfremstillede af arrangørerne er normalt udvalgt til at teste begge ting (for eksempel på Senseval-1 blev begge leveret af HECTOR-projektet [41] ).

Nøjagtighed af algoritmer . Når man evaluerer næsten enhver klassifikationsalgoritme for ethvert objekt, bruges de to mest almindelige vurderingsmål - nøjagtighed og genkaldelse ( eng.  Precision and recall ):

Men hvis systemet annoterer hvert ord, eller resultatet beregnes for alle klasser på én gang, har præcision og genkald samme værdi - det kaldes nøjagtighed af beregninger nøjagtighed af beregninger ( eng.  Accuracy ). Denne model er blevet udvidet til brug, når algoritmer producerer en liste over værdier med deres respektive sandsynligheder.

Resultater og funktioner

Senseval-værkstederne er det bedste eksempel på at lære de allerbedste resultater fra WSD-systemer og fremtidige forskningsretninger på området. Der er visse konklusioner, der kan drages ved at analysere og opsummere de senere konferencer:

For at forstå feltets generelle tilstand og det niveau, de bedste disambigueringssystemer opnår, er det nødvendigt at analysere og omhyggeligt studere de bedste resultater og deres egenskaber:

Noter

  1. Anna A. Zaliznyak. FÆNOMEN POLYSEMINATION OG MÅDER AT BESKRIVELSE AF DET. Spørgsmål om lingvistik. - M., 2004. - Nr. 2. - S. 20-45
  2. W. Væver. 1949. Oversættelse Arkiveret 24. juli 2011 på Wayback Machine . I maskinoversættelse af sprog: fjorten essays, red. af Locke, WN og Booth, AD Cambridge, MA: MIT Press.
  3. Y. Bar-Hillel, Sprog og information (Reading, Mass.: Addison-Wesley, 1964), s. 174-179.
  4. Mark Johnson, How the Statistical Revolution Changes (Computational) Linguistics, ( http://www.aclweb.org/anthology/W/W09/W09-0103.pdf Arkiveret 14. april 2015 på Wayback Machine )
  5. 1 2 3 R. Navigli, K. Litkowski, O. Hargraves. 2007. SemEval-2007 Opgave 07: Grovkornet engelsk All-Words Opgave Arkiveret 18. marts 2012 på Wayback Machine . Proc. af Semeval-2007 Workshop (SEMEVAL), i det 45. årlige møde i Association for Computational Linguistics (ACL 2007), Prag, Tjekkiet, s. 30-35.
  6. 1 2 S. Pradhan, E. Loper, D. Dligach, M. Palmer. 2007. SemEval-2007 Opgave 17: Engelsk leksikalsk prøve, SRL og alle ord Arkiveret 18. marts 2012 på Wayback Machine . Proc. af Semeval-2007 Workshop (SEMEVAL), i det 45. årlige møde i Association for Computational Linguistics (ACL 2007), Prag, Tjekkiet, s. 87-92.
  7. Lynette Hirschmann, The evolution of evaluation (1998) - Computer Speech and Knowledge
  8. C. Fellbaum 1997. Analyse af en håndtagging-opgave. I Proc. af ANLP-97 Workshop om tagging af tekst med leksikalsk semantik: Hvorfor, hvad og hvordan? Washington D.C., USA.
  9. B. Snyder og M. Palmer. 2004. Den engelske all-words opgave Arkiveret 29. juni 2011 på Wayback Machine . I Proc. af den 3. internationale workshop om evaluering af systemer til semantisk analyse af tekst (Senseval-3), Barcelona, ​​​​Spanien, s. 41-43.
  10. Douglas Lenat. Computere kontra sund fornuft . Dato for adgang: 10. december 2008. Arkiveret fra originalen den 27. juli 2013. (GoogleTachTalks på youtube)
  11. P. Edmonds. 2000. Design af en opgave til SENSEVAL-2 Arkiveret 28. september 2011 på Wayback Machine . Tech. Bemærk. University of Brighton, Brighton. Storbritannien
  12. A. Kilgarriff. 1997. Jeg tror ikke på ordsanser Arkiveret 24. juli 2011 på Wayback Machine . Comput. human. 31(2), s. 91-113.
  13. D. McCarthy, R. Navigli. 2009. The English Lexical Substitution Task Arkiveret 9. juli 2009 på Wayback Machine , Language Resources and Evaluation, 43(2), Springer, pp. 139-159.
  14. SANDERSON, M. 1994. Disambiguation af ordsans og informationssøgning. I Proceedings of the Special Interest Group on Information Retrieval (SIGIR, Dublin, Irland). 142-151.
  15. SCHUTZE, H. AND PEDERSEN, J. 1995. Informationssøgning baseret på ordsanser. I Proceedings of SDAIR'95 (Las Vegas, NV). 161-175.
  16. STOKOE, C., OAKES, MJ, AND TAIT, JI 2003. Ordsans-disambiguation in information retrieval revisited. I Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Toronto, Onto., Canada). 159-166.
  17. YAROWSKY, D. 1994. Beslutningslister til opløsning af leksikalsk tvetydighed: Anvendelse til accentgendannelse på spansk og fransk. I forbindelse med det 32. årsmøde i Association for Computational Linguistics (Las Cruces, NM). 88-95.
  18. RICHARDSON, SD, DOLAN, WB, OG VANDERWENDE, L. 1998. Mindnet: Indhentning og strukturering af semantisk information fra tekst. I Proceedings of the 17th International Conference on Computational Linguistics (COLING, Montreal, PQ, Canada). 1098-1102.
  19. NAVIGLI, R., VELARDI, P., OG GANGEMI, A. 2003. Ontologilæring og dens anvendelse på automatiseret terminologioversættelse. IEEE Intel. Syst. 18:1, 22-31.
  20. NAVIGLI, R. AND VELARDI, P. 2004. At lære domæneontologier fra dokumentvarehuse og dedikerede websteder. Comput. Ling. 30, 2, 151-179.
  21. CIMIANO, P. 2006. Ontologi Læring og befolkning fra tekst: Algoritmer, evaluering og applikationer. Springer, New York, NY.
  22. Lenat, Douglas; Guha, R.V. (1989), Building Large Knowledge-Based Systems, Addison-Wesley
  23. Y. Wilks, B. Slator, L. Guthrie. 1996. Elektriske ord: ordbøger, computere og betydninger. Cambridge, MA: MIT Press.
  24. Michael Lesk, Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone, ACM Special Interest Group for Design of Communication Proceedings of the 5th annual international conference on Systems documentation, s. 24-26, 1986. ISBN 0-89791-224-1
  25. R. Navigli, P. Velardi. 2005. Strukturelle semantiske sammenkoblinger: en vidensbaseret tilgang til disambiguation af ordsans Arkiveret 9. juli 2009 på Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 27(7), s. 1063-1074.
  26. E. Agirre, O. Lopez de Lacalle, A. Soroa. 2009. Vidensbaseret WSD på specifikke domæner: Yder bedre end generisk overvåget WSD Arkiveret 24. juli 2011 på Wayback Machine . I Proc. af IJCAI, pp. 1501-1506.
  27. R. Navigli, M. Lapata. En eksperimentel undersøgelse af grafforbindelse til uovervåget ordsans-disambiguation Arkiveret 14. december 2010 på Wayback Machine . IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 32(4), IEEE Press, 2010, pp. 678-692.
  28. D. Yarowsky. 1995. Uovervåget ordforstand disambiguation rivaliserende overvågede metoder Arkiveret 7. juni 2010 på Wayback Machine . I Proc. af 33. årsmøde i Foreningen for Datalingvistik, s. 189-196.
  29. H. Schütze. 1998. Automatisk ordsansdiskrimination Arkiveret 18. marts 2012 på Wayback Machine . Computational Linguistics, 24(1), pp. 97-123.
  30. MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2004. Finding dominerende sanser i ukodet tekst. I forbindelse med det 42. årsmøde i Association for Computational Linguistics (Barcelona, ​​Spanien). 280-287.
  31. MCCARTHY, D., KOELING, R., WEEDS, J., AND CARROLL, J. 2007. Uovervåget tilegnelse af dominerende ordsanser. Comput. Ling. 33, 4, 553-590.
  32. MOHAMMAD, S. AND HIRST, G. 2006. Bestemmelse af ordsansdominans ved hjælp af en tesaurus. I Proceedings of the 11th Conference on European Chapter af Association for Computational Linguistics (EACL, Trento, Italien). 121-128.
  33. LAPATA, M. AND KELLER, F. 2007. An information retrieval approach to sense ranking. I Proceedings of the Human Language Technology Conference af den nordamerikanske afdeling af Association for Computational Linguistics (HLT-NAACL, Rochester, NY). 348-355.
  34. GLIOZZO, A., MAGNINI, B., AND STRAPPARAVA, C. 2004. Uovervåget domænerelevansestimering til disambiguation af ordsans. I Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP, Barcelona, ​​​​Spanien). 380-387.
  35. BUITELAAR, P., MAGNINI, B., STRAPPARAVA, C., AND VOSSEN, P. 2006. Domænespecifik WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre og P. Edmonds, Eds. Springer, New York, NY, 275-298.
  36. KILGARRIFF, A. AND GREFENSTETTE, G. 2003. Introduktion til specialnummeret på nettet som korpus. Comput. Ling. 29, 3, 333-347.
  37. E IDE, N. AND VE´RONIS, J. 1998. Disambiguation of the art. Comput. Ling. 24:1, 1-40.
  38. LITKOWSKI, KC 2005. Beregningsleksikoner og ordbøger. I Encyclopedia of Language and Linguistics (2. udgave), KR Brown, red. Elsevier Publishers, Oxford, Storbritannien, 753-761.
  39. AGIRRE, E. AND STEVENSON, M. 2006. Videnskilder til WSD. In Word Sense Disambiguation: Algorithms and Applications, E. Agirre og P. Edmonds, Eds. Springer, New York, NY, 217-251.
  40. MAGNINI, B. AND CAVAGLIA, G. 2000. Integrering af emnefeltkoder i WordNet. I forløbet af den 2. konference om sprogressourcer og evaluering (LREC, Athen, Grækenland). 1413-1418.
  41. 1. Adam Kilgarriff og Joseph Rosenzweig, English Senseval: Rapport og resultater maj-juni, 2000, University of Brighton
  42. Rada Mihalcea, Timothy Chklovski, Adam Kilgarriff. The Senseval-3 engelsk leksikalsk prøveopgave, 2004. s. 2
  43. Loukachevitch N., Chuiko D. Thesaurus-baseret ordsans-disambiguation, 2007

Foreslået læsning