Spørgsmål og svar system

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 6. september 2019; checks kræver 4 redigeringer .

Spørgsmål-svar-system ( QA-system ; fra engelsk  QA  - English  Question-answering system ) er et informationssystem, der er i stand til at modtage spørgsmål og besvare dem i naturligt sprog , det er med andre ord et system med en naturlig sproggrænseflade.

Klassifikation

Spørgsmål-svar-systemer kan opdeles i:

Arkitektur

De første QA-systemer [1] blev udviklet i 1960'erne og var naturlige sprogskaller til domænespecifikke ekspertsystemer . Moderne systemer er designet til at søge efter svar på spørgsmål i medfølgende dokumenter ved hjælp af NLP-teknologier ( natural language processing ).

Moderne QA-systemer inkluderer normalt en speciel modul- spørgsmålsklassifikator , som bestemmer typen af ​​spørgsmål og følgelig det forventede svar. Efter denne analyse anvender systemet gradvist mere og mere komplekse og subtile NLP-metoder til de leverede dokumenter, og kasserer unødvendig information. Den groveste metode, dokumentsøgning  , involverer at bruge et informationssøgningssystem til at vælge dele af tekst, der potentielt indeholder et svar. Filteret fremhæver derefter sætninger, der ligner det forventede svar (for eksempel for spørgsmålet "Hvem ..." vil filteret returnere tekststykker, der indeholder personers navne). Og endelig vil modulet til fremhævelse af svar finde det rigtige svar blandt disse sætninger.

Arbejdsplan

Et spørgsmål-svar-systems ydeevne afhænger af effektiviteten af ​​de anvendte tekstanalysemetoder og af kvaliteten af ​​tekstgrundlaget – hvis der ikke er svar på spørgsmål i det, vil QA-systemet ikke kunne finde meget. Jo større databasen er, jo bedre, men kun hvis den indeholder de nødvendige oplysninger. Store depoter (såsom internettet) indeholder en masse overflødig information [2] . Dette fører til følgende punkter:

  1. Da oplysningerne præsenteres i forskellige former, er fuldstændigheden af ​​oplysningerne højere. Et QA-system er mere tilbøjelige til at finde et svar.
  2. Den korrekte information gentages oftere, så fejlene ved at finde svar kan minimeres.
  3. Nøjagtigheden af ​​informationssøgning afhænger i høj grad af pålideligheden af ​​informationer i lagre samt af effektiviteten af ​​metoder til at analysere information og generere svar.

Problemer

I 2002 skrev en gruppe forskere en forskningsplan for spørgsmål-svar-systemer [3] . Det blev foreslået at behandle følgende spørgsmål:

Spørgsmålstyper Forskellige spørgsmål kræver forskellige metoder til at finde svar. Derfor er det nødvendigt at udarbejde eller forbedre metodiske lister over typer af mulige spørgsmål. Behandling af spørgsmål De samme oplysninger kan rekvireres på forskellige måder. Det er nødvendigt at skabe effektive metoder til at forstå og bearbejde sætningens semantik (betydning). Det er vigtigt, at programmet genkender spørgsmål, der er ligeværdige i betydning, uanset stil , ord, syntaktiske forhold og idiomer , der anvendes . Jeg ser gerne, at QA-systemet deler komplekse spørgsmål op i flere simple, og korrekt fortolker kontekstfølsomme sætninger, eventuelt afklarer dem med brugeren under dialogen. Kontekstuelle problemer Spørgsmål stilles i en bestemt sammenhæng . Kontekst kan forfine en forespørgsel, fjerne tvetydighed eller følge brugerens tankegang gennem en række spørgsmål. Kilder til viden til et QA-system Før du besvarer spørgsmålet, ville det være rart at forhøre sig om de tilgængelige tekstbaser. Uanset hvilke tekstbehandlingsmetoder der bruges, finder vi ikke det rigtige svar, hvis det ikke er i databaserne. Fremhæv svar Den korrekte udførelse af denne procedure afhænger af spørgsmålets kompleksitet, dets type, kontekst, kvaliteten af ​​de tilgængelige tekster, søgemetoden osv. - et stort antal faktorer. Derfor er det nødvendigt at nærme sig studiet af tekstbehandlingsmetoder med al forsigtighed, og dette problem fortjener særlig opmærksomhed. Svarformulering Svaret skal være så naturligt som muligt. I nogle tilfælde er det nok at fremhæve det fra teksten. For eksempel, hvis et navn er påkrævet (navn på en person, navn på en enhed, sygdom), værdi (valutakurs, længde, størrelse) eller dato ("Hvornår blev Ivan den Forfærdelige født?") - et direkte svar er nok . Men nogle gange skal du håndtere komplekse forespørgsler, og her har du brug for specielle algoritmer til at flette svar fra forskellige dokumenter. Besvarelse af spørgsmål i realtid Det er nødvendigt at lave et system, der vil finde svar i arkiver på få sekunder, uanset spørgsmålets kompleksitet og tvetydighed, størrelsen og omfanget af dokumentbasen. Flersprogede forespørgsler Udvikling af systemer til arbejde og søgning på andre sprog (inklusive automatisk oversættelse ). interaktivitet Ofte er informationen, der tilbydes af et QA-system som svar, ufuldstændig. Måske har systemet fejlidentificeret spørgsmålstypen eller misforstået den. I dette tilfælde vil brugeren måske ikke kun omformulere sin anmodning, men også "forklare" med programmet ved hjælp af en dialog. Begrundelsesmekanisme (inferens) Nogle brugere vil gerne have et svar, der går ud over de tilgængelige tekster. For at gøre dette er det nødvendigt at tilføje til QA-systemet viden, der er fælles for de fleste områder (se Generelle ontologier i datalogi ), samt værktøjer til automatisk at udlede ny viden. Brugerprofiler af QA-systemer Oplysninger om brugeren, såsom interesseområde, talemåde og ræsonnement, standardfakta, kan øge systemets ydeevne betydeligt.

Retningslinjer for udvikling af spørgsmål-svar-systemer

Siden fremkomsten af ​​de første prototyper af spørgsmål-svar-systemer, er deres omfang udvidet betydeligt [4] . For eksempel bruges de i svar på spørgsmål relateret til tid, geolokaliseringsspørgsmål, definitionsspørgsmål, bibliografiske, flersprogede spørgsmål, spørgsmål relateret til multimedier (visuel, lyd- og videoinformation). Beslægtede områder studeres, såsom at bygge interaktive QA-systemer (afklare spørgsmål, der kræves for at afklare originalen), genbruge svar og repræsentere viden, bruge slutninger fra den tilgængelige information til at få svar på spørgsmål osv., forudsige hvilke spørgsmål der kan stilles, følelser analyse.

Vurdering af kvaliteten af ​​spørgsmål-svar-systemer

Spørgsmål-svar-systemer diskuteres løbende inden for rammerne af projekter: TREC [5] , CLEF[6] , NTCIR [7] , ROMIP [8] .

Noter

  1. Hirschman, L. & Gaizauskas, R. (2001) Natural Language Question Answering. Udsigten herfra Arkiveret 29. januar 2012 på Wayback Machine . Natural Language Engineering (2001), 7:4:275-300 Cambridge University Press.
  2. Lin, J. (2002). Internettet som en ressource til besvarelse af spørgsmål: Perspektiver og udfordringer. I Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002).
  3. Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, CY., Maiorano, S., Miller, G. , Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Issues, Tasks and Program Structures to Roadmap Research in Question Answering (QA) Arkiveret 25. april 2012 på Wayback Machine .
  4. Maybury, MT-redaktør. 2004. Nye anvisninger i besvarelse af spørgsmål. Arkiveret 3. marts 2021 på Wayback Machine AAAI/MIT Press.
  5. TREC-konkurrence Arkiveret 24. juni 2007 på Wayback Machine 
  6. CLEF evalueringskampagne Arkiveret 23. juni 2007 på Wayback Machine 
  7. NTCIR-projekt Arkiveret 1. juli 2007 på Wayback Machine 
  8. ROMIP . Hentet 4. juni 2014. Arkiveret fra originalen 18. juni 2014.

Litteratur

Links

QA-systemer og demoer Specialiserede QA-systemer