Spørgsmål og svar system

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 6. september 2019; checks kræver 4 redigeringer .

Spørgsmål-svar-system ( QA-system ; fra engelsk QA - English Question-answering system ) er et informationssystem, der er i stand til at modtage spørgsmål og besvare dem i naturligt sprog , det er med andre ord et system med en naturlig sproggrænseflade.

Klassifikation

Spørgsmål-svar-systemer kan opdeles i:

Højt specialiserede QA-systemer fungerer inden for specifikke områder (for eksempel medicin eller bilvedligeholdelse).
Generelt QA-systemer arbejder med information inden for alle vidensområder, så det bliver muligt at søge i relaterede områder.

Arkitektur

De første QA-systemer [1] blev udviklet i 1960'erne og var naturlige sprogskaller til domænespecifikke ekspertsystemer . Moderne systemer er designet til at søge efter svar på spørgsmål i medfølgende dokumenter ved hjælp af NLP-teknologier ( natural language processing ).

Moderne QA-systemer inkluderer normalt en speciel modul- spørgsmålsklassifikator , som bestemmer typen af spørgsmål og følgelig det forventede svar. Efter denne analyse anvender systemet gradvist mere og mere komplekse og subtile NLP-metoder til de leverede dokumenter, og kasserer unødvendig information. Den groveste metode, dokumentsøgning , involverer at bruge et informationssøgningssystem til at vælge dele af tekst, der potentielt indeholder et svar. Filteret fremhæver derefter sætninger, der ligner det forventede svar (for eksempel for spørgsmålet "Hvem ..." vil filteret returnere tekststykker, der indeholder personers navne). Og endelig vil modulet til fremhævelse af svar finde det rigtige svar blandt disse sætninger.

Arbejdsplan

Et spørgsmål-svar-systems ydeevne afhænger af effektiviteten af de anvendte tekstanalysemetoder og af kvaliteten af tekstgrundlaget – hvis der ikke er svar på spørgsmål i det, vil QA-systemet ikke kunne finde meget. Jo større databasen er, jo bedre, men kun hvis den indeholder de nødvendige oplysninger. Store depoter (såsom internettet) indeholder en masse overflødig information [2] . Dette fører til følgende punkter:

Da oplysningerne præsenteres i forskellige former, er fuldstændigheden af oplysningerne højere. Et QA-system er mere tilbøjelige til at finde et svar.
Den korrekte information gentages oftere, så fejlene ved at finde svar kan minimeres.
Nøjagtigheden af informationssøgning afhænger i høj grad af pålideligheden af informationer i lagre samt af effektiviteten af metoder til at analysere information og generere svar.

Problemer

I 2002 skrev en gruppe forskere en forskningsplan for spørgsmål-svar-systemer [3] . Det blev foreslået at behandle følgende spørgsmål:

Spørgsmålstyper Forskellige spørgsmål kræver forskellige metoder til at finde svar. Derfor er det nødvendigt at udarbejde eller forbedre metodiske lister over typer af mulige spørgsmål. Behandling af spørgsmål De samme oplysninger kan rekvireres på forskellige måder. Det er nødvendigt at skabe effektive metoder til at forstå og bearbejde sætningens semantik (betydning). Det er vigtigt, at programmet genkender spørgsmål, der er ligeværdige i betydning, uanset stil , ord, syntaktiske forhold og idiomer , der anvendes . Jeg ser gerne, at QA-systemet deler komplekse spørgsmål op i flere simple, og korrekt fortolker kontekstfølsomme sætninger, eventuelt afklarer dem med brugeren under dialogen. Kontekstuelle problemer Spørgsmål stilles i en bestemt sammenhæng . Kontekst kan forfine en forespørgsel, fjerne tvetydighed eller følge brugerens tankegang gennem en række spørgsmål. Kilder til viden til et QA-system Før du besvarer spørgsmålet, ville det være rart at forhøre sig om de tilgængelige tekstbaser. Uanset hvilke tekstbehandlingsmetoder der bruges, finder vi ikke det rigtige svar, hvis det ikke er i databaserne. Fremhæv svar Den korrekte udførelse af denne procedure afhænger af spørgsmålets kompleksitet, dets type, kontekst, kvaliteten af de tilgængelige tekster, søgemetoden osv. - et stort antal faktorer. Derfor er det nødvendigt at nærme sig studiet af tekstbehandlingsmetoder med al forsigtighed, og dette problem fortjener særlig opmærksomhed. Svarformulering Svaret skal være så naturligt som muligt. I nogle tilfælde er det nok at fremhæve det fra teksten. For eksempel, hvis et navn er påkrævet (navn på en person, navn på en enhed, sygdom), værdi (valutakurs, længde, størrelse) eller dato ("Hvornår blev Ivan den Forfærdelige født?") - et direkte svar er nok . Men nogle gange skal du håndtere komplekse forespørgsler, og her har du brug for specielle algoritmer til at flette svar fra forskellige dokumenter. Besvarelse af spørgsmål i realtid Det er nødvendigt at lave et system, der vil finde svar i arkiver på få sekunder, uanset spørgsmålets kompleksitet og tvetydighed, størrelsen og omfanget af dokumentbasen. Flersprogede forespørgsler Udvikling af systemer til arbejde og søgning på andre sprog (inklusive automatisk oversættelse ). interaktivitet Ofte er informationen, der tilbydes af et QA-system som svar, ufuldstændig. Måske har systemet fejlidentificeret spørgsmålstypen eller misforstået den. I dette tilfælde vil brugeren måske ikke kun omformulere sin anmodning, men også "forklare" med programmet ved hjælp af en dialog. Begrundelsesmekanisme (inferens) Nogle brugere vil gerne have et svar, der går ud over de tilgængelige tekster. For at gøre dette er det nødvendigt at tilføje til QA-systemet viden, der er fælles for de fleste områder (se Generelle ontologier i datalogi ), samt værktøjer til automatisk at udlede ny viden. Brugerprofiler af QA-systemer Oplysninger om brugeren, såsom interesseområde, talemåde og ræsonnement, standardfakta, kan øge systemets ydeevne betydeligt.

Retningslinjer for udvikling af spørgsmål-svar-systemer

Siden fremkomsten af de første prototyper af spørgsmål-svar-systemer, er deres omfang udvidet betydeligt [4] . For eksempel bruges de i svar på spørgsmål relateret til tid, geolokaliseringsspørgsmål, definitionsspørgsmål, bibliografiske, flersprogede spørgsmål, spørgsmål relateret til multimedier (visuel, lyd- og videoinformation). Beslægtede områder studeres, såsom at bygge interaktive QA-systemer (afklare spørgsmål, der kræves for at afklare originalen), genbruge svar og repræsentere viden, bruge slutninger fra den tilgængelige information til at få svar på spørgsmål osv., forudsige hvilke spørgsmål der kan stilles, følelser analyse.

Vurdering af kvaliteten af spørgsmål-svar-systemer

Spørgsmål-svar-systemer diskuteres løbende inden for rammerne af projekter: TREC [5] , CLEF[6] , NTCIR [7] , ROMIP [8] .

Noter

↑ Hirschman, L. & Gaizauskas, R. (2001) Natural Language Question Answering. Udsigten herfra Arkiveret 29. januar 2012 på Wayback Machine . Natural Language Engineering (2001), 7:4:275-300 Cambridge University Press.
↑ Lin, J. (2002). Internettet som en ressource til besvarelse af spørgsmål: Perspektiver og udfordringer. I Proceedings of the Third International Conference on Language Resources and Evaluation (LREC 2002).
↑ Burger, J., Cardie, C., Chaudhri, V., Gaizauskas, R., Harabagiu, S., Israel, D., Jacquemin, C., Lin, CY., Maiorano, S., Miller, G. , Moldovan, D., Ogden, B., Prager, J., Riloff, E., Singhal, A., Shrihari, R., Strzalkowski, T., Voorhees, E., Weishedel, R. Issues, Tasks and Program Structures to Roadmap Research in Question Answering (QA) Arkiveret 25. april 2012 på Wayback Machine .
↑ Maybury, MT-redaktør. 2004. Nye anvisninger i besvarelse af spørgsmål. Arkiveret 3. marts 2021 på Wayback Machine AAAI/MIT Press.
↑ TREC-konkurrence Arkiveret 24. juni 2007 på Wayback Machine
↑ CLEF evalueringskampagne Arkiveret 23. juni 2007 på Wayback Machine
↑ NTCIR-projekt Arkiveret 1. juli 2007 på Wayback Machine
↑ ROMIP . Hentet 4. juni 2014. Arkiveret fra originalen 18. juni 2014. (ubestemt)

Litteratur

Dragomir R. Radev, John Prager og Valerie Samn. Rangering af mistænkte svar på spørgsmål om naturligt sprog ved hjælp af forudsigende annotering . I Proceedings of the 6th Conference on Applied Natural Language Processing, Seattle, WA, maj 2000.
Hovy, E., Gerber, L., Hermjakob, U., Junk, M. & Lin, C. (2000) Question Answering in Webclopedia. I: 9th Text Retrieval Conference.
Huettner, A. (2000) Besvarelse af spørgsmål. I: 5. søgemaskinemøde.
John Prager, Eric Brown, Anni Coden og Dragomir Radev. Spørgsmålsbesvarelse ved forudsigende annotering . In Proceedings, 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Athen, Grækenland, juli 2000.
Katz, B., Felshin, S. & Lin, J. (2002) START Multimedia Information System: Nuværende teknologi og fremtidige retninger. I: International Workshop on Multimedia Information Systems.
Wong, W. (2005) Praktisk tilgang til videnbaseret besvarelse af spørgsmål med naturlig sprogforståelse og avanceret ræsonnement . I: Mester; National Technical University College i Malaysia.

Links

QA-systemer og demoer

Et af de første START -spørgsmål-svar-systemer, der blev lagt ud på internettet på MIT -webstedet .
AskNet Søg spørgsmål-svar system på asknet.ru (oprindeligt Stocona Search).
BrainBoost spørgsmål-og-svar-system på Answers.com(oprindeligt BrainBoost.com).
QA-system indbygget i Ask.com -søgemaskinen .
Spørgsmål og svar system OpenEphyra open source.
Flersproget QA-system askEd!m ( engelsk , japansk (downlink siden 13-05-2013 [3451 dage] - historie ) , kinesisk (downlink siden 13-05-2013 [3451 dage] - historie ) , russisk (downlink fra 05/13 /2013 [3451 dage] - historie ) og svensk (link utilgængeligt fra 05/13/2013 [3451 dage] - historie ) ).
Project Evi af True Knowledge.

Specialiserede QA-systemer

EAGLi: MEDLINE - spørgsmålsbesvarelsesmotor .

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur

Web og hjemmesider
globalt	World Wide Web Web 1.0 Web 2.0 Web 3.0 semantisk web Neuronet
Lokalt	Internet side Portal Side Service Ring
Typer af websteder og tjenester	Virtuelt atlas banner netværk Bibliotek Blog ( platform ) Video hosting Wiki Visitkortside Spørgsmål svar Bogmærker datingtjenester browser spil Ressourcekatalog Online butik mikroblog nyhedsside Søgesystem porno side Webmail Socialt netværk Tumblelog BitTorrent tracker Fil hosting Forum Service Billedtavle Foto hosting Snak
Oprettelse og vedligeholdelse	Mestre Udvikling Design Layout Programmering Anvendelighed Interaktionsoplevelse Website promovering Søgemaskineoptimering (SEO) Hosting Systemadministrator moderator Konto Bemyndigelse
Typer af layout, sider, websteder	Statisk Dynamisk Fast Gummi dynamisk elastisk Fleksibel
Teknisk	Webserver Browser DNS CMF CMS HTTP ( svar overskrifter ) SPDY QUIC CGI HTML XHTML css PHP JavaScript DHTML cookie DOM XML AJAX JSON Blitz RSS atom meddeler Mikroformat favicon.ico _ robots.txt Sitemaps webstedets kort .htaccess
Markedsføring	Internet markedsføring Internet annoncering Banner kontekstuel annoncering Teaser Cybersquatting
Samfund og kultur	Blogosfæren Internetfællesskab ( distrikt ) Netværkslitteratur