Informationsudtrækning

Informationsudtrækning er opgaven med automatisk at udtrække (opbygge) strukturerede data fra ustrukturerede eller semi - strukturerede maskinlæsbare dokumenter.

Informationsudtrækning er en form for informationssøgning forbundet med tekstbehandling i naturligt sprog . Et eksempel på at udtrække information kan være søgningen efter forretningsbesøg - formelt er det skrevet sådan: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - fra nyhedsfeeds , såsom: "I går, den 1. april 2007, besøgte repræsentanter for Pepelac International Corporation kontoret for Gravitsap Productions." Hovedmålet med en sådan transformation er evnen til at analysere oprindeligt "kaotisk" information ved hjælp af standard databehandlingsmetoder . [1] Et snævrere mål kan for eksempel være opgaven med at identificere logiske mønstre i de begivenheder, der er beskrevet i teksten. [2]

I moderne informationsteknologier øges rollen for en sådan procedure som udtrækning af information mere og mere - på grund af den hurtige stigning i mængden af ustruktureret (uden metadata ) information, især på internettet . Denne information kan gøres mere struktureret ved at konvertere den til relationel form eller ved at tilføje XML -markering. [3] Når du overvåger nyhedsfeeds med intelligente agenter , skal du bruge metoder til at udtrække information og omdanne den til en form, der vil være mere praktisk at arbejde med senere.

En typisk informationsudtrækningsopgave er at scanne et sæt af naturlige sprogdokumenter og udfylde en database med udvundet nyttig information. Moderne tilgange til informationssøgning bruger naturlige sprogbehandlingsmetoder , der kun behandler et meget begrænset sæt af emner (spørgsmål, problemer) - ofte kun ét emne. For eksempel er Message Understanding Conference (MUC ) en konkurrencepræget konference og har tidligere fokuseret på:

MUC-1 (1987), MUC-2 (1989): Flådeoperationer.
MUC-3 (1991), MUC-4 (1992): Terrorisme i latinamerikanske lande.
MUC-5 (1993): Microelectronics Venture Operations.
MUC-6 (1995): Nyhedsartikler om ændringer i ledelsesprocesser.
MUC-7 (1998): Satellitlanceringsrapporter.

Tekster i naturligt sprog kan kræve en form for foreløbig transformation til et sprog (f.eks. RDF - Resource Description Framework), der er forståeligt for en computer.

Typiske delopgaver til informationsudtrækning:

Anerkendelse af navngivne elementer ( enheder ), for eksempel: navne på personer, navne på organisationer, geografiske navne, begivenheder, midlertidige og monetære betegnelser mv.
Opløsning af anafora og coreferences : leder efter forbindelser, der refererer til det samme objekt. Et typisk tilfælde af sådanne referencer er den pronominale anafora.
Identifikation af terminologi: at finde nøgleord og sætninger ( samlokaliseringer ) for en given tekst.
Autoabstraktion : udvælgelse af semantisk, følelsesmæssig, evaluerende osv. information fra teksten. Det kan være generativt og deklarativt.

Noter

↑ Databehandling kan blandt andet forstås og blot deres akkumulering i en database .
↑ Data mining beskæftiger sig med denne opgave .
↑ Konceptet med udviklingen af internettet, hvor en fil med metadata i XML-format er vedhæftet hvert dokument , kaldes det semantiske web og anses for meget lovende; men det er værd at bemærke: dette er ikke det samme som at transformere selve dokumentet.

Se også

Links

fremmedsprog

https://web.archive.org/web/20110718185816/http://extraccioninformacion.iespana.es/ Extracción informacion (spansk side)
http://www.itl.nist.gov/iaui/894.02/related_projects/muc/ MUC
http://projects.ldc.upenn.edu/ace/ Arkiveret 25. september 2013 på Wayback Machine ACE (LDC)
https://web.archive.org/web/20060308054306/http://www.itl.nist.gov/iad/894.01/tests/ace/ ACE (NIST)
http://lcl2.di.uniroma1.it (utilgængeligt link) - TermExtractor
TermFinder , online terminologiudtrækker til EN, FR & IT - webapplikation
Video tutorials, foredrag, foredrag Videolectures.net
Automatiser metadataudtræk til virksomhedssøgning og mashups (Apache UIMA)

Viden Engineering
Generelle begreber	Data metadata Viden meterkendelse Vidensrepræsentation Vidensgrundlag Ontologi semantisk web
Stive modeller	Produkter Semantiske netværk Rammer Logisk model
Bløde metoder	Neuralt netværk evolutionær modellering sløret logik
Ansøgninger	Ekspertsystemer Data mining Informationsudtrækning Virtuelle samtalepartnere Hybride intelligente systemer
Kunstig intelligens Maskinelæring naturlig sprogbehandling

naturlig sprogbehandling
Generelle definitioner	Korpus af tekster talekorpus Stop ord pose ord AI fuldstændighed N-gram Bigram chiffer trigram
Tekstanalyse	Tekstsegmentering Delvis markering Overfladeparsing Sammensat tekstbehandling Udpakning af kollokationer stammer Lematisering Anerkendelse af navngivet enhed Coreference opløsning Tekststemningsanalyse Konceptudvinding parsing Opløsning af leksikalsk polysemi Uddrag terminologi Informationsudtrækning Sproglig identifikation Sagsdefinition
Referencer	Uddrag sætninger Abstrakt generation Henvisning til flere dokumenter Tekstforenkling
Maskinoversættelse	automatiseret Hybrid Interlingual Regel baseret Baseret på eksempler Ordbog baseret Baseret på transformation neurale Statistisk Synkron
Identifikation og dataindsamling	Tale genkendelse talesyntese Optisk tegngenkendelse Tekstgenerering
Tematisk model	Pachinko placering Latent Dirichlet placering Latent semantisk analyse
Peer review	Automatiseret vurdering af essays Konkordancer Forudsigelig tekstinput Grammatikkontrol Stavekontrol Syntaks Gæt
Naturlig sproggrænseflade [	virtuel assistent Virtuel samtalepartner Spørgsmål og svar system Stemmegrænseflade Interaktiv litteratur