Informationsudtrækning er opgaven med automatisk at udtrække (opbygge) strukturerede data fra ustrukturerede eller semi - strukturerede maskinlæsbare dokumenter.
Informationsudtrækning er en form for informationssøgning forbundet med tekstbehandling i naturligt sprog . Et eksempel på at udtrække information kan være søgningen efter forretningsbesøg - formelt er det skrevet sådan: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - fra nyhedsfeeds , såsom: "I går, den 1. april 2007, besøgte repræsentanter for Pepelac International Corporation kontoret for Gravitsap Productions." Hovedmålet med en sådan transformation er evnen til at analysere oprindeligt "kaotisk" information ved hjælp af standard databehandlingsmetoder . [1] Et snævrere mål kan for eksempel være opgaven med at identificere logiske mønstre i de begivenheder, der er beskrevet i teksten. [2]
I moderne informationsteknologier øges rollen for en sådan procedure som udtrækning af information mere og mere - på grund af den hurtige stigning i mængden af ustruktureret (uden metadata ) information, især på internettet . Denne information kan gøres mere struktureret ved at konvertere den til relationel form eller ved at tilføje XML -markering. [3] Når du overvåger nyhedsfeeds med intelligente agenter , skal du bruge metoder til at udtrække information og omdanne den til en form, der vil være mere praktisk at arbejde med senere.
En typisk informationsudtrækningsopgave er at scanne et sæt af naturlige sprogdokumenter og udfylde en database med udvundet nyttig information. Moderne tilgange til informationssøgning bruger naturlige sprogbehandlingsmetoder , der kun behandler et meget begrænset sæt af emner (spørgsmål, problemer) - ofte kun ét emne. For eksempel er Message Understanding Conference (MUC ) en konkurrencepræget konference og har tidligere fokuseret på:
Tekster i naturligt sprog kan kræve en form for foreløbig transformation til et sprog (f.eks. RDF - Resource Description Framework), der er forståeligt for en computer.
Typiske delopgaver til informationsudtrækning:
Viden Engineering | |
---|---|
Generelle begreber | |
Stive modeller | |
Bløde metoder | |
Ansøgninger | |
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |