Informationsudtrækning

Informationsudtrækning er opgaven  med automatisk at udtrække (opbygge) strukturerede data fra ustrukturerede eller semi - strukturerede maskinlæsbare dokumenter.

Informationsudtrækning er en form for informationssøgning forbundet med tekstbehandling i naturligt sprog . Et eksempel på at udtrække information kan være søgningen efter forretningsbesøg - formelt er det skrevet sådan: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) - fra nyhedsfeeds , såsom: "I går, den 1. april 2007, besøgte repræsentanter for Pepelac International Corporation kontoret for Gravitsap Productions." Hovedmålet med en sådan transformation er evnen til at analysere oprindeligt "kaotisk" information ved hjælp af standard databehandlingsmetoder . [1] Et snævrere mål kan for eksempel være opgaven med at identificere logiske mønstre i de begivenheder, der er beskrevet i teksten. [2]

I moderne informationsteknologier øges rollen for en sådan procedure som udtrækning af information mere og mere - på grund af den hurtige stigning i mængden af ​​ustruktureret (uden metadata ) information, især på internettet . Denne information kan gøres mere struktureret ved at konvertere den til relationel form eller ved at tilføje XML -markering. [3] Når du overvåger nyhedsfeeds med intelligente agenter , skal du bruge metoder til at udtrække information og omdanne den til en form, der vil være mere praktisk at arbejde med senere.

En typisk informationsudtrækningsopgave er at scanne et sæt af naturlige sprogdokumenter og udfylde en database med udvundet nyttig information. Moderne tilgange til informationssøgning bruger naturlige sprogbehandlingsmetoder , der kun behandler et meget begrænset sæt af emner (spørgsmål, problemer) - ofte kun ét emne. For eksempel er Message Understanding Conference (MUC ) en konkurrencepræget konference og har tidligere fokuseret på:

Tekster i naturligt sprog kan kræve en form for foreløbig transformation til et sprog (f.eks. RDF  - Resource Description Framework), der er forståeligt for en computer.

Typiske delopgaver til informationsudtrækning:

Noter

  1. Databehandling kan blandt andet forstås og blot deres akkumulering i en database .
  2. Data mining beskæftiger sig med denne opgave .
  3. Konceptet med udviklingen af ​​internettet, hvor en fil med metadata i XML-format er vedhæftet hvert dokument , kaldes det semantiske web og anses for meget lovende; men det er værd at bemærke: dette er ikke det samme som at transformere selve dokumentet.

Se også

Links

fremmedsprog