Udvinding af viden

Videnudvinding er skabelsen af ​​viden  fra strukturerede ( relationsdatabaser , XML ) og ustrukturerede kilder ( tekster , dokumenter, billeder ). Den resulterende viden skal være i et format, der tillader computerinput og skal repræsentere viden på en måde, der letter inferens. Selvom metoden i processen ligner informationsudtrækning ( naturlig sprogbehandling , eng. Natural language processing , NLP) og processen med " Extract, Transform, Load " ( eng. Extract, Transform, Load , ETL, for data warehouses) , er hovedkriteriet for resultatet skabelsen af ​​struktureret information eller transformation til et relationelt skema . Dette kræver enten transformation af eksisterende formel viden (genbrug af identifikatorer eller ontologier ) eller generering af et skema baseret på de originale data.   

RDB2RDF W3C-gruppen [1] standardiserer et sprog til at udtrække ressourcebeskrivelsesrammer ( RDF ) fra en relationsdatabase .  Et andet populært eksempel på videnudvinding er at konvertere Wikipedia til strukturerede data og kortlægning til eksisterende viden (se DBpedia og Freebase ).

Oversigt

Efter standardiseringen af ​​videnrepræsentationssprog, såsom Resource Description Framework ( RDF) og Web Ontology Language ( OWL ), er der blevet forsket meget på dette område, især vedrørende transformation af relationsdatabasen. data i RDF , genkendelsesevner , videnopdagelse og ontologilæring. Hovedprocessen bruger traditionelle informationsekstraktionsmetoder og udtræk , transformer, indlæs ( ETL) metoder, der konverterer data fra kildeformater til strukturerede formater .   

Følgende kriterier kan bruges til kategoriseringsforsøg i dette emne (nogle af dem giver videnudtræk fra relationelle databaser) [2] :

Kilde Hvilke data kan behandles: Tekst, Relationel database, XML , CSV
Ydeevne Hvordan kan de udtrukne data præsenteres til brug (ontologi (objektmodel) fil, semantisk database)? Hvordan er det muligt at anmode om oplysningerne fra den modtagne repræsentation?
Synkronisering Udføres vidensudvinding én gang for at producere et dump, eller er resultatet synkroniseret med kilden? Er ekstraktion statisk eller dynamisk? Er ændringer i resultatet skrevet tilbage til kilden (tovejs)?
Genbrug af ordbog Om udtrækkeren tillader genbrug af eksisterende ordbøger ved udtræk. For eksempel kan 'firstName'-tabelkolonnen tilknyttes kolonnen foaf: firstName. Nogle automatiske tilgange er ikke i stand til at vise en ordbog.
Automatisering Grad af deltagelse / automatisering af ekstraktion: Manuel tilstand, der er en GUI , semi-automatisk, automatisk.
Behovet for en domæneobjektmodel Om en foruddefineret objektmodel skal tilknyttes den. Der oprettes således enten en mapping, eller et skema opnås fra kilden af ​​( training ontologies ).

Eksempler

Navngivet enhedsbinding

  1. DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API , Extractiv og PoolParty Extractor parser vilkårlig tekst ved at genkende navngivne entiteter , og derefter løse tvetydigheder ved at løse navne og linke de fundne entiteter til DBpedia videnlagret [ pedia] 3] ( Mælkebøtte dataTXT-demo eller DBpedia Spotlight- webdemo eller PoolParty Extractor-demo ).

Præsident Obama opfordrede onsdag Kongressen til at inkludere en udvidelse af studerendes skattelettelser i den økonomiske stimuluspakke, idet han argumenterede for, at politikken ville generere stærkere støtte.

Da præsident Obama i DBpedia er knyttet til LinkedData- ressourcen , kan yderligere information hentes automatisk, og Semantic Reasoner kan f.eks. udlede, at den entitet, der henvises til, er en personlighedstype (ved hjælp af FOAF ) og USA's præsident (ved hjælp af YAGO ). Modeksempler: Metoder, der kun genkender enheder og ikke forbinder med Wikipedia-artikler eller andre enheder, giver ikke yderligere strukturerede data og formel videnudtræk.

Konvertering af en relationsdatabase til RDF

  1. Triplify, D2R Server, Ultrawrap og Virtuoso RDF-visninger er værktøjer, der konverterer en relationsdatabase til RDF. Under denne proces tillader disse værktøjer genbrug af ordforråd og ontologi i transformationsprocessen. Når en typisk relationstabel kaldet brugere konverteres , skal en enkelt kolonne (f.eks. navn ) eller en gruppe af kolonner ( f.eks. fornavn og efternavn ) give en ensartet identifikator for den enhed, der oprettes. Normalt bruges hovednøglen. Enhver anden kolonne kan hentes som relateret til denne enhed [4] . Derefter bruges (og genbruges) egenskaber med formelt defineret semantik til at fortolke informationen. For eksempel kan brugertabelkolonnen ved navn giftTo defineres som en semantisk relation, og hjemmesidekolonnen kan tilknyttes en egenskab fra FOAF-ordbogen kaldet foaf: homepage , og dermed kvalificere den som en omvendt funktionalitet . Derefter kan hver indtastning af brugertabellen gøres til en forekomst af foaf:Person -klassen (Population ontology). Derudover kan et emneområde (i form af en ontologi) oprettes ud fra status_id ved manuelt oprettede regler (hvis status_id er 2, hører tabelrækken til lærerklassen) eller ved (semi-)automatiske metoder ( Learn Ontologies ). Nedenfor er et eksempel på en transformation:
Navn gift med hjemmeside status_id
Peter Mary http://example.org/Peters_page  (ikke tilgængeligt link) en
Claus Eva http://example.org/Claus_page  (utilgængeligt link) 2
: Peter : gift med : Mary . : gift med UGLE : SymmetricProperty . : Peter foaf : hjemmeside <http://example.org/Peters_page> . : Peter foaf : Person ( Individuel ) . : Peter : Student ( Student ). : Claus : Lærer ( Lærer ).

Udtræk fra strukturerede kilder i RDF

1:1 mapping fra relationelle databasetabeller/visninger til RDF-enheder/attributter/værdier

Når man bygger en repræsentation af en relationsdatabase (RDB, eng.  relationsdatabase ) er udgangspunktet ofte et entity-relationship diagram ( eng.  entity-relationship diagram , ERD). Typisk er hver enhed repræsenteret som en databasetabel, hver enhedsegenskab bliver en kolonne i den tabel, og forholdet mellem entiteter vises med fremmednøgler. Hver tabel definerer typisk en bestemt enhedsklasse, og hver kolonne definerer en af ​​egenskaberne for denne enhed. Hver række i tabellen beskriver en forekomst af en enhed, entydigt identificeret af en hovednøgle. Tabelrækkerne beskriver sammen enhedssættet. I den RDF-ækvivalente repræsentation af det samme enhedssæt:

  • Hver kolonne i tabellen er en egenskab (det vil sige et prædikat)
  • Hver værdi i en kolonne er en attributegenskab (det vil sige, det er et objekt)
  • Hver rækkenøgle repræsenterer et enheds-id (det vil sige et emne)
  • Hver række repræsenterer en forekomst af en enhed
  • Hver række (entitetsforekomst) er repræsenteret i RDF som en samling af tuples med et fælles emne (entitets-id).

Så for at udtrykke en ækvivalent repræsentation baseret på RDF-semantik ville den grundlæggende algoritme være:

  1. oprette en RDF Schema (RDFS) klasse for hver tabel
  2. konvertere alle hovednøgler og fremmednøgler til IRI identifikatorer
  3. tildele et IRI-prædikat til hver kolonne
  4. tildel rdf:-typeprædikatet til hver linje ved at knytte det til IRI-identifikationen for RDFS-klassen
  5. For hver kolonne, der hverken er en del af hovednøglen eller en del af fremmednøglen, bygger vi en tripel, der indeholder hovednøglens IRI som emne (emne), kolonnens IRI som prædikatet og værdien af kolonne som objektet.

En tidlig reference til grundlæggende eller direkte kortlægning kan findes i Tim Berners-Lees sammenligning af ER-modellen med RDF-modellen [4] .

Komplekse relationelle databasekortlægninger i RDF

Den ovenfor nævnte 1:1-kortlægning repræsenterer de gamle data som RDF direkte, og yderligere forfining kan bruges til at forbedre anvendeligheden af ​​RDF-outputtet i henhold til den givne brugssituation. Som regel går information tabt under transformationen af ​​et entity  -relationship diagram (ERD) til relationelle tabeller (en detaljeret beskrivelse kan findes i artiklen " Objektrelationel mismatch ") og skal gendannes ved omvendt konstruktion . Konceptuelt kan udvindingstilgange komme fra to retninger. Den første retning forsøger at udtrække eller træne (ved hjælp af maskinlæring) et OWL-skema fra et givet databaseskema. Tidlige tilgange brugte et fast antal håndlavede kortlægningsregler for at forbedre 1:1 kortlægning [5] [6] [7] . Mere komplicerede metoder brugte heuristiske eller lærende algoritmer til at generere skematisk information (metoder overlapper med ontologilæring ). Mens nogle tilgange forsøger at udtrække information fra strukturen iboende i SQL -skemaet [8] (ved at parse f.eks. fremmednøgler), parser andre tilgange indholdet og værdierne i tabeller for at skabe konceptuelle hierarkier [9] (f.eks. , kolonner med få værdier er kandidater til at blive kategorier). Den anden retning forsøger at kortlægge skemaet og dets indhold til en eksisterende domæneontologi (se også " Ontologikortlægning "). Ofte eksisterer der dog ikke en passende domæneontologi og skal først oprettes.

XML

Da XML er struktureret som et træ, er det nemt at repræsentere alle data i RDF-format, som er struktureret som en graf. XML2 RDF er et eksempel på en tilgang, der bruger tomme RDF-noder og transformerer XML-elementer og attributter til RDF-egenskaber. Sagen er dog mere kompleks end i tilfældet med relationelle databaser. I relationelle tabeller er hovednøglen en ideel kandidat til emnet fornemme tripler. Et XML-element kan dog konverteres - afhængigt af konteksten - som et emne, som et prædikat eller som et tredobbelt objekt. XSLT kan bruges som et standard transformationssprog til manuel konvertering af XML til RDF.

Oversigt over metoder/midler

Navn Datakilde
_
Præsentation af resultatet Datasynkronisering Vis sprog Genbrug af
ordbog
Displayautomatisering
_
_
Domæneontologi påkrævet Brug af
GUI
Direkte kortlægning af relationelle data til RDF relationelle
data
SPARQL / ETL dynamisk Ingen automatisk
_
Ingen Ingen
CSV2RDF4LOD csv ETL statisk RDF Ja brugervejledning Ingen Ingen
Konverter2RDF Afgrænset tekstfil ETL statisk RDF/DAML Ja brugervejledning Ingen Ja
D2R Server Arkiveret 26. februar 2012 på Wayback Machine RBD SPARQL tovejs D2R kort Ja brugervejledning Ingen Ingen
Dart gitter RBD OWL Query Language dynamisk visuelle hjælpemidler Ja brugervejledning Ingen Ja
data master RBD ETL statisk egen Ja brugervejledning Ja Ja
Google Refines RDF-udvidelse CSV, XML ETL statisk mangler halvautomatisk
_
Ingen Ja
Crextor XML ETL statisk XSLT Ja brugervejledning Ja Ingen
MAPONTO RBD ETL statisk egen Ja brugervejledning Ja Ingen
METAmorfoser RBD ETL statisk eget sprog baseret på xml-kortlægning Ja brugervejledning Ingen Ja
MappingMaster csv ETL statisk MappingMaster Ja GUI Ingen Ja
ODEMapster RBD ETL statisk egen Ja brugervejledning Ja Ja
OntoWiki CSV Importer Plug-in - DataCube & Tabular csv ETL statisk RDF Data Cube Vocaublar Ja halvautomatisk
_
Ingen Ja
Poolparty Extractor (PPX) XML, tekst Linked Data dynamisk RDF ( SKOS ) Ja halvautomatisk
_
Ja Ingen
RDBToOnto RBD ETL statisk mangler Ingen automatisk
, har brugeren mulighed for at finjustere resultatet
Ingen Ja
RDF 123 csv ETL statisk Ingen Ingen brugervejledning Ingen Ja
RDOTE RBD ETL statisk SQL Ja brugervejledning Ja Ja
Relationel.OWL RBD ETL statisk mangler Ingen automatisk
_
Ingen Ingen
T2LD csv ETL statisk Ingen Ingen automatisk
_
Ingen Ingen
RDF ordbogdata cube ( eng.  RDF Data Cube Vocabulary ) Multidimensionelle statistiske data i regneark datakubeordbog Ja brugervejledning Ingen
TopBraid-komponist csv ETL statisk SKOS Ingen halvautomatisk
_
Ingen Ja
tredoble RBD Linked Data dynamisk SQL Ja brugervejledning Ingen Ingen
ultrawrap RBD SPARQL/ETL dynamisk R2RML Ja halvautomatisk
_
Ingen Ja
Virtuose RDF-visninger RBD SPARQL dynamisk Meta Schema Sprog Ja halvautomatisk
_
Ingen Ja
Virtuos Sponger strukturerede
og semistrukturerede
datakilder
SPARQL dynamisk Virtuos PL & XSLT Ja halvautomatisk
_
Ingen Ingen
Vis a vis RBD RDQL [10] brugervejledning SQL Ja brugervejledning Ja Ja
XLWrap: Regneark til RDF csv ETL statisk TriG syntaks Ja brugervejledning Ingen Ingen
XML til RDF XML ETL statisk Ingen Ingen automatisk
_
Ingen Ingen

Udtræk fra en naturlig sprogkilde

Den største del af informationen i et forretningsdokument (ca. 80 % [11] ) er kodet i naturligt sprog og derfor ikke struktureret. Da ustrukturerede data er en ret vanskelig opgave at udvinde viden, kræves der mere sofistikerede metoder, som normalt giver dårligere resultater end strukturerede data. Men evnen til at tilegne sig en enorm mængde udvundet viden kompenserer for den stigende kompleksitet og forringede kvalitet af udvindingen. Yderligere forstås kilder i naturligt sprog som informationskilder, hvor data er givet som ustrukturerede tekstdata. Hvis den givne tekst indsættes i et markup-dokument (såsom et HTML-dokument), fjerner disse systemer normalt markup-elementerne automatisk.

Traditionel informationsudtrækning

Traditionel informationsudtrækning ( IE [12] ) [13] er en   naturlig sprogbehandlingsteknologi, der udtrækker information fra naturlige sprogtekster og strukturerer dem på passende måde . Hvilke typer af informationer, der skal udvindes, skal specificeres i modellen, inden bearbejdningsprocessen påbegyndes, hvorfor hele processen med traditionel informationsudtræk er afhængig af det emneområde, der overvejes. FROM ( eng. IE ) er opdelt i følgende fem delopgaver.  

  • Anerkendelse af navngivet enhed ( eng.  Genkendelse af navngivet enhed , NER)
  • Coreference resolution ( CO  )
  • Skabelonelementkonstruktion ( TE ) (eller tilføjelse  af attributter til enheder)
  • Identifikation af relationer mellem enheder (BC, eng.  Template relation construction , TR)
  • Opbygning af en komplet beskrivelse af begivenheden (PPO, eng.  Template scenario production , ST)

Opgaven med navngivne entitetsgenkendelse er at genkende og kategorisere alle navngivne enheder indeholdt i teksten (tildeling af navngivne enheder til foruddefinerede kategorier). Det virker ved at anvende grammatikbaserede metoder eller statistiske modeller.

Coreference resolution etablerer ækvivalente enheder, der er blevet genkendt i teksten af ​​NER-algoritmen. Der er to beslægtede slags ækvivalensrelationer. Den første relation refererer til en relation mellem to forskellige enheder (f.eks. IBM Europe og IBM), og den anden henviser til en relation mellem en enhed og dens anaforiske reference (f.eks. den og IBM). Begge arter kan genkendes ved coreference resolution .

Under konstruktionen af ​​skabelonelementerne sætter IE-systemet de beskrivende egenskaber for de entiteter, der genkendes af NER- og CO-systemerne. Disse egenskaber svarer til almindelige kvaliteter som "rød" eller "stor".

Identifikationen af ​​relationer mellem individuelle enheder etablerer de relationer, der eksisterer mellem elementerne i skabelonen. Disse relationer kan være af flere slags, såsom værker-til eller beliggende-i, med den begrænsning, at både omfang og rækkevidde svarer til enheder.

Fuldstændige beskrivelser af hændelser, der udføres i teksten, genkendes og struktureres i overensstemmelse med de enheder, der er anerkendt af NER- og CO-systemerne, og relationerne genkendes af BC-systemet.

Udtrækning af information baseret på ontologier

Ontologibaseret informationsekstraktion (OBIE  ) [ 11] er et underfelt af informationsekstraktion, der bruger mindst én ontologi til at styre processen med at udtrække information fra naturlig sprogtekst. OBIE-systemet bruger traditionelle informationsekstraktionsteknikker til at genkende begreberne , entiteterne og relationerne mellem de anvendte ontologier i teksten, som vil blive struktureret til en ontologi efter processen. Således danner input-ontologierne en model for den hentede information.

Ontologilæring

Ontologilæring (OL) er den automatiske eller semi-automatiske skabelse af ontologier, herunder udvinding af relevante  objektdomænetermer fra naturlig sprogtekst. Da det er ekstremt arbejdskrævende og tidskrævende at bygge ontologier i hånden, er der et stærkt incitament til at automatisere processen.

Semantisk annotation

Under semantisk annotering ( SA ) [14] er naturlig sprogtekst ledsaget af metadata (ofte repræsenteret i RDF  [ , Resource Description Framework in Attributes ), der skulle gøre semantikken af ​​de indeholdte elementer forståelig for maskiner . I denne proces, som normalt er halvautomatisk, hentes viden i den forstand, at der etableres en kobling mellem leksikalske emner og fx begreber fra ontologier. Således opnår vi viden, der afslører betydningen af ​​entiteten i den kontekst, der bearbejdes, og derfor bestemmer tekstens betydning i den information, der opfattes af maskinen med evnen til at drage logiske konklusioner. Den semantiske annotering er normalt opdelt i følgende to underopgaver.  

  1. Terminologi udvinding
  2. Sammenkædning af navngivne enheder

På terminologiudtræksniveau uddrages leksikalske termer fra teksten. Til dette formål bestemmer den leksikalske analysator først ordgrænser og udtrækker forkortelser. De termer, der matcher begreberne, uddrages derefter fra teksten ved hjælp af et domænespecifikt ordforråd til entitetslinkning.

Ved sammenkædning af entiteter [15] etableres en forbindelse mellem de udtrukne leksikalske medlemmer fra kildeteksten og begreber fra en ontologi eller videnbase, såsom DBpedia . For at gøre dette identificeres kandidatbegreber i henhold til visse elementværdier ved hjælp af en ordbog. Til sidst analyseres begrebernes kontekst for at bestemme den mest passende disambiguation, og det korrekte begreb tildeles begrebet.

Betyder

Følgende kriterier kan bruges til at kategorisere værktøjer, der uddrager viden fra naturlige sprogtekster.

Kilde Hvilke inputformater kan behandles (f.eks. almindelig tekst, HTML eller PDF )?
Adgangsparadigme Kan værktøjet forespørge på en del af dataene fra kilden, eller kræves der en fuld dump til udtrækningsprocessen?
Datasynkronisering Er resultatet af ekstraktionen synkroniseret med kilden?
Brug af objektmodellen Knytter værktøjet resultatet til objektmodellen?
Display automatisering Hvor automatiseret er udvindingsprocessen (manuel, semi-automatisk eller automatisk)?
Objektmodelkrav Kræver værktøjet en objektmodel for at blive hentet?
Brug af GUI Har værktøjet en grafisk brugergrænseflade ( GUI  ) ?
En tilgang Hvilken tilgang (IE, OBIE, OL eller SA) bruger værktøjet?
Udtrækbare enheder                    Hvilke typer entiteter (såsom navngivne entiteter, begreber eller relationer) kan hentes af værktøjet?
Anvendte teknikker Hvilke teknikker bruges (f.eks. NLP, statistiske metoder, clustering eller machine learning )?
output model Hvilken model bruges til at repræsentere resultatet af værktøjet (f.eks. RDF eller OWL)?
Understøttede fagområder Hvilke fagområder støttes (f.eks. økonomi eller biologi)?
Understøttede sprog Hvilke sprog kan behandles (f.eks. engelsk, tysk eller russisk)?

Den følgende tabel beskriver nogle af værktøjerne til at udtrække viden fra naturlige sprogkilder.

Navn Kilde Adgangsparadigme Datasynkronisering Brug af objektmodellen Display automatisering Objektmodelkrav Brug af GUI En tilgang Udtrækbare enheder                    Anvendte teknikker output model Understøttede områder Understøttede sprog
Aero Text [16] tekstdata, HTML, XML, SGML losseplads Ingen Ja automatisk Ja Ja IE navngivne enheder, relationer, begivenheder sproglige regler egen er ikke afhængig af området Engelsk, spansk, arabisk, kinesisk, indonesisk
Alchemy API [17] tekstdata, HTML automatisk Ja SA flersproget
ANNIE

[atten]

tekstdata losseplads Ja Ja IE tilstandsmaskiners algoritmer flersproget
ASIUM (LRI) tekstdata losseplads halvautomatisk Ja OL begreber, hierarki af begreber NLP, klyngedannelse
Udtømmende udvinding af Attensity automatisk IE navngivne enheder, relationer, begivenheder NLP
Mælkebøtte API tekstdata, HTML, URL HVILE Ingen Ingen automatisk Ingen Ja SA navngivne enheder, begreber statistiske metoder JSON er ikke afhængig af området flersproget
DBpedia Spotlight [19] tekstdata, HTML dump, SPARQL Ja Ja automatisk Ingen Ja SA annotation til hvert ord, annotation til non-stopwords NLP, statistiske metoder, machine learning RDFa er ikke afhængig af området engelsk
EntityClassifier.eu tekstdata, HTML losseplads Ja Ja automatisk Ingen Ja IE, OL, SA annotation til hvert ord, annotation til non-stopwords regelbaseret grammatik XML er ikke afhængig af området engelsk, tysk, hollandsk
Fred [20] tekstdata dump, REST API Ja Ja automatisk Ingen Ja IE, OL, SA, ontologiske designmønstre, rammesemantik NIF eller EarMark ord abstrakt, prædikater, instanser, kompositorisk semantik, taksonomi begreber , semantiske roller, beskrivende relationer, begivenheder, humør, grammatisk tid, navngivne entitetsforbindelser, begivenhedsforbindelser, følelser NLP, machine learning, heuristiske regler RDF/UGLE er ikke afhængig af området Engelsk, andre sprog efter oversættelse
iDocument [21] HTML, PDF , DOC SPARQL Ja Ja OBIE instanser, ejendomsværdier NLP personlig virksomhed
NetOwl Extractor [22] tekstdata, HTML, XML, SGML , PDF, MS Office losseplads Ingen Ja automatisk Ja Ja IE navngivne enheder, relationer, begivenheder NLP XML, JSON , RDF - OWL, andre flere områder engelsk, arabisk, kinesisk (forenklet og traditionel), fransk, koreansk, persisk (farsi og dari), russisk, spansk
OntoGen Arkiveret 30. marts 2010 på Wayback Machine [23] halvautomatisk Ja OL begreber, begrebshierarki, ikke-taksonomiske relationer, instanser NLP, machine learning, clustering
OntoLearn Arkiveret 9. august 2017 på Wayback Machine [24] tekstdata, HTML losseplads Ingen Ja automatisk Ja Ingen OL begreber, begrebshierarki, instanser NLP, statistiske metoder egen er ikke afhængig af området engelsk
OntoLearn genindlæst tekstdata, HTML losseplads Ingen Ja automatisk Ja Ingen OL begreber, begrebshierarki, instanser NLP, statistiske metoder egen er ikke afhængig af området engelsk
OntoSiphon [25] HTML, PDF, DOC dump, søgemaskineforespørgsler Ingen Ja automatisk Ja Ingen OBIE begreber, relationer, instanser NLP, statistiske metoder RDF er ikke afhængig af området engelsk
ontoX [26] tekstdata losseplads Ingen Ja semi-automatisk Ja Ingen OBIE instanser, datatypeegenskabsværdier heuristisk baserede metoder egen er ikke afhængig af området afhænger ikke af sproget
Åbn Calais tekstdata, HTML, XML losseplads Ingen Ja automatisk Ja Ingen SA anmærkning til enheder, anmærkning til begivenheder, anmærkning til fakta NLP, maskinlæring RDF er ikke afhængig af området engelsk, fransk, spansk
Pool Party Extractor (2011) tekstdata, HTML, DOC, ODT losseplads Ingen Ja automatisk Ja Ja OBIE navngivne enheder, begreber, relationer, begreber, der kategoriserer teksten, berigelser NLP, machine learning, statistiske metoder RDF, UGLE er ikke afhængig af området Engelsk, tysk, spansk, fransk
Rosoka tekstdata, HTML, XML, SGML , PDF, MS Office losseplads Ja Ja automatisk Ingen Ja IE navngivet enhedsudvinding, enhedsopløsning, relation, attribut, konceptudtrækning, multi-vektor sentimentanalyse, georeference, sprogidentifikation , maskinlæring NLP XML, JSON , POJO flere områder flersproget (200+ sprog)
SCOOBIE tekstdata, HTML losseplads Ingen Ja automatisk Ingen Ingen OBIE instanser, egenskabsværdier, RDFS-typer NLP, maskinlæring RDF, RDFa er ikke afhængig af området engelsk tysk
SemTag [27] [28] HTML losseplads Ingen Ja automatisk Ja Ingen SA maskinelæring database record er ikke afhængig af området afhænger ikke af sproget
smart FIX tekstdata, HTML, PDF, DOC, e-mail losseplads Ja Ingen automatisk Ingen Ja OBIE navngivne enheder NLP, maskinlæring egen er ikke afhængig af området Engelsk, tysk, fransk, hollandsk, polsk
Text2Onto [29] tekstdata, HTML, PDF losseplads Ja Ingen semi-automatisk Ja Ja OL begreber, begrebsbegreb, ikke-taksonomiske relationer, instanser, aksiomer NLP, statistiske metoder, maskinlæring, regelbaserede metoder UGLE er ikke afhængig af området engelsk, tysk, spansk
Tekst-til-på [30] tekstdata, HTML, PDF, PostScript losseplads semi-automatisk Ja Ja OL begreber, begrebshierarki, ikke-taksonomiske relationer, leksikalske entiteter, der henviser til begreber, leksikalske entiteter, der henviser til relationer NLP, machine learning, clustering, statistiske metoder Deutsch
Den nål Tekstdata losseplads automatisk Ingen begreber, relationer, hierarki NLP, egen JSON flere områder engelsk
Wiki-maskinen [31] tekstdata, HTML, PDF, DOC losseplads Ingen Ja automatisk Ja Ja SA mærkning af egennavne, mærkning af almindelige navneord maskinelæring RDFa region uafhængig Engelsk, tysk, spansk, fransk, portugisisk, italiensk, russisk
Thing Finder [32] IE navngivne enheder, relationer, begivenheder flersproget

Knowledge Discovery

Knowledge discovery beskriver processen med automatisk at søge i store mængder data efter modeller, der kan betragtes som viden om dataene [33] . Dette beskrives ofte som at udvinde viden fra input . Videnopdagelse er udviklet til dataanalyse og er tæt forbundet med både metodologi og terminologi [34] .

Den mest kendte gren af ​​datamining  er videnopdagelse, også kendt som videnopdagelse i databaser . Som mange andre former for videnopdagelse skaber denne analyse abstraktioner af inputdata. Viden erhvervet som følge af denne proces kan blive til yderligere data , som kan bruges til videre brug og søgninger. Ofte har outputtet af en videnopdagelsesproces ingen praktisk værdi, så aktiv videnopdagelse , også kendt som " Domain data analysis " [35] , er designet til at opdage og udtrække (af praktisk betydning) aktiv viden og konklusioner fra denne viden.

En anden lovende anvendelse af videnopdagelse er inden for softwaremodernisering detektering af svagheder og overholdelse af standarder, hvilket involverer forståelse af eksisterende software. Denne proces er relateret til begrebet reverse engineering . Typisk præsenteres viden opnået fra eksisterende software i form af modeller, som specifikke forespørgsler kan stilles på, hvis det er nødvendigt. Entity-relationship-modellen er et almindeligt format, der repræsenterer viden og er afledt af eksisterende software. Object Management Group- konsortiet har udviklet en specifikation for Knowledge Discovery Metamodel ( KDM), som definerer en ontologi for softwareressourcer og deres relationer, designet til at opdage viden i eksisterende kode. Opdagelsen af ​​viden fra kendte softwaresystemer, også kendt som software mining , er tæt forbundet med data mining , da eksisterende softwareopdagelser er af stor betydning for risikostyring og kommerciel værdi , som fungerer som nøgleelementer for analyse og udvikling af softwaresystemer. I stedet for at analysere individuelle datasæt ] fokuserer software mining på metadata såsom produktionsflow (f.eks. dataflow, kontrolflow, opkaldsmønster), arkitektur, databaseskemaer og forretningsregler/vilkår/processer.  

Dataindtastning

Outputformater

Se også

Noter

  1. RDB2RDF Working Group, Website: http://www.w3.org/2001/sw/rdb2rdf/ , charter: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: RDB to RDF Mapping Sprog: http://www.w3.org/TR/r2rml/
  2. LOD2 EU  (utilgængeligt link) Leveres 3.1.1 Vidensudvinding fra strukturerede kilder
  3. Calais udgivelse 4, 2009 .
  4. 1 2 Berners-Lee, 1998 .
  5. Hu, Qu, 2007 , s. 225-238.
  6. Ghawi, Cullot, 2007 .
  7. Li, Du, Wang, 2005 , s. 209-220.
  8. Tirmizi, Miranker, Sequeda, 2008 .
  9. Cerbah, 2008 .
  10. RDQL = RDF-forespørgselssprog
  11. 1 2 Wimalasuriya, Dou, 2010 , s. 306 - 323.
  12. Må ikke forveksles med MS IE = Microsoft Internet Explorer!
  13. Cunningham, 2005 , s. 665-677.
  14. Erdmann, Maedche, Schnurr, Staab, 2000 .
  15. Rao, McNamee, Dredze, 2011 , s. 93-115.
  16. Rocket Software Inc. (2012). "teknologi til at udvinde intelligens fra tekst"
  17. Orchestral8 (2012): "AlchemyAPI Overview"
  18. University of Sheffield (2011). "ANNIE: et næsten nyt informationsudtrækssystem"
  19. Mendes, Jakob, Garcia-Sílva, Bizer, 2011 , s. atten.
  20. Gangemi, Presutti, Recupero et al., 2016 .
  21. Adrian, Maus, Dengel, 2009 .
  22. SRA International Inc. (2012). NetOwl Extractor
  23. Fortuna, Grobelnik, Mladenic, 2007 , s. 309-318.
  24. Missikoff, Navigli, Velardi, 2002 , s. 60-63.
  25. McDowell, Cafarella, 2006 , s. 428 - 444.
  26. Yildiz, Miksch, 2007 , s. 660 - 673.
  27. Dill, Eiron, Gibson et al., 2003 , s. 178 - 186.
  28. Uren, Cimiano, Iria et al., 2006 , s. 14 - 28.
  29. Cimiano, Völker, 2005 .
  30. Maedche, Volz, 2001 .
  31. Maskinforbindelse. "Vi opretter forbindelse til Linked Open Data-skyen"
  32. Inxight ThingFinder og ThingFinder Professional (downlink) . Inxight Federal Systems (2008). Hentet 18. juni 2012. Arkiveret fra originalen 29. juni 2012. 
  33. Frawley, Piatetsky-Shapiro, Matheus, 1992 , s. 57-70.
  34. Fayyad, Piatetsky-Shapiro, Smyth, 1996 , s. 37-54.
  35. Cao, 2010 , s. 755-769.

Litteratur