Udvinding af viden

Videnudvinding er skabelsen af viden fra strukturerede ( relationsdatabaser , XML ) og ustrukturerede kilder ( tekster , dokumenter, billeder ). Den resulterende viden skal være i et format, der tillader computerinput og skal repræsentere viden på en måde, der letter inferens. Selvom metoden i processen ligner informationsudtrækning ( naturlig sprogbehandling , eng. Natural language processing , NLP) og processen med " Extract, Transform, Load " ( eng. Extract, Transform, Load , ETL, for data warehouses) , er hovedkriteriet for resultatet skabelsen af struktureret information eller transformation til et relationelt skema . Dette kræver enten transformation af eksisterende formel viden (genbrug af identifikatorer eller ontologier ) eller generering af et skema baseret på de originale data.

RDB2RDF W3C-gruppen [1] standardiserer et sprog til at udtrække ressourcebeskrivelsesrammer ( RDF ) fra en relationsdatabase . Et andet populært eksempel på videnudvinding er at konvertere Wikipedia til strukturerede data og kortlægning til eksisterende viden (se DBpedia og Freebase ).

Oversigt

Efter standardiseringen af videnrepræsentationssprog, såsom Resource Description Framework ( RDF) og Web Ontology Language ( OWL ), er der blevet forsket meget på dette område, især vedrørende transformation af relationsdatabasen. data i RDF , genkendelsesevner , videnopdagelse og ontologilæring. Hovedprocessen bruger traditionelle informationsekstraktionsmetoder og udtræk , transformer, indlæs ( ETL) metoder, der konverterer data fra kildeformater til strukturerede formater .

Følgende kriterier kan bruges til kategoriseringsforsøg i dette emne (nogle af dem giver videnudtræk fra relationelle databaser) [2] :

Kilde	Hvilke data kan behandles: Tekst, Relationel database, XML , CSV
Ydeevne	Hvordan kan de udtrukne data præsenteres til brug (ontologi (objektmodel) fil, semantisk database)? Hvordan er det muligt at anmode om oplysningerne fra den modtagne repræsentation?
Synkronisering	Udføres vidensudvinding én gang for at producere et dump, eller er resultatet synkroniseret med kilden? Er ekstraktion statisk eller dynamisk? Er ændringer i resultatet skrevet tilbage til kilden (tovejs)?
Genbrug af ordbog	Om udtrækkeren tillader genbrug af eksisterende ordbøger ved udtræk. For eksempel kan 'firstName'-tabelkolonnen tilknyttes kolonnen foaf: firstName. Nogle automatiske tilgange er ikke i stand til at vise en ordbog.
Automatisering	Grad af deltagelse / automatisering af ekstraktion: Manuel tilstand, der er en GUI , semi-automatisk, automatisk.
Behovet for en domæneobjektmodel	Om en foruddefineret objektmodel skal tilknyttes den. Der oprettes således enten en mapping, eller et skema opnås fra kilden af ( training ontologies ).

Eksempler

Navngivet enhedsbinding

DBpedia Spotlight , OpenCalais , Dandelion dataTXT , Zemanta API , Extractiv og PoolParty Extractor parser vilkårlig tekst ved at genkende navngivne entiteter , og derefter løse tvetydigheder ved at løse navne og linke de fundne entiteter til DBpedia videnlagret [ pedia] 3] ( Mælkebøtte dataTXT-demo eller DBpedia Spotlight- webdemo eller PoolParty Extractor-demo ).

Præsident Obama opfordrede onsdag Kongressen til at inkludere en udvidelse af studerendes skattelettelser i den økonomiske stimuluspakke, idet han argumenterede for, at politikken ville generere stærkere støtte.

Da præsident Obama i DBpedia er knyttet til LinkedData- ressourcen , kan yderligere information hentes automatisk, og Semantic Reasoner kan f.eks. udlede, at den entitet, der henvises til, er en personlighedstype (ved hjælp af FOAF ) og USA's præsident (ved hjælp af YAGO ). Modeksempler: Metoder, der kun genkender enheder og ikke forbinder med Wikipedia-artikler eller andre enheder, giver ikke yderligere strukturerede data og formel videnudtræk.

Konvertering af en relationsdatabase til RDF

Triplify, D2R Server, Ultrawrap og Virtuoso RDF-visninger er værktøjer, der konverterer en relationsdatabase til RDF. Under denne proces tillader disse værktøjer genbrug af ordforråd og ontologi i transformationsprocessen. Når en typisk relationstabel kaldet brugere konverteres , skal en enkelt kolonne (f.eks. navn ) eller en gruppe af kolonner ( f.eks. fornavn og efternavn ) give en ensartet identifikator for den enhed, der oprettes. Normalt bruges hovednøglen. Enhver anden kolonne kan hentes som relateret til denne enhed [4] . Derefter bruges (og genbruges) egenskaber med formelt defineret semantik til at fortolke informationen. For eksempel kan brugertabelkolonnen ved navn giftTo defineres som en semantisk relation, og hjemmesidekolonnen kan tilknyttes en egenskab fra FOAF-ordbogen kaldet foaf: homepage , og dermed kvalificere den som en omvendt funktionalitet . Derefter kan hver indtastning af brugertabellen gøres til en forekomst af foaf:Person -klassen (Population ontology). Derudover kan et emneområde (i form af en ontologi) oprettes ud fra status_id ved manuelt oprettede regler (hvis status_id er 2, hører tabelrækken til lærerklassen) eller ved (semi-)automatiske metoder ( Learn Ontologies ). Nedenfor er et eksempel på en transformation:

Navn	gift med	hjemmeside	status_id
Peter	Mary	http://example.org/Peters_page (ikke tilgængeligt link)	en
Claus	Eva	http://example.org/Claus_page (utilgængeligt link)	2

: Peter : gift med : Mary . : gift med UGLE : SymmetricProperty . : Peter foaf : hjemmeside <http://example.org/Peters_page> . : Peter foaf : Person ( Individuel ) . : Peter : Student ( Student ). : Claus : Lærer ( Lærer ).

Udtræk fra strukturerede kilder i RDF

1:1 mapping fra relationelle databasetabeller/visninger til RDF-enheder/attributter/værdier

Når man bygger en repræsentation af en relationsdatabase (RDB, eng. relationsdatabase ) er udgangspunktet ofte et entity-relationship diagram ( eng. entity-relationship diagram , ERD). Typisk er hver enhed repræsenteret som en databasetabel, hver enhedsegenskab bliver en kolonne i den tabel, og forholdet mellem entiteter vises med fremmednøgler. Hver tabel definerer typisk en bestemt enhedsklasse, og hver kolonne definerer en af egenskaberne for denne enhed. Hver række i tabellen beskriver en forekomst af en enhed, entydigt identificeret af en hovednøgle. Tabelrækkerne beskriver sammen enhedssættet. I den RDF-ækvivalente repræsentation af det samme enhedssæt:

Hver kolonne i tabellen er en egenskab (det vil sige et prædikat)
Hver værdi i en kolonne er en attributegenskab (det vil sige, det er et objekt)
Hver rækkenøgle repræsenterer et enheds-id (det vil sige et emne)
Hver række repræsenterer en forekomst af en enhed
Hver række (entitetsforekomst) er repræsenteret i RDF som en samling af tuples med et fælles emne (entitets-id).

Så for at udtrykke en ækvivalent repræsentation baseret på RDF-semantik ville den grundlæggende algoritme være:

oprette en RDF Schema (RDFS) klasse for hver tabel
konvertere alle hovednøgler og fremmednøgler til IRI identifikatorer
tildele et IRI-prædikat til hver kolonne
tildel rdf:-typeprædikatet til hver linje ved at knytte det til IRI-identifikationen for RDFS-klassen
For hver kolonne, der hverken er en del af hovednøglen eller en del af fremmednøglen, bygger vi en tripel, der indeholder hovednøglens IRI som emne (emne), kolonnens IRI som prædikatet og værdien af kolonne som objektet.

En tidlig reference til grundlæggende eller direkte kortlægning kan findes i Tim Berners-Lees sammenligning af ER-modellen med RDF-modellen [4] .

Komplekse relationelle databasekortlægninger i RDF

Den ovenfor nævnte 1:1-kortlægning repræsenterer de gamle data som RDF direkte, og yderligere forfining kan bruges til at forbedre anvendeligheden af RDF-outputtet i henhold til den givne brugssituation. Som regel går information tabt under transformationen af et entity -relationship diagram (ERD) til relationelle tabeller (en detaljeret beskrivelse kan findes i artiklen " Objektrelationel mismatch ") og skal gendannes ved omvendt konstruktion . Konceptuelt kan udvindingstilgange komme fra to retninger. Den første retning forsøger at udtrække eller træne (ved hjælp af maskinlæring) et OWL-skema fra et givet databaseskema. Tidlige tilgange brugte et fast antal håndlavede kortlægningsregler for at forbedre 1:1 kortlægning [5] [6] [7] . Mere komplicerede metoder brugte heuristiske eller lærende algoritmer til at generere skematisk information (metoder overlapper med ontologilæring ). Mens nogle tilgange forsøger at udtrække information fra strukturen iboende i SQL -skemaet [8] (ved at parse f.eks. fremmednøgler), parser andre tilgange indholdet og værdierne i tabeller for at skabe konceptuelle hierarkier [9] (f.eks. , kolonner med få værdier er kandidater til at blive kategorier). Den anden retning forsøger at kortlægge skemaet og dets indhold til en eksisterende domæneontologi (se også " Ontologikortlægning "). Ofte eksisterer der dog ikke en passende domæneontologi og skal først oprettes.

XML

Da XML er struktureret som et træ, er det nemt at repræsentere alle data i RDF-format, som er struktureret som en graf. XML2 RDF er et eksempel på en tilgang, der bruger tomme RDF-noder og transformerer XML-elementer og attributter til RDF-egenskaber. Sagen er dog mere kompleks end i tilfældet med relationelle databaser. I relationelle tabeller er hovednøglen en ideel kandidat til emnet fornemme tripler. Et XML-element kan dog konverteres - afhængigt af konteksten - som et emne, som et prædikat eller som et tredobbelt objekt. XSLT kan bruges som et standard transformationssprog til manuel konvertering af XML til RDF.

Oversigt over metoder/midler

Navn	Datakilde _	Præsentation af resultatet	Datasynkronisering	Vis sprog	Genbrug af ordbog	Displayautomatisering _ _	Domæneontologi påkrævet	Brug af GUI
Direkte kortlægning af relationelle data til RDF	relationelle data	SPARQL / ETL	dynamisk		Ingen	automatisk _	Ingen	Ingen
CSV2RDF4LOD	csv	ETL	statisk	RDF	Ja	brugervejledning	Ingen	Ingen
Konverter2RDF	Afgrænset tekstfil	ETL	statisk	RDF/DAML	Ja	brugervejledning	Ingen	Ja
D2R Server Arkiveret 26. februar 2012 på Wayback Machine	RBD	SPARQL	tovejs	D2R kort	Ja	brugervejledning	Ingen	Ingen
Dart gitter	RBD	OWL Query Language	dynamisk	visuelle hjælpemidler	Ja	brugervejledning	Ingen	Ja
data master	RBD	ETL	statisk	egen	Ja	brugervejledning	Ja	Ja
Google Refines RDF-udvidelse	CSV, XML	ETL	statisk	mangler		halvautomatisk _	Ingen	Ja
Crextor	XML	ETL	statisk	XSLT	Ja	brugervejledning	Ja	Ingen
MAPONTO	RBD	ETL	statisk	egen	Ja	brugervejledning	Ja	Ingen
METAmorfoser	RBD	ETL	statisk	eget sprog baseret på xml-kortlægning	Ja	brugervejledning	Ingen	Ja
MappingMaster	csv	ETL	statisk	MappingMaster	Ja	GUI	Ingen	Ja
ODEMapster	RBD	ETL	statisk	egen	Ja	brugervejledning	Ja	Ja
OntoWiki CSV Importer Plug-in - DataCube & Tabular	csv	ETL	statisk	RDF Data Cube Vocaublar	Ja	halvautomatisk _	Ingen	Ja
Poolparty Extractor (PPX)	XML, tekst	Linked Data	dynamisk	RDF ( SKOS )	Ja	halvautomatisk _	Ja	Ingen
RDBToOnto	RBD	ETL	statisk	mangler	Ingen	automatisk , har brugeren mulighed for at finjustere resultatet	Ingen	Ja
RDF 123	csv	ETL	statisk	Ingen	Ingen	brugervejledning	Ingen	Ja
RDOTE	RBD	ETL	statisk	SQL	Ja	brugervejledning	Ja	Ja
Relationel.OWL	RBD	ETL	statisk	mangler	Ingen	automatisk _	Ingen	Ingen
T2LD	csv	ETL	statisk	Ingen	Ingen	automatisk _	Ingen	Ingen
RDF ordbogdata cube ( eng. RDF Data Cube Vocabulary )	Multidimensionelle statistiske data i regneark			datakubeordbog	Ja	brugervejledning	Ingen
TopBraid-komponist	csv	ETL	statisk	SKOS	Ingen	halvautomatisk _	Ingen	Ja
tredoble	RBD	Linked Data	dynamisk	SQL	Ja	brugervejledning	Ingen	Ingen
ultrawrap	RBD	SPARQL/ETL	dynamisk	R2RML	Ja	halvautomatisk _	Ingen	Ja
Virtuose RDF-visninger	RBD	SPARQL	dynamisk	Meta Schema Sprog	Ja	halvautomatisk _	Ingen	Ja
Virtuos Sponger	strukturerede og semistrukturerede datakilder	SPARQL	dynamisk	Virtuos PL & XSLT	Ja	halvautomatisk _	Ingen	Ingen
Vis a vis	RBD	RDQL [10]	brugervejledning	SQL	Ja	brugervejledning	Ja	Ja
XLWrap: Regneark til RDF	csv	ETL	statisk	TriG syntaks	Ja	brugervejledning	Ingen	Ingen
XML til RDF	XML	ETL	statisk	Ingen	Ingen	automatisk _	Ingen	Ingen

Udtræk fra en naturlig sprogkilde

Den største del af informationen i et forretningsdokument (ca. 80 % [11] ) er kodet i naturligt sprog og derfor ikke struktureret. Da ustrukturerede data er en ret vanskelig opgave at udvinde viden, kræves der mere sofistikerede metoder, som normalt giver dårligere resultater end strukturerede data. Men evnen til at tilegne sig en enorm mængde udvundet viden kompenserer for den stigende kompleksitet og forringede kvalitet af udvindingen. Yderligere forstås kilder i naturligt sprog som informationskilder, hvor data er givet som ustrukturerede tekstdata. Hvis den givne tekst indsættes i et markup-dokument (såsom et HTML-dokument), fjerner disse systemer normalt markup-elementerne automatisk.

Traditionel informationsudtrækning

Traditionel informationsudtrækning ( IE [12] ) [13] er en naturlig sprogbehandlingsteknologi, der udtrækker information fra naturlige sprogtekster og strukturerer dem på passende måde . Hvilke typer af informationer, der skal udvindes, skal specificeres i modellen, inden bearbejdningsprocessen påbegyndes, hvorfor hele processen med traditionel informationsudtræk er afhængig af det emneområde, der overvejes. FROM ( eng. IE ) er opdelt i følgende fem delopgaver.

Anerkendelse af navngivet enhed ( eng. Genkendelse af navngivet enhed , NER)
Coreference resolution ( CO )
Skabelonelementkonstruktion ( TE ) (eller tilføjelse af attributter til enheder)
Identifikation af relationer mellem enheder (BC, eng. Template relation construction , TR)
Opbygning af en komplet beskrivelse af begivenheden (PPO, eng. Template scenario production , ST)

Opgaven med navngivne entitetsgenkendelse er at genkende og kategorisere alle navngivne enheder indeholdt i teksten (tildeling af navngivne enheder til foruddefinerede kategorier). Det virker ved at anvende grammatikbaserede metoder eller statistiske modeller.

Coreference resolution etablerer ækvivalente enheder, der er blevet genkendt i teksten af NER-algoritmen. Der er to beslægtede slags ækvivalensrelationer. Den første relation refererer til en relation mellem to forskellige enheder (f.eks. IBM Europe og IBM), og den anden henviser til en relation mellem en enhed og dens anaforiske reference (f.eks. den og IBM). Begge arter kan genkendes ved coreference resolution .

Under konstruktionen af skabelonelementerne sætter IE-systemet de beskrivende egenskaber for de entiteter, der genkendes af NER- og CO-systemerne. Disse egenskaber svarer til almindelige kvaliteter som "rød" eller "stor".

Identifikationen af relationer mellem individuelle enheder etablerer de relationer, der eksisterer mellem elementerne i skabelonen. Disse relationer kan være af flere slags, såsom værker-til eller beliggende-i, med den begrænsning, at både omfang og rækkevidde svarer til enheder.

Fuldstændige beskrivelser af hændelser, der udføres i teksten, genkendes og struktureres i overensstemmelse med de enheder, der er anerkendt af NER- og CO-systemerne, og relationerne genkendes af BC-systemet.

Udtrækning af information baseret på ontologier

Ontologibaseret informationsekstraktion (OBIE ) [ 11] er et underfelt af informationsekstraktion, der bruger mindst én ontologi til at styre processen med at udtrække information fra naturlig sprogtekst. OBIE-systemet bruger traditionelle informationsekstraktionsteknikker til at genkende begreberne , entiteterne og relationerne mellem de anvendte ontologier i teksten, som vil blive struktureret til en ontologi efter processen. Således danner input-ontologierne en model for den hentede information.

Ontologilæring

Ontologilæring (OL) er den automatiske eller semi-automatiske skabelse af ontologier, herunder udvinding af relevante objektdomænetermer fra naturlig sprogtekst. Da det er ekstremt arbejdskrævende og tidskrævende at bygge ontologier i hånden, er der et stærkt incitament til at automatisere processen.

Semantisk annotation

Under semantisk annotering ( SA ) [14] er naturlig sprogtekst ledsaget af metadata (ofte repræsenteret i RDF [ , Resource Description Framework in Attributes ), der skulle gøre semantikken af de indeholdte elementer forståelig for maskiner . I denne proces, som normalt er halvautomatisk, hentes viden i den forstand, at der etableres en kobling mellem leksikalske emner og fx begreber fra ontologier. Således opnår vi viden, der afslører betydningen af entiteten i den kontekst, der bearbejdes, og derfor bestemmer tekstens betydning i den information, der opfattes af maskinen med evnen til at drage logiske konklusioner. Den semantiske annotering er normalt opdelt i følgende to underopgaver.

Terminologi udvinding
Sammenkædning af navngivne enheder

På terminologiudtræksniveau uddrages leksikalske termer fra teksten. Til dette formål bestemmer den leksikalske analysator først ordgrænser og udtrækker forkortelser. De termer, der matcher begreberne, uddrages derefter fra teksten ved hjælp af et domænespecifikt ordforråd til entitetslinkning.

Ved sammenkædning af entiteter [15] etableres en forbindelse mellem de udtrukne leksikalske medlemmer fra kildeteksten og begreber fra en ontologi eller videnbase, såsom DBpedia . For at gøre dette identificeres kandidatbegreber i henhold til visse elementværdier ved hjælp af en ordbog. Til sidst analyseres begrebernes kontekst for at bestemme den mest passende disambiguation, og det korrekte begreb tildeles begrebet.

Betyder

Følgende kriterier kan bruges til at kategorisere værktøjer, der uddrager viden fra naturlige sprogtekster.

Kilde	Hvilke inputformater kan behandles (f.eks. almindelig tekst, HTML eller PDF )?
Adgangsparadigme	Kan værktøjet forespørge på en del af dataene fra kilden, eller kræves der en fuld dump til udtrækningsprocessen?
Datasynkronisering	Er resultatet af ekstraktionen synkroniseret med kilden?
Brug af objektmodellen	Knytter værktøjet resultatet til objektmodellen?
Display automatisering	Hvor automatiseret er udvindingsprocessen (manuel, semi-automatisk eller automatisk)?
Objektmodelkrav	Kræver værktøjet en objektmodel for at blive hentet?
Brug af GUI	Har værktøjet en grafisk brugergrænseflade ( GUI ) ?
En tilgang	Hvilken tilgang (IE, OBIE, OL eller SA) bruger værktøjet?
Udtrækbare enheder	Hvilke typer entiteter (såsom navngivne entiteter, begreber eller relationer) kan hentes af værktøjet?
Anvendte teknikker	Hvilke teknikker bruges (f.eks. NLP, statistiske metoder, clustering eller machine learning )?
output model	Hvilken model bruges til at repræsentere resultatet af værktøjet (f.eks. RDF eller OWL)?
Understøttede fagområder	Hvilke fagområder støttes (f.eks. økonomi eller biologi)?
Understøttede sprog	Hvilke sprog kan behandles (f.eks. engelsk, tysk eller russisk)?

Den følgende tabel beskriver nogle af værktøjerne til at udtrække viden fra naturlige sprogkilder.

Navn	Kilde	Adgangsparadigme	Datasynkronisering	Brug af objektmodellen	Display automatisering	Objektmodelkrav	Brug af GUI	En tilgang	Udtrækbare enheder	Anvendte teknikker	output model	Understøttede områder	Understøttede sprog
Aero Text [16]	tekstdata, HTML, XML, SGML	losseplads	Ingen	Ja	automatisk	Ja	Ja	IE	navngivne enheder, relationer, begivenheder	sproglige regler	egen	er ikke afhængig af området	Engelsk, spansk, arabisk, kinesisk, indonesisk
Alchemy API [17]	tekstdata, HTML				automatisk		Ja	SA					flersproget
ANNIE [atten]	tekstdata	losseplads				Ja	Ja	IE		tilstandsmaskiners algoritmer			flersproget
ASIUM (LRI)	tekstdata	losseplads			halvautomatisk		Ja	OL	begreber, hierarki af begreber	NLP, klyngedannelse
Udtømmende udvinding af Attensity					automatisk			IE	navngivne enheder, relationer, begivenheder	NLP
Mælkebøtte API	tekstdata, HTML, URL	HVILE	Ingen	Ingen	automatisk	Ingen	Ja	SA	navngivne enheder, begreber	statistiske metoder	JSON	er ikke afhængig af området	flersproget
DBpedia Spotlight [19]	tekstdata, HTML	dump, SPARQL	Ja	Ja	automatisk	Ingen	Ja	SA	annotation til hvert ord, annotation til non-stopwords	NLP, statistiske metoder, machine learning	RDFa	er ikke afhængig af området	engelsk
EntityClassifier.eu	tekstdata, HTML	losseplads	Ja	Ja	automatisk	Ingen	Ja	IE, OL, SA	annotation til hvert ord, annotation til non-stopwords	regelbaseret grammatik	XML	er ikke afhængig af området	engelsk, tysk, hollandsk
Fred [20]	tekstdata	dump, REST API	Ja	Ja	automatisk	Ingen	Ja	IE, OL, SA, ontologiske designmønstre, rammesemantik	NIF eller EarMark ord abstrakt, prædikater, instanser, kompositorisk semantik, taksonomi begreber , semantiske roller, beskrivende relationer, begivenheder, humør, grammatisk tid, navngivne entitetsforbindelser, begivenhedsforbindelser, følelser	NLP, machine learning, heuristiske regler	RDF/UGLE	er ikke afhængig af området	Engelsk, andre sprog efter oversættelse
iDocument [21]	HTML, PDF , DOC	SPARQL		Ja			Ja	OBIE	instanser, ejendomsværdier	NLP		personlig virksomhed
NetOwl Extractor [22]	tekstdata, HTML, XML, SGML , PDF, MS Office	losseplads	Ingen	Ja	automatisk	Ja	Ja	IE	navngivne enheder, relationer, begivenheder	NLP	XML, JSON , RDF - OWL, andre	flere områder	engelsk, arabisk, kinesisk (forenklet og traditionel), fransk, koreansk, persisk (farsi og dari), russisk, spansk
OntoGen Arkiveret 30. marts 2010 på Wayback Machine [23]					halvautomatisk		Ja	OL	begreber, begrebshierarki, ikke-taksonomiske relationer, instanser	NLP, machine learning, clustering
OntoLearn Arkiveret 9. august 2017 på Wayback Machine [24]	tekstdata, HTML	losseplads	Ingen	Ja	automatisk	Ja	Ingen	OL	begreber, begrebshierarki, instanser	NLP, statistiske metoder	egen	er ikke afhængig af området	engelsk
OntoLearn genindlæst	tekstdata, HTML	losseplads	Ingen	Ja	automatisk	Ja	Ingen	OL	begreber, begrebshierarki, instanser	NLP, statistiske metoder	egen	er ikke afhængig af området	engelsk
OntoSiphon [25]	HTML, PDF, DOC	dump, søgemaskineforespørgsler	Ingen	Ja	automatisk	Ja	Ingen	OBIE	begreber, relationer, instanser	NLP, statistiske metoder	RDF	er ikke afhængig af området	engelsk
ontoX [26]	tekstdata	losseplads	Ingen	Ja	semi-automatisk	Ja	Ingen	OBIE	instanser, datatypeegenskabsværdier	heuristisk baserede metoder	egen	er ikke afhængig af området	afhænger ikke af sproget
Åbn Calais	tekstdata, HTML, XML	losseplads	Ingen	Ja	automatisk	Ja	Ingen	SA	anmærkning til enheder, anmærkning til begivenheder, anmærkning til fakta	NLP, maskinlæring	RDF	er ikke afhængig af området	engelsk, fransk, spansk
Pool Party Extractor (2011)	tekstdata, HTML, DOC, ODT	losseplads	Ingen	Ja	automatisk	Ja	Ja	OBIE	navngivne enheder, begreber, relationer, begreber, der kategoriserer teksten, berigelser	NLP, machine learning, statistiske metoder	RDF, UGLE	er ikke afhængig af området	Engelsk, tysk, spansk, fransk
Rosoka	tekstdata, HTML, XML, SGML , PDF, MS Office	losseplads	Ja	Ja	automatisk	Ingen	Ja	IE	navngivet enhedsudvinding, enhedsopløsning, relation, attribut, konceptudtrækning, multi-vektor sentimentanalyse, georeference, sprogidentifikation , maskinlæring	NLP	XML, JSON , POJO	flere områder	flersproget (200+ sprog)
SCOOBIE	tekstdata, HTML	losseplads	Ingen	Ja	automatisk	Ingen	Ingen	OBIE	instanser, egenskabsværdier, RDFS-typer	NLP, maskinlæring	RDF, RDFa	er ikke afhængig af området	engelsk tysk
SemTag [27] [28]	HTML	losseplads	Ingen	Ja	automatisk	Ja	Ingen	SA		maskinelæring	database record	er ikke afhængig af området	afhænger ikke af sproget
smart FIX	tekstdata, HTML, PDF, DOC, e-mail	losseplads	Ja	Ingen	automatisk	Ingen	Ja	OBIE	navngivne enheder	NLP, maskinlæring	egen	er ikke afhængig af området	Engelsk, tysk, fransk, hollandsk, polsk
Text2Onto [29]	tekstdata, HTML, PDF	losseplads	Ja	Ingen	semi-automatisk	Ja	Ja	OL	begreber, begrebsbegreb, ikke-taksonomiske relationer, instanser, aksiomer	NLP, statistiske metoder, maskinlæring, regelbaserede metoder	UGLE	er ikke afhængig af området	engelsk, tysk, spansk
Tekst-til-på [30]	tekstdata, HTML, PDF, PostScript	losseplads			semi-automatisk	Ja	Ja	OL	begreber, begrebshierarki, ikke-taksonomiske relationer, leksikalske entiteter, der henviser til begreber, leksikalske entiteter, der henviser til relationer	NLP, machine learning, clustering, statistiske metoder			Deutsch
Den nål	Tekstdata	losseplads			automatisk		Ingen		begreber, relationer, hierarki	NLP, egen	JSON	flere områder	engelsk
Wiki-maskinen [31]	tekstdata, HTML, PDF, DOC	losseplads	Ingen	Ja	automatisk	Ja	Ja	SA	mærkning af egennavne, mærkning af almindelige navneord	maskinelæring	RDFa	region uafhængig	Engelsk, tysk, spansk, fransk, portugisisk, italiensk, russisk
Thing Finder [32]								IE	navngivne enheder, relationer, begivenheder				flersproget

Knowledge Discovery

Knowledge discovery beskriver processen med automatisk at søge i store mængder data efter modeller, der kan betragtes som viden om dataene [33] . Dette beskrives ofte som at udvinde viden fra input . Videnopdagelse er udviklet til dataanalyse og er tæt forbundet med både metodologi og terminologi [34] .

Den mest kendte gren af datamining er videnopdagelse, også kendt som videnopdagelse i databaser . Som mange andre former for videnopdagelse skaber denne analyse abstraktioner af inputdata. Viden erhvervet som følge af denne proces kan blive til yderligere data , som kan bruges til videre brug og søgninger. Ofte har outputtet af en videnopdagelsesproces ingen praktisk værdi, så aktiv videnopdagelse , også kendt som " Domain data analysis " [35] , er designet til at opdage og udtrække (af praktisk betydning) aktiv viden og konklusioner fra denne viden.

En anden lovende anvendelse af videnopdagelse er inden for softwaremodernisering detektering af svagheder og overholdelse af standarder, hvilket involverer forståelse af eksisterende software. Denne proces er relateret til begrebet reverse engineering . Typisk præsenteres viden opnået fra eksisterende software i form af modeller, som specifikke forespørgsler kan stilles på, hvis det er nødvendigt. Entity-relationship-modellen er et almindeligt format, der repræsenterer viden og er afledt af eksisterende software. Object Management Group- konsortiet har udviklet en specifikation for Knowledge Discovery Metamodel ( KDM), som definerer en ontologi for softwareressourcer og deres relationer, designet til at opdage viden i eksisterende kode. Opdagelsen af viden fra kendte softwaresystemer, også kendt som software mining , er tæt forbundet med data mining , da eksisterende softwareopdagelser er af stor betydning for risikostyring og kommerciel værdi , som fungerer som nøgleelementer for analyse og udvikling af softwaresystemer. I stedet for at analysere individuelle datasæt ] fokuserer software mining på metadata såsom produktionsflow (f.eks. dataflow, kontrolflow, opkaldsmønster), arkitektur, databaseskemaer og forretningsregler/vilkår/processer.

Dataindtastning

Database
- Relationsdata
- Database
- Dokumentopbevaring
- Datalager
Software
Tekst
- Konceptudvinding
Grafer
- Intelligent analyse af molekyler
Sekvenser
- Dataflow mining
- Concept Drift
web

Outputformater

Se også

Noter

↑ RDB2RDF Working Group, Website: http://www.w3.org/2001/sw/rdb2rdf/ , charter: http://www.w3.org/2009/08/rdb2rdf-charter , R2RML: RDB to RDF Mapping Sprog: http://www.w3.org/TR/r2rml/
↑ LOD2 EU (utilgængeligt link) Leveres 3.1.1 Vidensudvinding fra strukturerede kilder
↑ Calais udgivelse 4, 2009 .
↑ 1 2 Berners-Lee, 1998 .
↑ Hu, Qu, 2007 , s. 225-238.
↑ Ghawi, Cullot, 2007 .
↑ Li, Du, Wang, 2005 , s. 209-220.
↑ Tirmizi, Miranker, Sequeda, 2008 .
↑ Cerbah, 2008 .
↑ RDQL = RDF-forespørgselssprog
↑ 1 2 Wimalasuriya, Dou, 2010 , s. 306 - 323.
↑ Må ikke forveksles med MS IE = Microsoft Internet Explorer!
↑ Cunningham, 2005 , s. 665-677.
↑ Erdmann, Maedche, Schnurr, Staab, 2000 .
↑ Rao, McNamee, Dredze, 2011 , s. 93-115.
↑ Rocket Software Inc. (2012). "teknologi til at udvinde intelligens fra tekst"
↑ Orchestral8 (2012): "AlchemyAPI Overview"
↑ University of Sheffield (2011). "ANNIE: et næsten nyt informationsudtrækssystem"
↑ Mendes, Jakob, Garcia-Sílva, Bizer, 2011 , s. atten.
↑ Gangemi, Presutti, Recupero et al., 2016 .
↑ Adrian, Maus, Dengel, 2009 .
↑ SRA International Inc. (2012). NetOwl Extractor
↑ Fortuna, Grobelnik, Mladenic, 2007 , s. 309-318.
↑ Missikoff, Navigli, Velardi, 2002 , s. 60-63.
↑ McDowell, Cafarella, 2006 , s. 428 - 444.
↑ Yildiz, Miksch, 2007 , s. 660 - 673.
↑ Dill, Eiron, Gibson et al., 2003 , s. 178 - 186.
↑ Uren, Cimiano, Iria et al., 2006 , s. 14 - 28.
↑ Cimiano, Völker, 2005 .
↑ Maedche, Volz, 2001 .
↑ Maskinforbindelse. "Vi opretter forbindelse til Linked Open Data-skyen"
↑ Inxight ThingFinder og ThingFinder Professional (downlink) . Inxight Federal Systems (2008). Hentet 18. juni 2012. Arkiveret fra originalen 29. juni 2012. (ubestemt)
↑ Frawley, Piatetsky-Shapiro, Matheus, 1992 , s. 57-70.
↑ Fayyad, Piatetsky-Shapiro, Smyth, 1996 , s. 37-54.
↑ Cao, 2010 , s. 755-769.

Litteratur

Cao L. Domænedrevet datamining: udfordringer og udsigter // IEEE Trans. om viden og datateknik. - 2010. - T. 22 , no. 6 . - doi : 10.1109/tkde.2010.32 .
Livet i den linkede datasky // www.opencalais.com. - 2009. Arkiveret den 24. november 2009. Uddrag: Wikipedia har en pendant ved navn DBpedia. DBpedia har den samme strukturerede information som Wikipedia, men konverteret til et maskinlæsbart format.
Benjamin Adrian, Heiko Maus, Andreas Dengel. iDocument: Brug af ontologier til at udtrække information fra tekst. – 2009.
William J. Frawley, Gregory Piatetsky-Shapiro, Christopher J. Matheus. Opdagelse af viden i databaser: en oversigt // AI Magazine. - 1992. - T. 13 , nr. 3 . - S. 57-70 . Arkiveret fra originalen den 4. marts 2016.
Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth. Fra Data Mining til Knowledge Discovery i databaser // AI Magazine. - 1996. - T. 17 , nr. 3 . - S. 37-54 . Arkiveret fra originalen den 4. maj 2016.
Tim Berners Lee. Relationelle databaser på det semantiske web . - 1998.
Farid Cerbah. At lære meget strukturerede semantiske repositories fra relationelle databaser // The Semantic Web: Research and Applications . - Berlin / Heidelberg: Springer, 2008. - T. 5021. - (Lecture Notes in Computer Science). Arkiveret 20. juli 2011 på Wayback Machine
Syed Hamid Tirmizi, Daniel P. Miranker, Juan Sequeda. Oversættelse af SQL-applikationer til det semantiske web // Database- og ekspertsystemer-applikationer . - 2008. - T. 5181/2008. — (Forelæsningsnotater i datalogi).
Wei Hu, Yuzhong Q. Opdagelse af simple kortlægninger mellem relationelle databaseskemaer og ontologier // Proc. af 6. International Semantic Web Conference (ISWC 2007), 2. Asian Semantic Web Conference (ASWC 2007) . - Busan, Korea, 11.-15. november 2007, 2007. - T. 4825. - S. 225-238. — (Forelæsningsnotater i datalogi).
Ghawi R., Cullot N. Database-to-Ontology Mapping Generation for Semantic Interoperability // Third International Workshop on Database Interoperability (InterDB 2007). . – 2007.
Man Li, Xiaoyong Du, Shan Wang. En halvautomatisk ontologiopsamlingsmetode til det semantiske web // WAIM. - Springer, 2005. - T. 3739. - S. 209-220. — (Forelæsningsnotater i datalogi). - doi : 10.1007/11563952_19 .
Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero, Andrea Giovanni Nuzzolese, Francesco Draicchio, Misael Mongiovì. Semantisk webmaskinelæsning med FRED // Semantisk webjournal. - 2016. - doi : 10.3233/SW-160240 .
Philipp Cimiano, Johanna Volker. Text2Onto - A Framework for Ontology Learning and Data-Driven Change Discovery // Proceedings of the 10th International Conference of Applications of Natural Language to Information Systems. - 2005. - T. 3513. - S. 227 - 238.
Hamish Cunningham. Informationsudtrækning, automatisk // Encyclopedia of Language and Linguistics . - 2005. - S. 665 - 677.
Stephen Dill, Nadav Eiron, David Gibson, Daniel Gruhl, R. Guha, Anant Jhingran, Tapas Kanungo, Sridhar Rajagopalan, Andrew Tomkins, John A. Tomlin, Jason Y. Zien. SemTag og Seeker: Bootstraping the Semantic Web via Automated Semantic Annotation // Proceedings of the 12th international conference on World Wide Web . - 2003. - S. 178 - 186.
Erdmann M., Maedche A., Schnurr H.-P., Staab S. From Manual to Semi-automatic Semantic Annotation: About Ontology-based Text Annotation Tools // Proceedings of the COLING. - 2000.
Blaz Fortuna, Marko Grobelnik, Dunja Mladenic. OntoGen: Semi-automatic Ontology Editor // Proceedings of the 2007 conference on Human Interface, Part 2 . - 2007. - S. 309 - 318.
Alexander Maedche, Raphael Volz. Ontology Extraction & Maintenance Framework Text-To-Onto // Proceedings of the IEEE International Conference on Data Mining . – 2001.
Luke K. McDowell, Michael Cafarella. Ontologi-drevet informationsudvinding med OntoSyphon // Proceedings of the 5th international conference on The Semantic Web . - 2006. - S. 428 - 444.
Pablo N. Mendes, Max Jakob, Andrés Garcia-Sílva, Christian Bizer. DBpedia Spotlight: Shedding Light on the Web of Documents // Proceedings of the 7th International Conference on Semantic Systems . - 2011. - S. 1 - 8. Arkiveksemplar af 5. april 2012 på Wayback Machine
Michele Missikoff, Roberto Navigli, Paola Velardi. Integreret tilgang til webontologi læring og teknik // Computer. - 2002. - T. 35 , no. 11 . - S. 60 - 63 .
Delip Rao, Paul McNamee, Mark Dredze. Entity Linking: Find udtrukne enheder i en vidensbase // Multi-source, Multi-lingual Information Extraction and Summarization . — 2011. (utilgængeligt link)
Victoria Uren, Philipp Cimiano, José Iria, Siegfried Handschuh, Maria Vargas-Vera, Enrico Motta, Fabio Ciravegna. Semantisk annotation til vidensstyring: Krav og en undersøgelse af den nyeste viden // Web Semantics: Science, Services and Agents on the World Wide Web. - 2006. - V. 4 , no. 1 . - S. 14 - 28 . (utilgængeligt link)
Daya C. Wimalasuriya, Dejing Dou. Ontologi-baseret informationsudvinding: En introduktion og en undersøgelse af aktuelle tilgange // Journal of Information Science. - 2010. - T. 36 , no. 3 . - S. 306 - 323 .
Burcu Yildiz, Silvia Miksch. ontoX - En metode til ontologi-drevet informationsekstraktion // Proceedings of the 2007 international conference on Computational Science and its applications . - 2007. - T. 3. - S. 660 - 673.

semantisk web
Grundlæggende	World Wide Web Internet Hypertekst Database Semantiske netværk Ontologier Beskrivelseslogik
Underafsnit	Tilknyttede data data web Hyperdata Server for udførelse af forretningsregler Datarum
Ansøgninger	Semantisk Wiki Semantisk udgivelse Semantisk søgning Semantisk computing semantisk reklame Semantisk ræsonnement mekanisme semantisk matchning semantisk kortlægger semantisk mægler semantisk analyse semantisk serviceorienteret arkitektur
relaterede emner	Folksonomi Bibliotek 2.0 Web 2.0 Links Informationsarkitektur Videnshåndtering kollektiv intelligens Tematiske kort Mindmapping metadata Geotagging webvidenskab
Standarder	Syntaks : RDF RDF/XML Notation 3 Skildpadde N-tripler JSON-LD SPARQL URI http XML Skemaer, ontologier : RDFS UGLE Regeludvekslingsformat Semantisk webregelsprog fælles logik Schema.org Semantisk anmærkning : RDFa eRDF GRDDL Mikroformater Mikrodata Ordbøger : DOAP FOAF SIOC Dublins kerne SKOS UMBEL Historie : Almindelig gammel semantisk HTML DAML+OLIE