Videnudvinding er skabelsen af viden fra strukturerede ( relationsdatabaser , XML ) og ustrukturerede kilder ( tekster , dokumenter, billeder ). Den resulterende viden skal være i et format, der tillader computerinput og skal repræsentere viden på en måde, der letter inferens. Selvom metoden i processen ligner informationsudtrækning ( naturlig sprogbehandling , eng. Natural language processing , NLP) og processen med " Extract, Transform, Load " ( eng. Extract, Transform, Load , ETL, for data warehouses) , er hovedkriteriet for resultatet skabelsen af struktureret information eller transformation til et relationelt skema . Dette kræver enten transformation af eksisterende formel viden (genbrug af identifikatorer eller ontologier ) eller generering af et skema baseret på de originale data.
RDB2RDF W3C-gruppen [1] standardiserer et sprog til at udtrække ressourcebeskrivelsesrammer ( RDF ) fra en relationsdatabase . Et andet populært eksempel på videnudvinding er at konvertere Wikipedia til strukturerede data og kortlægning til eksisterende viden (se DBpedia og Freebase ).
Efter standardiseringen af videnrepræsentationssprog, såsom Resource Description Framework ( RDF) og Web Ontology Language ( OWL ), er der blevet forsket meget på dette område, især vedrørende transformation af relationsdatabasen. data i RDF , genkendelsesevner , videnopdagelse og ontologilæring. Hovedprocessen bruger traditionelle informationsekstraktionsmetoder og udtræk , transformer, indlæs ( ETL) metoder, der konverterer data fra kildeformater til strukturerede formater .
Følgende kriterier kan bruges til kategoriseringsforsøg i dette emne (nogle af dem giver videnudtræk fra relationelle databaser) [2] :
Kilde | Hvilke data kan behandles: Tekst, Relationel database, XML , CSV |
---|---|
Ydeevne | Hvordan kan de udtrukne data præsenteres til brug (ontologi (objektmodel) fil, semantisk database)? Hvordan er det muligt at anmode om oplysningerne fra den modtagne repræsentation? |
Synkronisering | Udføres vidensudvinding én gang for at producere et dump, eller er resultatet synkroniseret med kilden? Er ekstraktion statisk eller dynamisk? Er ændringer i resultatet skrevet tilbage til kilden (tovejs)? |
Genbrug af ordbog | Om udtrækkeren tillader genbrug af eksisterende ordbøger ved udtræk. For eksempel kan 'firstName'-tabelkolonnen tilknyttes kolonnen foaf: firstName. Nogle automatiske tilgange er ikke i stand til at vise en ordbog. |
Automatisering | Grad af deltagelse / automatisering af ekstraktion: Manuel tilstand, der er en GUI , semi-automatisk, automatisk. |
Behovet for en domæneobjektmodel | Om en foruddefineret objektmodel skal tilknyttes den. Der oprettes således enten en mapping, eller et skema opnås fra kilden af ( training ontologies ). |
Præsident Obama opfordrede onsdag Kongressen til at inkludere en udvidelse af studerendes skattelettelser i den økonomiske stimuluspakke, idet han argumenterede for, at politikken ville generere stærkere støtte.
Da præsident Obama i DBpedia er knyttet til LinkedData- ressourcen , kan yderligere information hentes automatisk, og Semantic Reasoner kan f.eks. udlede, at den entitet, der henvises til, er en personlighedstype (ved hjælp af FOAF ) og USA's præsident (ved hjælp af YAGO ). Modeksempler: Metoder, der kun genkender enheder og ikke forbinder med Wikipedia-artikler eller andre enheder, giver ikke yderligere strukturerede data og formel videnudtræk.Navn | gift med | hjemmeside | status_id |
---|---|---|---|
Peter | Mary | http://example.org/Peters_page (ikke tilgængeligt link) | en |
Claus | Eva | http://example.org/Claus_page (utilgængeligt link) | 2 |
Når man bygger en repræsentation af en relationsdatabase (RDB, eng. relationsdatabase ) er udgangspunktet ofte et entity-relationship diagram ( eng. entity-relationship diagram , ERD). Typisk er hver enhed repræsenteret som en databasetabel, hver enhedsegenskab bliver en kolonne i den tabel, og forholdet mellem entiteter vises med fremmednøgler. Hver tabel definerer typisk en bestemt enhedsklasse, og hver kolonne definerer en af egenskaberne for denne enhed. Hver række i tabellen beskriver en forekomst af en enhed, entydigt identificeret af en hovednøgle. Tabelrækkerne beskriver sammen enhedssættet. I den RDF-ækvivalente repræsentation af det samme enhedssæt:
Så for at udtrykke en ækvivalent repræsentation baseret på RDF-semantik ville den grundlæggende algoritme være:
En tidlig reference til grundlæggende eller direkte kortlægning kan findes i Tim Berners-Lees sammenligning af ER-modellen med RDF-modellen [4] .
Den ovenfor nævnte 1:1-kortlægning repræsenterer de gamle data som RDF direkte, og yderligere forfining kan bruges til at forbedre anvendeligheden af RDF-outputtet i henhold til den givne brugssituation. Som regel går information tabt under transformationen af et entity -relationship diagram (ERD) til relationelle tabeller (en detaljeret beskrivelse kan findes i artiklen " Objektrelationel mismatch ") og skal gendannes ved omvendt konstruktion . Konceptuelt kan udvindingstilgange komme fra to retninger. Den første retning forsøger at udtrække eller træne (ved hjælp af maskinlæring) et OWL-skema fra et givet databaseskema. Tidlige tilgange brugte et fast antal håndlavede kortlægningsregler for at forbedre 1:1 kortlægning [5] [6] [7] . Mere komplicerede metoder brugte heuristiske eller lærende algoritmer til at generere skematisk information (metoder overlapper med ontologilæring ). Mens nogle tilgange forsøger at udtrække information fra strukturen iboende i SQL -skemaet [8] (ved at parse f.eks. fremmednøgler), parser andre tilgange indholdet og værdierne i tabeller for at skabe konceptuelle hierarkier [9] (f.eks. , kolonner med få værdier er kandidater til at blive kategorier). Den anden retning forsøger at kortlægge skemaet og dets indhold til en eksisterende domæneontologi (se også " Ontologikortlægning "). Ofte eksisterer der dog ikke en passende domæneontologi og skal først oprettes.
Da XML er struktureret som et træ, er det nemt at repræsentere alle data i RDF-format, som er struktureret som en graf. XML2 RDF er et eksempel på en tilgang, der bruger tomme RDF-noder og transformerer XML-elementer og attributter til RDF-egenskaber. Sagen er dog mere kompleks end i tilfældet med relationelle databaser. I relationelle tabeller er hovednøglen en ideel kandidat til emnet fornemme tripler. Et XML-element kan dog konverteres - afhængigt af konteksten - som et emne, som et prædikat eller som et tredobbelt objekt. XSLT kan bruges som et standard transformationssprog til manuel konvertering af XML til RDF.
Navn | Datakilde _ |
Præsentation af resultatet | Datasynkronisering | Vis sprog | Genbrug af ordbog |
Displayautomatisering _ _ |
Domæneontologi påkrævet | Brug af
GUI |
---|---|---|---|---|---|---|---|---|
Direkte kortlægning af relationelle data til RDF | relationelle data |
SPARQL / ETL | dynamisk | Ingen | automatisk _ |
Ingen | Ingen | |
CSV2RDF4LOD | csv | ETL | statisk | RDF | Ja | brugervejledning | Ingen | Ingen |
Konverter2RDF | Afgrænset tekstfil | ETL | statisk | RDF/DAML | Ja | brugervejledning | Ingen | Ja |
D2R Server Arkiveret 26. februar 2012 på Wayback Machine | RBD | SPARQL | tovejs | D2R kort | Ja | brugervejledning | Ingen | Ingen |
Dart gitter | RBD | OWL Query Language | dynamisk | visuelle hjælpemidler | Ja | brugervejledning | Ingen | Ja |
data master | RBD | ETL | statisk | egen | Ja | brugervejledning | Ja | Ja |
Google Refines RDF-udvidelse | CSV, XML | ETL | statisk | mangler | halvautomatisk _ |
Ingen | Ja | |
Crextor | XML | ETL | statisk | XSLT | Ja | brugervejledning | Ja | Ingen |
MAPONTO | RBD | ETL | statisk | egen | Ja | brugervejledning | Ja | Ingen |
METAmorfoser | RBD | ETL | statisk | eget sprog baseret på xml-kortlægning | Ja | brugervejledning | Ingen | Ja |
MappingMaster | csv | ETL | statisk | MappingMaster | Ja | GUI | Ingen | Ja |
ODEMapster | RBD | ETL | statisk | egen | Ja | brugervejledning | Ja | Ja |
OntoWiki CSV Importer Plug-in - DataCube & Tabular | csv | ETL | statisk | RDF Data Cube Vocaublar | Ja | halvautomatisk _ |
Ingen | Ja |
Poolparty Extractor (PPX) | XML, tekst | Linked Data | dynamisk | RDF ( SKOS ) | Ja | halvautomatisk _ |
Ja | Ingen |
RDBToOnto | RBD | ETL | statisk | mangler | Ingen | automatisk , har brugeren mulighed for at finjustere resultatet |
Ingen | Ja |
RDF 123 | csv | ETL | statisk | Ingen | Ingen | brugervejledning | Ingen | Ja |
RDOTE | RBD | ETL | statisk | SQL | Ja | brugervejledning | Ja | Ja |
Relationel.OWL | RBD | ETL | statisk | mangler | Ingen | automatisk _ |
Ingen | Ingen |
T2LD | csv | ETL | statisk | Ingen | Ingen | automatisk _ |
Ingen | Ingen |
RDF ordbogdata cube ( eng. RDF Data Cube Vocabulary ) | Multidimensionelle statistiske data i regneark | datakubeordbog | Ja | brugervejledning | Ingen | |||
TopBraid-komponist | csv | ETL | statisk | SKOS | Ingen | halvautomatisk _ |
Ingen | Ja |
tredoble | RBD | Linked Data | dynamisk | SQL | Ja | brugervejledning | Ingen | Ingen |
ultrawrap | RBD | SPARQL/ETL | dynamisk | R2RML | Ja | halvautomatisk _ |
Ingen | Ja |
Virtuose RDF-visninger | RBD | SPARQL | dynamisk | Meta Schema Sprog | Ja | halvautomatisk _ |
Ingen | Ja |
Virtuos Sponger | strukturerede og semistrukturerede datakilder |
SPARQL | dynamisk | Virtuos PL & XSLT | Ja | halvautomatisk _ |
Ingen | Ingen |
Vis a vis | RBD | RDQL [10] | brugervejledning | SQL | Ja | brugervejledning | Ja | Ja |
XLWrap: Regneark til RDF | csv | ETL | statisk | TriG syntaks | Ja | brugervejledning | Ingen | Ingen |
XML til RDF | XML | ETL | statisk | Ingen | Ingen | automatisk _ |
Ingen | Ingen |
Den største del af informationen i et forretningsdokument (ca. 80 % [11] ) er kodet i naturligt sprog og derfor ikke struktureret. Da ustrukturerede data er en ret vanskelig opgave at udvinde viden, kræves der mere sofistikerede metoder, som normalt giver dårligere resultater end strukturerede data. Men evnen til at tilegne sig en enorm mængde udvundet viden kompenserer for den stigende kompleksitet og forringede kvalitet af udvindingen. Yderligere forstås kilder i naturligt sprog som informationskilder, hvor data er givet som ustrukturerede tekstdata. Hvis den givne tekst indsættes i et markup-dokument (såsom et HTML-dokument), fjerner disse systemer normalt markup-elementerne automatisk.
Traditionel informationsudtrækning ( IE [12] ) [13] er en naturlig sprogbehandlingsteknologi, der udtrækker information fra naturlige sprogtekster og strukturerer dem på passende måde . Hvilke typer af informationer, der skal udvindes, skal specificeres i modellen, inden bearbejdningsprocessen påbegyndes, hvorfor hele processen med traditionel informationsudtræk er afhængig af det emneområde, der overvejes. FROM ( eng. IE ) er opdelt i følgende fem delopgaver.
Opgaven med navngivne entitetsgenkendelse er at genkende og kategorisere alle navngivne enheder indeholdt i teksten (tildeling af navngivne enheder til foruddefinerede kategorier). Det virker ved at anvende grammatikbaserede metoder eller statistiske modeller.
Coreference resolution etablerer ækvivalente enheder, der er blevet genkendt i teksten af NER-algoritmen. Der er to beslægtede slags ækvivalensrelationer. Den første relation refererer til en relation mellem to forskellige enheder (f.eks. IBM Europe og IBM), og den anden henviser til en relation mellem en enhed og dens anaforiske reference (f.eks. den og IBM). Begge arter kan genkendes ved coreference resolution .
Under konstruktionen af skabelonelementerne sætter IE-systemet de beskrivende egenskaber for de entiteter, der genkendes af NER- og CO-systemerne. Disse egenskaber svarer til almindelige kvaliteter som "rød" eller "stor".
Identifikationen af relationer mellem individuelle enheder etablerer de relationer, der eksisterer mellem elementerne i skabelonen. Disse relationer kan være af flere slags, såsom værker-til eller beliggende-i, med den begrænsning, at både omfang og rækkevidde svarer til enheder.
Fuldstændige beskrivelser af hændelser, der udføres i teksten, genkendes og struktureres i overensstemmelse med de enheder, der er anerkendt af NER- og CO-systemerne, og relationerne genkendes af BC-systemet.
Ontologibaseret informationsekstraktion (OBIE ) [ 11] er et underfelt af informationsekstraktion, der bruger mindst én ontologi til at styre processen med at udtrække information fra naturlig sprogtekst. OBIE-systemet bruger traditionelle informationsekstraktionsteknikker til at genkende begreberne , entiteterne og relationerne mellem de anvendte ontologier i teksten, som vil blive struktureret til en ontologi efter processen. Således danner input-ontologierne en model for den hentede information.
Ontologilæring (OL) er den automatiske eller semi-automatiske skabelse af ontologier, herunder udvinding af relevante objektdomænetermer fra naturlig sprogtekst. Da det er ekstremt arbejdskrævende og tidskrævende at bygge ontologier i hånden, er der et stærkt incitament til at automatisere processen.
Under semantisk annotering ( SA ) [14] er naturlig sprogtekst ledsaget af metadata (ofte repræsenteret i RDF [ , Resource Description Framework in Attributes ), der skulle gøre semantikken af de indeholdte elementer forståelig for maskiner . I denne proces, som normalt er halvautomatisk, hentes viden i den forstand, at der etableres en kobling mellem leksikalske emner og fx begreber fra ontologier. Således opnår vi viden, der afslører betydningen af entiteten i den kontekst, der bearbejdes, og derfor bestemmer tekstens betydning i den information, der opfattes af maskinen med evnen til at drage logiske konklusioner. Den semantiske annotering er normalt opdelt i følgende to underopgaver.
På terminologiudtræksniveau uddrages leksikalske termer fra teksten. Til dette formål bestemmer den leksikalske analysator først ordgrænser og udtrækker forkortelser. De termer, der matcher begreberne, uddrages derefter fra teksten ved hjælp af et domænespecifikt ordforråd til entitetslinkning.
Ved sammenkædning af entiteter [15] etableres en forbindelse mellem de udtrukne leksikalske medlemmer fra kildeteksten og begreber fra en ontologi eller videnbase, såsom DBpedia . For at gøre dette identificeres kandidatbegreber i henhold til visse elementværdier ved hjælp af en ordbog. Til sidst analyseres begrebernes kontekst for at bestemme den mest passende disambiguation, og det korrekte begreb tildeles begrebet.
Følgende kriterier kan bruges til at kategorisere værktøjer, der uddrager viden fra naturlige sprogtekster.
Kilde | Hvilke inputformater kan behandles (f.eks. almindelig tekst, HTML eller PDF )? |
Adgangsparadigme | Kan værktøjet forespørge på en del af dataene fra kilden, eller kræves der en fuld dump til udtrækningsprocessen? |
Datasynkronisering | Er resultatet af ekstraktionen synkroniseret med kilden? |
Brug af objektmodellen | Knytter værktøjet resultatet til objektmodellen? |
Display automatisering | Hvor automatiseret er udvindingsprocessen (manuel, semi-automatisk eller automatisk)? |
Objektmodelkrav | Kræver værktøjet en objektmodel for at blive hentet? |
Brug af GUI | Har værktøjet en grafisk brugergrænseflade ( GUI ) ? |
En tilgang | Hvilken tilgang (IE, OBIE, OL eller SA) bruger værktøjet? |
Udtrækbare enheder | Hvilke typer entiteter (såsom navngivne entiteter, begreber eller relationer) kan hentes af værktøjet? |
Anvendte teknikker | Hvilke teknikker bruges (f.eks. NLP, statistiske metoder, clustering eller machine learning )? |
output model | Hvilken model bruges til at repræsentere resultatet af værktøjet (f.eks. RDF eller OWL)? |
Understøttede fagområder | Hvilke fagområder støttes (f.eks. økonomi eller biologi)? |
Understøttede sprog | Hvilke sprog kan behandles (f.eks. engelsk, tysk eller russisk)? |
Den følgende tabel beskriver nogle af værktøjerne til at udtrække viden fra naturlige sprogkilder.
Navn | Kilde | Adgangsparadigme | Datasynkronisering | Brug af objektmodellen | Display automatisering | Objektmodelkrav | Brug af GUI | En tilgang | Udtrækbare enheder | Anvendte teknikker | output model | Understøttede områder | Understøttede sprog |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Aero Text [16] | tekstdata, HTML, XML, SGML | losseplads | Ingen | Ja | automatisk | Ja | Ja | IE | navngivne enheder, relationer, begivenheder | sproglige regler | egen | er ikke afhængig af området | Engelsk, spansk, arabisk, kinesisk, indonesisk |
Alchemy API [17] | tekstdata, HTML | automatisk | Ja | SA | flersproget | ||||||||
ANNIE | tekstdata | losseplads | Ja | Ja | IE | tilstandsmaskiners algoritmer | flersproget | ||||||
ASIUM (LRI) | tekstdata | losseplads | halvautomatisk | Ja | OL | begreber, hierarki af begreber | NLP, klyngedannelse | ||||||
Udtømmende udvinding af Attensity | automatisk | IE | navngivne enheder, relationer, begivenheder | NLP | |||||||||
Mælkebøtte API | tekstdata, HTML, URL | HVILE | Ingen | Ingen | automatisk | Ingen | Ja | SA | navngivne enheder, begreber | statistiske metoder | JSON | er ikke afhængig af området | flersproget |
DBpedia Spotlight [19] | tekstdata, HTML | dump, SPARQL | Ja | Ja | automatisk | Ingen | Ja | SA | annotation til hvert ord, annotation til non-stopwords | NLP, statistiske metoder, machine learning | RDFa | er ikke afhængig af området | engelsk |
EntityClassifier.eu | tekstdata, HTML | losseplads | Ja | Ja | automatisk | Ingen | Ja | IE, OL, SA | annotation til hvert ord, annotation til non-stopwords | regelbaseret grammatik | XML | er ikke afhængig af området | engelsk, tysk, hollandsk |
Fred [20] | tekstdata | dump, REST API | Ja | Ja | automatisk | Ingen | Ja | IE, OL, SA, ontologiske designmønstre, rammesemantik | NIF eller EarMark ord abstrakt, prædikater, instanser, kompositorisk semantik, taksonomi begreber , semantiske roller, beskrivende relationer, begivenheder, humør, grammatisk tid, navngivne entitetsforbindelser, begivenhedsforbindelser, følelser | NLP, machine learning, heuristiske regler | RDF/UGLE | er ikke afhængig af området | Engelsk, andre sprog efter oversættelse |
iDocument [21] | HTML, PDF , DOC | SPARQL | Ja | Ja | OBIE | instanser, ejendomsværdier | NLP | personlig virksomhed | |||||
NetOwl Extractor [22] | tekstdata, HTML, XML, SGML , PDF, MS Office | losseplads | Ingen | Ja | automatisk | Ja | Ja | IE | navngivne enheder, relationer, begivenheder | NLP | XML, JSON , RDF - OWL, andre | flere områder | engelsk, arabisk, kinesisk (forenklet og traditionel), fransk, koreansk, persisk (farsi og dari), russisk, spansk |
OntoGen Arkiveret 30. marts 2010 på Wayback Machine [23] | halvautomatisk | Ja | OL | begreber, begrebshierarki, ikke-taksonomiske relationer, instanser | NLP, machine learning, clustering | ||||||||
OntoLearn Arkiveret 9. august 2017 på Wayback Machine [24] | tekstdata, HTML | losseplads | Ingen | Ja | automatisk | Ja | Ingen | OL | begreber, begrebshierarki, instanser | NLP, statistiske metoder | egen | er ikke afhængig af området | engelsk |
OntoLearn genindlæst | tekstdata, HTML | losseplads | Ingen | Ja | automatisk | Ja | Ingen | OL | begreber, begrebshierarki, instanser | NLP, statistiske metoder | egen | er ikke afhængig af området | engelsk |
OntoSiphon [25] | HTML, PDF, DOC | dump, søgemaskineforespørgsler | Ingen | Ja | automatisk | Ja | Ingen | OBIE | begreber, relationer, instanser | NLP, statistiske metoder | RDF | er ikke afhængig af området | engelsk |
ontoX [26] | tekstdata | losseplads | Ingen | Ja | semi-automatisk | Ja | Ingen | OBIE | instanser, datatypeegenskabsværdier | heuristisk baserede metoder | egen | er ikke afhængig af området | afhænger ikke af sproget |
Åbn Calais | tekstdata, HTML, XML | losseplads | Ingen | Ja | automatisk | Ja | Ingen | SA | anmærkning til enheder, anmærkning til begivenheder, anmærkning til fakta | NLP, maskinlæring | RDF | er ikke afhængig af området | engelsk, fransk, spansk |
Pool Party Extractor (2011) | tekstdata, HTML, DOC, ODT | losseplads | Ingen | Ja | automatisk | Ja | Ja | OBIE | navngivne enheder, begreber, relationer, begreber, der kategoriserer teksten, berigelser | NLP, machine learning, statistiske metoder | RDF, UGLE | er ikke afhængig af området | Engelsk, tysk, spansk, fransk |
Rosoka | tekstdata, HTML, XML, SGML , PDF, MS Office | losseplads | Ja | Ja | automatisk | Ingen | Ja | IE | navngivet enhedsudvinding, enhedsopløsning, relation, attribut, konceptudtrækning, multi-vektor sentimentanalyse, georeference, sprogidentifikation , maskinlæring | NLP | XML, JSON , POJO | flere områder | flersproget (200+ sprog) |
SCOOBIE | tekstdata, HTML | losseplads | Ingen | Ja | automatisk | Ingen | Ingen | OBIE | instanser, egenskabsværdier, RDFS-typer | NLP, maskinlæring | RDF, RDFa | er ikke afhængig af området | engelsk tysk |
SemTag [27] [28] | HTML | losseplads | Ingen | Ja | automatisk | Ja | Ingen | SA | maskinelæring | database record | er ikke afhængig af området | afhænger ikke af sproget | |
smart FIX | tekstdata, HTML, PDF, DOC, e-mail | losseplads | Ja | Ingen | automatisk | Ingen | Ja | OBIE | navngivne enheder | NLP, maskinlæring | egen | er ikke afhængig af området | Engelsk, tysk, fransk, hollandsk, polsk |
Text2Onto [29] | tekstdata, HTML, PDF | losseplads | Ja | Ingen | semi-automatisk | Ja | Ja | OL | begreber, begrebsbegreb, ikke-taksonomiske relationer, instanser, aksiomer | NLP, statistiske metoder, maskinlæring, regelbaserede metoder | UGLE | er ikke afhængig af området | engelsk, tysk, spansk |
Tekst-til-på [30] | tekstdata, HTML, PDF, PostScript | losseplads | semi-automatisk | Ja | Ja | OL | begreber, begrebshierarki, ikke-taksonomiske relationer, leksikalske entiteter, der henviser til begreber, leksikalske entiteter, der henviser til relationer | NLP, machine learning, clustering, statistiske metoder | Deutsch | ||||
Den nål | Tekstdata | losseplads | automatisk | Ingen | begreber, relationer, hierarki | NLP, egen | JSON | flere områder | engelsk | ||||
Wiki-maskinen [31] | tekstdata, HTML, PDF, DOC | losseplads | Ingen | Ja | automatisk | Ja | Ja | SA | mærkning af egennavne, mærkning af almindelige navneord | maskinelæring | RDFa | region uafhængig | Engelsk, tysk, spansk, fransk, portugisisk, italiensk, russisk |
Thing Finder [32] | IE | navngivne enheder, relationer, begivenheder | flersproget |
Knowledge discovery beskriver processen med automatisk at søge i store mængder data efter modeller, der kan betragtes som viden om dataene [33] . Dette beskrives ofte som at udvinde viden fra input . Videnopdagelse er udviklet til dataanalyse og er tæt forbundet med både metodologi og terminologi [34] .
Den mest kendte gren af datamining er videnopdagelse, også kendt som videnopdagelse i databaser . Som mange andre former for videnopdagelse skaber denne analyse abstraktioner af inputdata. Viden erhvervet som følge af denne proces kan blive til yderligere data , som kan bruges til videre brug og søgninger. Ofte har outputtet af en videnopdagelsesproces ingen praktisk værdi, så aktiv videnopdagelse , også kendt som " Domain data analysis " [35] , er designet til at opdage og udtrække (af praktisk betydning) aktiv viden og konklusioner fra denne viden.
En anden lovende anvendelse af videnopdagelse er inden for softwaremodernisering detektering af svagheder og overholdelse af standarder, hvilket involverer forståelse af eksisterende software. Denne proces er relateret til begrebet reverse engineering . Typisk præsenteres viden opnået fra eksisterende software i form af modeller, som specifikke forespørgsler kan stilles på, hvis det er nødvendigt. Entity-relationship-modellen er et almindeligt format, der repræsenterer viden og er afledt af eksisterende software. Object Management Group- konsortiet har udviklet en specifikation for Knowledge Discovery Metamodel ( KDM), som definerer en ontologi for softwareressourcer og deres relationer, designet til at opdage viden i eksisterende kode. Opdagelsen af viden fra kendte softwaresystemer, også kendt som software mining , er tæt forbundet med data mining , da eksisterende softwareopdagelser er af stor betydning for risikostyring og kommerciel værdi , som fungerer som nøgleelementer for analyse og udvikling af softwaresystemer. I stedet for at analysere individuelle datasæt ] fokuserer software mining på metadata såsom produktionsflow (f.eks. dataflow, kontrolflow, opkaldsmønster), arkitektur, databaseskemaer og forretningsregler/vilkår/processer.
semantisk web | |
---|---|
Grundlæggende | |
Underafsnit |
|
Ansøgninger |
|
relaterede emner | |
Standarder |
|