Semantisk web

Semantisk web (fra engelsk semantisk web ) - et offentligt globalt semantisk netværk , dannet på basis af World Wide Web ved at standardisere præsentationen af information i en form, der er egnet til maskinbehandling.

I et konventionelt HTML -baseret World Wide Web er information indlejret i teksten på siderne og er beregnet til at blive læst og forstået af mennesker. Det semantiske web består af maskinlæsbare elementer - det semantiske webs noder , baseret på ontologi . Takket være dette er klientprogrammer i stand til direkte at modtage udsagn i formen "emne-type forhold - et andet objekt" fra internettet og beregne logiske konklusioner på dem . Det semantiske web fungerer parallelt med og oven på det almindelige World Wide Web ved hjælp af HTTP-protokollen og URI - ressourceidentifikatorer .

Navnet "Semantic Web" blev først introduceret af Tim Berners-Lee (opfinderen af World Wide Web) i september 1998 [1] , og han kalder det "det næste skridt i udviklingen af World Wide Web". Senere i sin blog foreslog han [2] som et synonym for udtrykket "giant global graph" ( eng. giant global graph , GGG , analogt med WWW). Begrebet Semantic Web er blevet vedtaget og fremmes af World Wide Web Consortium [3] .

Hovedidé

The Semantic Web er en tilføjelse til det eksisterende World Wide Web designet til at gøre information, der er lagt på internettet, egnet til maskinbehandling. Den information, der er tilgængelig på nettet, kan læses af mennesker. Det Semantiske Web er designet til at gøre information egnet til automatisk analyse, syntese af konklusioner og transformation af både selve dataene og konklusionerne fra dem til forskellige repræsentationer, der er nyttige i praksis.

Maskinbearbejdning er mulig på grund af to karakteristika Semantic Web:

tilstedeværelsen af en URI ;
brugen af semantiske netværk og ontologier .

URI er en ensartet ressource-id eller adresse , der bruges til at angive links til et eller andet objekt (f.eks. en webside , fil eller e -mail -boks). URI'er bruges til at navngive objekter. Hvert objekt i det globale semantiske netværk har en unik URI. En URI navngiver et objekt entydigt. Separate URI'er oprettes ikke kun til sider, men også til objekter i den virkelige verden (mennesker, byer, kunstværker og så videre) og endda til abstrakte begreber (f.eks. "navn", "position", "farve" ). På grund af det unikke ved URI'er kan de samme elementer navngives det samme forskellige steder på det semantiske web. Ved at bruge en URI kan du indsamle oplysninger om den samme vare fra forskellige steder. Det anbefales at inkludere navnet på en af World Wide Web-protokollerne ( HTTP eller HTTPS ) i URI-adressen. Det vil sige, at URI-adressen anbefales at starte med "http://" eller "https://"). En sådan adresse kan bruges både som en URI -adresse og som en websideadresse ( URL ). På websider, hvis URL'er matcher URI'er, anbefaler W3C, at du inkluderer en beskrivelse af varen. Det er ønskeligt at give en beskrivelse i to formater [5] :

i et menneskelæsbart format;
maskinlæsbart format.

Brug af semantiske netværk og ontologier . Data på World Wide Web præsenteres normalt som tekst skrevet på naturlige sprog . Sådanne tekster er designet til at være læselige af mennesker, men en maskine kan forstå deres betydning ved hjælp af en af de naturlige sprogbehandlingsteknikker . Metoderne udfører frekvensanalyse og/eller leksikalsk analyse af teksten.

W3C foreslår at bruge RDF - sproget som et maskinlæsbart format . RDF-sproget giver dig mulighed for at beskrive strukturen af det semantiske netværk i form af en graf . Hver knude og hver bue i grafen kan tildeles en separat URI. Udsagn skrevet i RDF kan fortolkes ved hjælp af ontologier. For at skabe ontologier anbefales det at bruge RDF-skemaet (engelsk) og OWL -sprogene . Ontologier er skabt for at drage logiske konklusioner ud fra data . Ontologier er baseret på matematiske formalismer kaldet beskrivelseslogikker .

Arkitektur

Den tekniske del af Semantic Web er en familie af standarder for beskrivelsessprog, herunder XML , XML Schema , RDF , RDF Schema , OWL og nogle andre. Ved at arrangere dem i rækkefølge for at øge abstraktionsniveauet implementeret af et bestemt sprog, får vi:

XML giver en syntaks til at definere strukturen af et dokument, der skal behandles. XML-syntaksen bærer ikke en semantisk belastning.
XML Schema definerer begrænsninger for strukturen af et XML-dokument. Standardparseren af XML-sproget er i stand til at kontrollere et vilkårligt XML-dokument for overensstemmelse af dets struktur med det såkaldte dokumentskema beskrevet i XML Schema.
RDF er en enkel måde at beskrive instansdata i et emne-relation-objekt- format , der kun bruger ressource-id'er som ethvert medlem af tripletten (med undtagelse af et objekt, som må være et bogstaveligt tal). Der er en standardiseret kortlægning af disse tripler til XML-dokumenter med en foruddefineret struktur (det vil sige, at W3-konsortiet definerer et skema for XML-dokumenter, der indeholder RDF-beskrivelser), såvel som til andre præsentationsformater (for eksempel til N3- notationen ).
RDF Schema beskriver et sæt attributter (mere præcist kaldet relationer her ), såsomrdfs:Class, for at definere nye typer af RDF-data. Sproget understøtter også typearvrdfs:subClassOf.
OWL udvider mulighederne for at beskrive nye typer (især ved at tilføje opregninger ), og giver dig også mulighed for at beskrive nye RDF Schema datatyper i form af eksisterende (for eksempel for at definere en type, der er skæringspunktet eller foreningen af to eksisterende dem).
Mikrodata (HTML-mikrodata) er en international standard for semantisk opmærkning af HTML-sider, der bruger attributter, der beskriver betydningen af informationen indeholdt i visse HTML-elementer. Sådanne attributter gør indholdet af siderne maskinlæsbart, det vil sige, de giver dig mulighed for automatisk at finde og udtrække de nødvendige data.

Inferens

Formaterne til beskrivelse af metadata i Semantic Web involverer at drage en logisk konklusion på disse metadata, og er udviklet med henblik på de eksisterende matematiske formalismer på dette område. Formalismen bag formatet gør det muligt at drage konklusioner om egenskaberne ved programmer, der behandler data i dette format.

Dette gælder især for OWL -sproget . Den grundlæggende formalisme for det er beskrivelseslogikker , og selve sproget er opdelt i tre indlejrede delmængder (i rækkefølge efter indlejring): OWL Lite, OWL DL og OWL Full [6] . Det er blevet bevist [7] at inferens på metadata med OWL Lite ekspressivitet udføres i polynomisk tid (med andre ord hører inferensproblemet til klasse P ). OWL DL beskriver den største opløselige delmængde af beskrivelseslogikker, men nogle forespørgsler om sådanne data kan kræve eksponentiel eksekveringstid . OWL Full implementerer alle eksisterende beskrivelseslogik-konstruktører ved at fjerne den obligatoriske opløselighed af forespørgsler.

Den simple prædikatstruktur i RDF -sproget giver dig til gengæld mulighed for at bruge erfaring fra logiske databaseteorier , prædikatlogik osv. i dets behandling.

Kritik

Implementeringsproblemer

I 2006 udgav tidsskriftet IEEE Intelligent Systems en ny artikel af Tim Berners-Lee, "Semantic Web Revisited" (Semantic Web: Revisited) [8] , hvori forfatteren kalder den beskrevne tilgang til organisering af information på nettet for "en simpel idé, indtil nu stort set uudnyttet indtil nu,” på trods af alle de fordele, som det semantiske web ville give, hvis det blev implementeret.

Til dato er der ingen offentligt tilgængelige midler til at se og direkte bruge oplysningerne fra websteder på Semantic Web. Sjældne prøver er spredt, og klientprogrammer går ikke ud over niveauet for lokale forskningsprojekter af individuelle entusiaster.

Kommentatorer peger på forskellige årsager, der hindrer den aktive udvikling af det semantiske web, lige fra den menneskelige faktor [9] (folk har en tendens til at undgå arbejdet med at vedligeholde dokumenter med metadata, metadata sandhedsproblemer forbliver åbne osv.), og slutter med Aristoteles 's indirekte reference til fraværet af en åbenlys måde at opdele verden i skelnelige begreber. Dette sår tvivl om muligheden for en ontologi på topniveau , der er kritisk for det semantiske web. Aristoteles i Topeka bruger begrebet differentia specifica , eller tilstedeværelsen af en karakteristisk kvalitet i begreber , som grundlag for at gruppere begreber i klasser. Filosoffen er sikker på eksistensen af et uendeligt antal begreber, hvilket indebærer en uendelighed af antallet af klasser, som de kan kombineres i. For at udskille så mange klasser er der brug for et uendeligt antal skelnelige kvaliteter, hvis eksistens Aristoteles sætter spørgsmålstegn ved.

Kopiering af oplysninger

Behovet for at beskrive metadata fører på en eller anden måde til duplikering af information. Hvert dokument skal oprettes i to kopier: markeret til menneskelig læsning og også i et maskinorienteret format. Denne mangel ved det semantiske web var den vigtigste drivkraft for skabelsen af såkaldte mikroformater [10] og RDF -sproget [11] . Sidstnævnte er en variant af RDF -sproget og adskiller sig fra det ved, at det ikke definerer sin egen syntaks, men er beregnet til at blive indlejret i XHTML - sidernes XML-attributter. Derudover vises semantiske tags i selve HTML-standarderne .

Konsekvenser af implementering

Nem maskinbehandling gør det muligt for en mellemmand, såsom en søgemaskine, at vælge, hvilken information der skal præsenteres for brugeren [12] .
- Dette gør det muligt kun at give den nødvendige del af oplysningerne. Som følge heraf kan brugeren modtage information uden at besøge kildesiden, og formidleren kan vise information uden at give et link til kilden (eller give den, forudsat at formidleren kender til overgangen). Således falder kildewebstedets trafik, og mellemleddets trafik øges; og effekten af internetannoncering , som er den vigtigste finansiering for mange websteder, afhænger af trafikken . [13] Citater af dele af nyhederne fra webaggregatorer har været genstand for retssager med varierende udfald. [14] For websteder, der udgiver indhold for at tiltrække læsere til annoncer i nærheden, synes det ikke at være fordelagtigt at levere indhold i maskinlæsbar form, men for websteder, hvis indhold i sig selv er information om det annoncerede objekt - for eksempel for websteder tilhørende producenter af varer og tjenesteydelser - at give information om de annoncerede objekter i en maskinlæsbar form er fordelagtig, da det kan lette distributionen og brugen.
- Dette letter automatisk censur.
Søgemaskiners præference for taggede sider gør utaggede sider til en del af (relativt) Deep Web .
At finde personlige data og deres forbindelser med andre oplysninger (forfattere, lokationer, sociale links) er lettet .

Projekter

Dublin Core

Et af de første seriøse og populære projekter baseret på principperne fra det semantiske web var Dublin Core - projektet , implementeret af Dublin Core Metadata Initiative (DCMI) . Det er et åbent projekt, der har til formål at udvikle metadatastandarder, der er platformsuafhængige og velegnede til en lang række applikationer. Mere specifikt udvikler DCMI metadataordbøger til generelle formål, der standardiserer RDF-ressourcebeskrivelser. [femten]

RSS (version 0.90 og 1.0)

Versioner 0.90 og 1.0 af RSS -formatet er baseret på RDF. Oplysninger i den er repræsenteret, som i RDF, ved subjekt-relation-objekt tripler . Det skal bemærkes, at selvom det lider under mange af manglerne ved det semantiske web (såsom kopiering af information), blev dette simple format hurtigt ekstremt populært på grund af den snævre kategorisering af den anvendte undergruppe af metadata. Forskellen mellem RSS og RDF er, at emnet for triplen altid er RSS-filens kildested, og de mest åbenlyse egenskaber ved dokumenter relateret til hyppigt opdaterede informationskilder bruges som relationer: skrivedato, forfatter, permalink, osv. Med andre ord er RSS en højt specialiseret undergruppe af RDF. [16]

Bemærk, at RSS-version 2.0-formatet, selvom det ikke er et RDF-baseret format, tillader indsprøjtning af vilkårligt XML-indhold i native XML - navnerum . Dette gør det muligt også at bruge RDF-beskrivelser i den (ved at bruge navneområdet rdf). [17]

FOAF

Projektet " Ven af en ven " giver dig mulighed for at beskrive bekendtskabsforholdet ved hjælp af RDF. Ethvert medlem kan entydigt identificere sig selv med en URI (f.eks. mailto -e-mailadresse , blogadresse osv.), oprette deres profil ved hjælp af de foruddefinerede RDF-relationer for FOAF og angive ID'erne på de personer, som denne deltager kender. Denne beskrivelse kan behandles automatisk; baseret på det kan du opbygge tillidsnetværk, analysere strukturen af sociale grupper osv. [18]

dbpedia

DBpedia er et projekt, der har til formål at udtrække struktureret information fra data skabt af Wikipedia-projektet. DBpedia giver brugerne mulighed for at forespørge efter oplysninger baseret på relationerne og egenskaberne for Wikipedia-ressourcer, herunder links til relaterede databaser. Startet af en gruppe frivillige fra det frie universitet i Berlin og universitetet i Leipzig , i samarbejde med OpenLink Software , og blev først udgivet i 2007. DBpedia-projektet bruger RDF ( Resource Description Framework ) til at repræsentere udvundet information. Fra april 2010 består DBpedias databaser af over 1 milliard elementer af information, hvoraf 257 millioner blev hentet fra den engelske version af Wikipedia og 766 millioner blev udtrukket fra versioner på andre sprog [19] .

Se også

Noter

↑ Tim Berners-Lee. Semantisk web-køreplan (09.1998). Hentet 28. juni 2014. Arkiveret fra originalen 6. december 2003. (ubestemt)
↑ Kæmpe global graf. Arkiveret 13. juli 2016 på Wayback Machine , russisk oversættelse: Tim Burners-Lee. Giant Global Graph Arkiveret 20. november 2012 på Wayback Machine
↑ Semantisk websektion om W3C Arkiveret 20. september 2010 på Wayback Machine
↑ Resource Description Framework (RDF) : begreber og abstrakt syntaks . World Wide Web Consortium (10. februar 2004). — W3C-anbefaling. Hentet 12. september 2010. Arkiveret fra originalen 24. august 2011.
↑ Seje URI'er til det semantiske web . World Wide Web Consortium (3. december 2008). — W3C-interessegruppenotat. Hentet 12. september 2010. Arkiveret fra originalen 24. august 2011.
↑ The Species of OWL in OWL Language Guide . Hentet 15. maj 2010. Arkiveret fra originalen 18. januar 2006. (ubestemt)
↑ OWL Full, OWL DL og OWL Lite i OWL Language Reference . Hentet 2. juni 2007. Arkiveret fra originalen 18. januar 2006. (ubestemt)
↑ Semantic Web Revisited Arkiveret 20. marts 2013 på Wayback Machine , IEEE Intelligent Systems, juni 2006
↑ [https://web.archive.org/web/20070508200721/http://www.well.com/~doctorow/metacrap.htm Arkiveret 8. maj 2007 på Wayback Machine Cory Doctorow, Metacrap: Putting the torch to meta-utopiens syv stråmænd, august 2001 ]
↑ (downlink) Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web, januar 2006
↑ RDFa Primer . Hentet 15. maj 2010. Arkiveret fra originalen 25. maj 2010. (ubestemt)
↑ Bessmertny I. A. / Context Management in Information Systems Arkiveret 18. februar 2015 på Wayback Machine . - Artikel. - Informationsteknologi, instrumentering - Oktober 2012 - UDC 004.89
↑ Viktor Shepelev. Akilleshæl på det semantiske web (link utilgængeligt) . Computerra (15. juli 2008). Hentet 5. februar 2010. Arkiveret fra originalen 26. november 2009. (ubestemt)
↑ Se en:Medieovervågningstjeneste#Law cases , en:Google News#Copyright variations .
↑ Dublin Core Metadata Initiative (DCMI) . Hentet 2. juli 2005. Arkiveret fra originalen 3. august 2019. (ubestemt)
↑ RSS 1.0-specifikation (downlink) . Hentet 15. maj 2010. Arkiveret fra originalen 12. januar 2013. (ubestemt)
↑ RSS 2.0-specifikation . Hentet 15. maj 2010. Arkiveret fra originalen 18. februar 2011. (ubestemt)
↑ En vens ven . Hentet 15. maj 2010. Arkiveret fra originalen 10. juni 2006. (ubestemt)
↑ DBpedia Mappings . Hentet 24. januar 2011. Arkiveret fra originalen 24. oktober 2020. (ubestemt)

Litteratur

Dieter Fensel, Wolfgang Wahlster, Henry Lieberman, James Hendler. Spinning af det semantiske web: At bringe World Wide Web til sit fulde potentiale. - The MIT Press, 2002. - ISBN 0262062321 .
Mod det semantiske web: Ontologi-drevet vidensledelse. - John Wiley & Sons, 2003. - ISBN 0470848677 .
Toby Segaran, Colin Evans, Jamie Taylor. Programmering af det semantiske web. - 2009. - ISBN 0596153813 .
Luciano Floridi. Web 2.0 vs. the Semantic Web: A Philosophical Assessment // Episteme. - 2009. - V. 6 , nr. 1 . - S. 25-37 . - doi : 10.3366/E174236000800052X .

Links

Officiel portal (engelsk)
- Bøger (engelsk) - bøger dedikeret specifikt til det semantiske web og linkede data
Fællesskabsportal _
Russisk side om det semantiske web (teknologier, projekter, værktøjer)
OWL Language Specifikationer: OWL Language Reference og OWL Language Guide
Dublin Core Metadata Initiative (DCMI )
Mikroformater _
Rohit Khare, Tantek Çelik, Microformats: A Pragmatic Path to the Semantic Web (link ikke tilgængeligt )
En introduktionsvejledning til RDFa -markering for HTML- og xHTML - layoutdesignere
Foredrag i PDF " Semantic Web " af Yuri Lifshitz' kursus " Algorithms for the Internet "

Web og hjemmesider
globalt	World Wide Web Web 1.0 Web 2.0 Web 3.0 semantisk web Neuronet
Lokalt	Internet side Portal Side Service Ring
Typer af websteder og tjenester	Virtuelt atlas banner netværk Bibliotek Blog ( platform ) Video hosting Wiki Visitkortside Spørgsmål svar Bogmærker datingtjenester browser spil Ressourcekatalog Online butik mikroblog nyhedsside Søgesystem porno side Webmail Socialt netværk Tumblelog BitTorrent tracker Fil hosting Forum Service Billedtavle Foto hosting Snak
Oprettelse og vedligeholdelse	Mestre Udvikling Design Layout Programmering Anvendelighed Interaktionsoplevelse Website promovering Søgemaskineoptimering (SEO) Hosting Systemadministrator moderator Konto Bemyndigelse
Typer af layout, sider, websteder	Statisk Dynamisk Fast Gummi dynamisk elastisk Fleksibel
Teknisk	Webserver Browser DNS CMF CMS HTTP ( svar overskrifter ) SPDY QUIC CGI HTML XHTML css PHP JavaScript DHTML cookie DOM XML AJAX JSON Blitz RSS atom meddeler Mikroformat favicon.ico _ robots.txt Sitemaps webstedets kort .htaccess
Markedsføring	Internet markedsføring Internet annoncering Banner kontekstuel annoncering Teaser Cybersquatting
Samfund og kultur	Blogosfæren Internetfællesskab ( distrikt ) Netværkslitteratur

semantisk web
Grundlæggende	World Wide Web Internet Hypertekst Database Semantiske netværk Ontologier Beskrivelseslogik
Underafsnit	Tilknyttede data data web Hyperdata Server for udførelse af forretningsregler Datarum
Ansøgninger	Semantisk Wiki Semantisk udgivelse Semantisk søgning Semantisk computing semantisk reklame Semantisk ræsonnement mekanisme semantisk matchning semantisk kortlægger semantisk mægler semantisk analyse semantisk serviceorienteret arkitektur
relaterede emner	Folksonomi Bibliotek 2.0 Web 2.0 Links Informationsarkitektur Videnshåndtering kollektiv intelligens Tematiske kort Mindmapping metadata Geotagging webvidenskab
Standarder	Syntaks : RDF RDF/XML Notation 3 Skildpadde N-tripler JSON-LD SPARQL URI HTTP XML Skemaer, ontologier : RDFS UGLE Regeludvekslingsformat Semantisk webregelsprog fælles logik Schema.org Semantisk anmærkning : RDFa eRDF GRDDL Mikroformater Mikrodata Ordbøger : DOAP FOAF SIOC Dublins kerne SKOS UMBEL Historie : Almindelig gammel semantisk HTML DAML+OLIE