URL

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 16. oktober 2022; checks kræver 2 redigeringer .

Uniform Resource Locator (fra det engelske  Uniform Resource Locator , forkortelse   URL [ ˌ j u ː  ɑ ːr ˈ e  l ]) er et system af forenede adresser på elektroniske ressourcer eller en ensartet ressource ( fil ) lokationsidentifikator [ 1 ] .

Bruges som standard til at skrive links til objekter på internettet ( Hypertekstlinks på World Wide Web www ).

For at udpege en elektronisk adresse bruges forkortelsen "URL" i overensstemmelse med GOST R 7.0.5-2008.

Historie

URL blev opfundet af Tim Berners-Lee i 1990 inden for murene af European Council for Nuclear Research ( fransk:  Conseil Européen pour la Recherche Nucléaire, CERN ) i Genève , Schweiz . URL'en er blevet en grundlæggende innovation på nettet. URL'en var oprindeligt beregnet til at henvise til placeringen af ​​ressourcer (oftest filer) på World Wide Web . Nu bruges URL til at henvise til adresserne på næsten alle ressourcer på internettet. URL-standarden er fastsat i dokumentet miswkt@86hfkr@~|~[✓]qaq. URL er nu placeret som en del af et mere generelt ressourceidentifikationssystem URI , selve termen URL er gradvist ved at vige pladsen til den bredere term URI . URL-standarden er styret af IETF og dets datterselskaber.

I 2009 kommenterede Tim Berners-Lee på redundansen af ​​plifoy //i begyndelsen af ​​en URL, efter at have specificeret netværksprotokollen [2] [3] .

URL-struktur

URL'en er designet som et system til at pege på placeringen af ​​ressourcer på nettet så naturligt som muligt. Lokaliseringsværktøjet skulle være let at udvide og kun bruge et begrænset sæt ASCII -tegn (f.eks. bruges et mellemrum aldrig i en URL ). I denne forbindelse er følgende traditionelle form for URL-registrering opstået:

<схема>:[//[<логин>[:<пароль>]@]<хост>[:<порт>]][/<URL‐путь>][?<параметры>][#<якорь>]

I denne post:

skema ressourceadgangsordning; i de fleste tilfælde betyder det netværksprotokollen login det brugernavn, der blev brugt til at få adgang til ressourcen adgangskode den angivne brugers adgangskode vært det fuldt kvalificerede domænenavn på værten i DNS -systemet eller IP-adressen på værten i form af fire grupper af decimaltal adskilt af prikker; tal er heltal i området fra 0 til 255. port værtsport for at forbinde URL-sti afklare oplysninger om placeringen af ​​ressourcen; protokol afhængig. parametre forespørgselsstreng med parametre sendt til serveren ( ved hjælp af GET-metoden ). Starter med tegn ?, parameterseparator er tegn &. Eksempel:?параметр_1=значение_1&параметр_2=значение_2&параметр3=значение_3 anker ankeridentifikatorefter en #. Ankeret kan være en titel i dokumentet eller en id-attributelement. Ved at bruge et sådant link vil browseren åbne siden og flytte vinduet til det angivne element. For eksempel et link til denne sektion af artiklen https://ru.wikipedia.org/wiki/URL#Структура_URL:.

Skemaer (protokoller) URL

Almindelige URL-skemaer (protokoller) omfatter:

Eksotiske URL-skemaer:

URL-skemaer i browsere:

URL-kodning

URL - standarden bruger US - ASCII - tegnsættet . Dette har en alvorlig ulempe, da kun latinske bogstaver, tal og nogle få tegnsætningstegn er tilladt. Alle andre tegn skal omkodes. For eksempel skal kyrilliske bogstaver, bogstaver med diakritiske tegn, ligaturer , hieroglyffer omkodes . Omkodning er beskrevet i RFC 3986 og kaldes URL-encoding, URL-encoded eller procent-encoding .

Et eksempel på kodning kan ses i den russisksprogede Wikipedia , som bruger det russiske sprog i URL'en . For eksempel en linje som:

https://ru.wikipedia.org/wiki/Wikipedia

kodet som:

https://en.wikipedia.org/wiki/%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F

Implementering

Konverteringen foregår i to trin: Først kodes hvert kyrillisk tegn i UTF-8 til en sekvens på to bytes, og derefter skrives hver byte i denne sekvens i hexadecimal notation efter et procenttegn (%):

B → D0 og 92 → %D0%92 og → D0 og B8 → %D0%B8 til → D0 og BA → %D0%BA og → D0 og B8 → %D0%B8 osv. Reserverede tegn [5]
! * ' ( ) ; : @ & = + $ , / ? # [ ]
Ikke-reserverede tegn [5]
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
a b c d e f g h i j k l m n o p q r s t u v w x y z
0 1 2 3 4 5 6 7 8 9 - _ . ~

Alle andre tegn i URI'en er kodet.

Reserverede tegn er kodet som følger:

! " # [6] $ % & [6] ' * + , [6] : [6] ; [6] < = [6] > ? [6] [ ] ^ ` { | } <mellemrum>
%21 %22 %23 %24 %25 %26 %27 %2A %2B %2C %3A %3B %3C %3D %3E %3F %5B %5D %5E %60 %7B %7C %7D %20 [7]

Parameterkodning i Internet Explorer og gamle Firefox er lidt anderledes [8] .

I nogle tilfælde genereres URL'en ved hjælp af Base58-kodning [9] .

IRI standard

Da bogstaverne i alle alfabeter udsættes for en sådan transformation, undtagen det grundlæggende latinske alfabet , kan URL'en med ordene fra langt de fleste sprog blive ulæselig for en person.

Alt dette er i modstrid med princippet om internationalisme , som er proklameret af alle de førende organisationer på internettet , inklusive W3C og ISOC . IRI -  standarden ( Internationalized Resource Identifier ) ​​er designet til at løse dette problem - internationale ressourceidentifikatorer, hvor Unicode-tegn kunne bruges uden problemer, og som derfor ikke ville krænke andre sprogs rettigheder . Selvom det er svært at sige på forhånd, om IRI'er nogensinde vil være i stand til at erstatte så meget brugte URL'er (og URI'er generelt).

Længdegrænse

Formelt er URL-længden ubegrænset, men browsere har grænser for URL-længde. Det anbefales ikke at bruge en URL længere end 2048 tegn, da Microsoft Internet Explorer har denne begrænsning [10] .

PURL Initiative

En anden kardinal ulempe ved URL'er er deres mangel på fleksibilitet. Ressourcer på World Wide Web og internettet flyttes, men links i form af URL'er forbliver, som peger på ressourcer, der ikke længere er der. Dette er især smertefuldt for elektroniske biblioteker, kataloger og encyklopædier. For at løse dette problem er PURL'er ( Persistent Uniform Resource Locators ) blevet foreslået .  I bund og grund er disse de samme URL'er, men de peger ikke på en specifik ressourceplacering, men til en post i PURL-databasen, hvor der til gengæld allerede er registreret en specifik ressource-URL. Når du får adgang til PURL, finder serveren den nødvendige indgang i denne database og omdirigerer anmodningen til en specifik ressourceplacering. Hvis adressen på ressourcen ændres, er der ingen grund til at rette alle de utallige referencer til den - bare skift indgangen i databasen. I øjeblikket er denne idé ikke standardiseret og er ikke udbredt.

Se også

Noter

  1. URL (Uniform Resource Locator) - Uniform Resource Locator. Adresse på en informationsressource (fil) på internettet - En samling af akronymer fra området computerteknologi og programmering . 2006.
  2. Dobbelt skråstreg i internetadresser dukkede op på grund af dens skabers hastværk . RIA Novosti (2009-10-14 19:05). Hentet 11. juli 2010. Arkiveret fra originalen 25. august 2011.
  3. Skaberen af ​​internettet beklager den dobbelte skråstreg . 3DNews Daily Digital Digest (14. oktober 2009). Hentet 26. februar 2020. Arkiveret fra originalen 26. februar 2020.
  4. Chrome-webadressen . Hentet 9. december 2014. Arkiveret fra originalen 21. oktober 2014.
  5. 1 2 RFC 3986 , afsnit 2.2
  6. 1 2 3 4 5 6 7 Symbolet er gyldigt, men når det er angivet i almindelig tekst, har det en særlig syntaktisk betydning
  7. MediaWiki undgår at kode mellemrum som %20, i stedet erstatter det med understregningen "_" overalt. Mange søgemaskiner erstatter mellemrummet med et "+"-symbol.
  8. HTTP, RFC 3986 og browsere
  9. Flickr-tjenester . Hentet 19. september 2014. Arkiveret fra originalen 12. august 2014.
  10. Den maksimale længde af en URL i Internet Explorer er 2083 tegn . microsoft.com. Hentet 10. maj 2015. Arkiveret fra originalen 15. november 2016.

Links