Informationssøgning

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 25. marts 2019; checks kræver 12 redigeringer .

Informationssøgning er processen  med at søge efter ustruktureret dokumentarisk information , der tilfredsstiller informationsbehov [1] , og videnskaben bag denne søgning .

Historie

Udtrykket "informationssøgning" blev først introduceret af Calvin Muers i 1948 i hans doktorafhandling, offentliggjort og brugt i litteraturen siden 1950 .

I begyndelsen blev automatiserede IP-systemer eller informationssøgningssystemer (IPS) kun brugt til at søge efter videnskabelig information og litteratur. Mange universiteter og offentlige biblioteker er begyndt at bruge IRS til at give adgang til bøger, tidsskrifter og andre dokumenter. IPS blev udbredt med fremkomsten af ​​internettet og udviklingen af ​​World Wide Web . Blandt russisktalende brugere er de mest populære [2] søgemaskiner Yandex , Google .

Informationssøgning som en proces

Informationssøgning er processen med at identificere i et bestemt sæt dokumenter ( tekster ) alle dem, der er helliget et bestemt emne (emne), opfylder en forudbestemt søgebetingelse ( anmodning ) eller indeholder de nødvendige (svarende til informationsbehov) fakta , information , data .

Søgningsprocessen omfatter en sekvens af operationer, der sigter mod at indsamle, behandle og give information.

Generelt består søgningen efter information af fire faser:

Søgetyper

Fuldtekstsøgning  - søg gennem hele dokumentets indhold. Et eksempel på en fuldtekstsøgning er enhver internetsøgemaskine, for eksempel www.yandex.ru , www.google.com . Typisk bruger fuldtekstsøgninger forudbyggede indekser til at fremskynde søgninger . Den mest almindelige teknologi til fuldtekstsøgningsindekser er omvendte indekser .

Søgning på metadata  er en søgning på bestemte dokumentattributter, der understøttes af systemet - dokumenttitel, oprettelsesdato, størrelse, forfatter osv. Et eksempel på en søgning på attributter er en søgedialog i filsystemet (f.eks. MS Windows ).

Billedsøgning  - Søg efter billedindhold. Søgemaskinen genkender indholdet af billedet (uploadet af brugeren eller tilføjet af billedets URL). I søgeresultaterne får brugeren lignende billeder. Sådan fungerer søgemaskiner: Polar Rose , Picollator osv.

Søgemetoder

Adressesøgning

Processen med at søge efter dokumenter på rent formelle grunde angivet i anmodningen.
Følgende betingelser er nødvendige for implementering:

  1. Har dokumentet en nøjagtig adresse?
  2. Sikring af et strengt arrangement af dokumenter i en lagerenhed eller i systemlageret.

Adresserne på dokumenter kan være adresserne på webservere og websider og elementer i en bibliografisk post og adresserne på lagring af dokumenter i depotet.

Semantisk søgning

Processen med at søge efter dokumenter efter deres indhold .

Vilkår:

Den grundlæggende forskel mellem adresse- og semantiske søgninger er, at ved adressesøgning betragtes dokumentet som et objekt med hensyn til form, mens det i semantisk søgning med hensyn til indhold.

Semantisk søgning finder en masse dokumenter uden at angive adresser.

Dette er den grundlæggende forskel mellem kataloger og arkivskabe .

Bibliotek - en samling af bibliografiske optegnelser uden adresser.

Dokumentarsøgning

Processen med at søge på lageret af et informationssøgningssystem for primære dokumenter eller en database med sekundære dokumenter, der matcher brugerens anmodning.

Tre typer dokumentarsøgning:

  1. Bibliotek, rettet mod at finde primære dokumenter.
  2. Bibliografisk, rettet mod at finde information om dokumenter præsenteret i form af bibliografiske optegnelser.
  3. Arkivsøgning [3]

Faktasøgning

Processen med at finde fakta, der matcher en informationsanmodning.
Faktuelle data omfatter oplysninger, der er udtrukket fra dokumenter, både primære og sekundære, og indhentet direkte fra kilderne til deres forekomst.

Der er to typer:

  1. Dokumentarisk-faktuel, består i at søge efter fragmenter af tekst, der indeholder fakta i dokumenter.
  2. Factual (beskrivelse af fakta), som involverer oprettelse af nye faktuelle beskrivelser i søgeprocessen ved logisk bearbejdning af de fundne faktuelle oplysninger.

Informationssøgning som videnskab

Informationssøgning er et stort tværfagligt videnskabsområde, der står i skæringspunktet mellem kognitiv psykologi , datalogi , informationsdesign , lingvistik , semiotik og biblioteksvidenskab .

Informationssøgning er processen med at identificere poster i informationsarrayet, der opfylder en forudbestemt søgebetingelse eller -forespørgsel.

IP overvejer at søge efter information i dokumenter , selv søge efter dokumenter, udtrække metadata fra dokumenter, søge efter tekst, billeder, video og lyd i lokale relationsdatabaser, i hypertekstdatabaser såsom internettet og lokale intranetsystemer .

Der er en vis forvirring omkring begreberne datahentning, dokumentsøgning, informationssøgning og tekstsøgning. Hvert af disse forskningsområder har dog sine egne metoder, praksis og litteratur.

I øjeblikket er IP et videnskabsområde i hastig udvikling, hvis popularitet skyldes den eksponentielle vækst i informationsmængder, især på internettet . Der er en stor litteratur og mange konferencer om IP. En af de mest kendte er TREC , organiseret i 1992 af det amerikanske forsvarsministerium i samarbejde med Institute of Standards and Technology ( NIST ) med det formål at konsolidere forskningssamfundet og udvikle metoder til vurdering af kvaliteten af ​​IP.

Anmodnings- og forespørgselsobjekt

Når man taler om IP-systemer, bruger de udtrykkene request og request object .

En anmodning  er en formaliseret måde at udtrykke en systembrugers informationsbehov. Søgeforespørgselssprog bruges til at udtrykke informationsbehov , syntaksen varierer fra system til system. Ud over et særligt forespørgselssprog giver moderne søgemaskiner dig mulighed for at indtaste en forespørgsel på naturligt sprog .

Anmodningsobjektet  er en informationsenhed, der er lagret i databasen i et automatiseret søgesystem. Selvom det mest almindelige anmodningsobjekt er et tekstdokument , er der ingen grundlæggende begrænsninger. Det er især muligt at søge efter billeder, musik og anden multimedieinformation . Processen med at indtaste søgeobjekter i IPS kaldes indeksering . Langt fra altid gemmer IPS en nøjagtig kopi af objektet, ofte opbevares der i stedet et surrogat .

Informationssøgningsopgaver

IP'ens centrale opgave er at hjælpe brugeren med at tilfredsstille sit informationsbehov. Da det er teknisk svært at beskrive brugerens informationsbehov, er de formuleret som en forespørgsel, som er et sæt nøgleord, der kendetegner det, brugeren leder efter.

Det klassiske brugergrænsefladeproblem, der startede udviklingen af ​​dette felt, er søgningen efter dokumenter, der opfylder en forespørgsel inden for en bestemt statisk samling af dokumenter. Men listen over IP-opgaver udvides konstant og inkluderer nu:

Nogle opgaver er også sat før IP-motorer til behandling af naturlige sprog , hvilket inkluderer morfologisk analyse , opløsning af leksikalsk polysemi og så videre.

Effektivitetsvurderinger

Der er mange måder at evaluere, hvor godt de dokumenter, der findes af IPS, matcher en forespørgsel. Desværre er begrebet graden af ​​matchning af en forespørgsel, eller med andre ord relevans , et subjektivt koncept, og graden af ​​matchning afhænger af den specifikke person, der vurderer resultaterne af forespørgslen.

Præcision

Det er defineret som forholdet mellem antallet af relevante dokumenter fundet af IPS og det samlede antal fundne dokumenter:

,

hvor  er sættet af relevante dokumenter i databasen, og  er sæt dokumenter fundet af systemet.

Fuldstændighed (tilbagekaldelse)

Forholdet mellem antallet af relevante dokumenter fundet og det samlede antal relevante dokumenter i databasen:

,

hvor  er sættet af relevante dokumenter i databasen, og  er sæt dokumenter fundet af systemet.

Fall-out

Frafaldet karakteriserer sandsynligheden for at finde en irrelevant ressource og defineres som forholdet mellem antallet af fundne irrelevante dokumenter og det samlede antal irrelevante dokumenter i databasen:

,

hvor  er sættet af irrelevante dokumenter i databasen, og  er sæt dokumenter fundet af systemet.

F-mål (F-mål, Van Riesbergen-mål)

Nogle gange er det nyttigt at kombinere præcision og genkald i et enkelt gennemsnit. Til dette formål er det aritmetiske gennemsnit ikke egnet, da det f.eks. er nok for en søgemaskine at returnere alle dokumenter generelt for at sikre en genkaldelse lig med én med en nøjagtighed tæt på nul, og det aritmetiske middelværdi af præcision og tilbagekaldelse vil være mindst 1/2. Den harmoniske middelværdi har ikke denne ulempe, da den med en stor forskel i de gennemsnitlige værdier nærmer sig minimum af dem.

Derfor er et godt mål til fælles vurdering af præcision og genkaldelse F-målet , som er defineret som det vægtede harmoniske middelværdi af præcision P og genkald R :

F -målet skrives normalt som

For begge giver F - målet samme vægt til nøjagtighed og genkaldelse og kaldes et balanceret eller -mål (det er sædvanligt at angive værdien i sænket skrift ), udtrykket for det er forenklet

Brugen af ​​et afbalanceret F -mål er ikke obligatorisk: nøjagtighed foretrækkes med større vægt, og fuldstændighed vægtes mere.

Se også

Noter

  1. Manning et al, 2011 , s. 23.
  2. Overgange - ANALYZETHIS.RU . Dato for adgang: 12. oktober 2013. Arkiveret fra originalen 14. oktober 2013.
  3. Søg efter dokumenter efter detaljer | Forbundsarkivagentur . archives.ru. Hentet 1. december 2019. Arkiveret fra originalen 2. december 2019.

Litteratur

Links