Informationssøgning er processen med at søge efter ustruktureret dokumentarisk information , der tilfredsstiller informationsbehov [1] , og videnskaben bag denne søgning .
Udtrykket "informationssøgning" blev først introduceret af Calvin Muers i 1948 i hans doktorafhandling, offentliggjort og brugt i litteraturen siden 1950 .
I begyndelsen blev automatiserede IP-systemer eller informationssøgningssystemer (IPS) kun brugt til at søge efter videnskabelig information og litteratur. Mange universiteter og offentlige biblioteker er begyndt at bruge IRS til at give adgang til bøger, tidsskrifter og andre dokumenter. IPS blev udbredt med fremkomsten af internettet og udviklingen af World Wide Web . Blandt russisktalende brugere er de mest populære [2] søgemaskiner Yandex , Google .
Informationssøgning er processen med at identificere i et bestemt sæt dokumenter ( tekster ) alle dem, der er helliget et bestemt emne (emne), opfylder en forudbestemt søgebetingelse ( anmodning ) eller indeholder de nødvendige (svarende til informationsbehov) fakta , information , data .
Søgningsprocessen omfatter en sekvens af operationer, der sigter mod at indsamle, behandle og give information.
Generelt består søgningen efter information af fire faser:
Fuldtekstsøgning - søg gennem hele dokumentets indhold. Et eksempel på en fuldtekstsøgning er enhver internetsøgemaskine, for eksempel www.yandex.ru , www.google.com . Typisk bruger fuldtekstsøgninger forudbyggede indekser til at fremskynde søgninger . Den mest almindelige teknologi til fuldtekstsøgningsindekser er omvendte indekser .
Søgning på metadata er en søgning på bestemte dokumentattributter, der understøttes af systemet - dokumenttitel, oprettelsesdato, størrelse, forfatter osv. Et eksempel på en søgning på attributter er en søgedialog i filsystemet (f.eks. MS Windows ).
Billedsøgning - Søg efter billedindhold. Søgemaskinen genkender indholdet af billedet (uploadet af brugeren eller tilføjet af billedets URL). I søgeresultaterne får brugeren lignende billeder. Sådan fungerer søgemaskiner: Polar Rose , Picollator osv.
Processen med at søge efter dokumenter på rent formelle grunde angivet i anmodningen.
Følgende betingelser er nødvendige for implementering:
Adresserne på dokumenter kan være adresserne på webservere og websider og elementer i en bibliografisk post og adresserne på lagring af dokumenter i depotet.
Processen med at søge efter dokumenter efter deres indhold .
Vilkår:
Den grundlæggende forskel mellem adresse- og semantiske søgninger er, at ved adressesøgning betragtes dokumentet som et objekt med hensyn til form, mens det i semantisk søgning med hensyn til indhold.
Semantisk søgning finder en masse dokumenter uden at angive adresser.
Dette er den grundlæggende forskel mellem kataloger og arkivskabe .
Bibliotek - en samling af bibliografiske optegnelser uden adresser.
Processen med at søge på lageret af et informationssøgningssystem for primære dokumenter eller en database med sekundære dokumenter, der matcher brugerens anmodning.
Tre typer dokumentarsøgning:
Processen med at finde fakta, der matcher en informationsanmodning.
Faktuelle data omfatter oplysninger, der er udtrukket fra dokumenter, både primære og sekundære, og indhentet direkte fra kilderne til deres forekomst.
Der er to typer:
Informationssøgning er et stort tværfagligt videnskabsområde, der står i skæringspunktet mellem kognitiv psykologi , datalogi , informationsdesign , lingvistik , semiotik og biblioteksvidenskab .
Informationssøgning er processen med at identificere poster i informationsarrayet, der opfylder en forudbestemt søgebetingelse eller -forespørgsel.
IP overvejer at søge efter information i dokumenter , selv søge efter dokumenter, udtrække metadata fra dokumenter, søge efter tekst, billeder, video og lyd i lokale relationsdatabaser, i hypertekstdatabaser såsom internettet og lokale intranetsystemer .
Der er en vis forvirring omkring begreberne datahentning, dokumentsøgning, informationssøgning og tekstsøgning. Hvert af disse forskningsområder har dog sine egne metoder, praksis og litteratur.
I øjeblikket er IP et videnskabsområde i hastig udvikling, hvis popularitet skyldes den eksponentielle vækst i informationsmængder, især på internettet . Der er en stor litteratur og mange konferencer om IP. En af de mest kendte er TREC , organiseret i 1992 af det amerikanske forsvarsministerium i samarbejde med Institute of Standards and Technology ( NIST ) med det formål at konsolidere forskningssamfundet og udvikle metoder til vurdering af kvaliteten af IP.
Når man taler om IP-systemer, bruger de udtrykkene request og request object .
En anmodning er en formaliseret måde at udtrykke en systembrugers informationsbehov. Søgeforespørgselssprog bruges til at udtrykke informationsbehov , syntaksen varierer fra system til system. Ud over et særligt forespørgselssprog giver moderne søgemaskiner dig mulighed for at indtaste en forespørgsel på naturligt sprog .
Anmodningsobjektet er en informationsenhed, der er lagret i databasen i et automatiseret søgesystem. Selvom det mest almindelige anmodningsobjekt er et tekstdokument , er der ingen grundlæggende begrænsninger. Det er især muligt at søge efter billeder, musik og anden multimedieinformation . Processen med at indtaste søgeobjekter i IPS kaldes indeksering . Langt fra altid gemmer IPS en nøjagtig kopi af objektet, ofte opbevares der i stedet et surrogat .
IP'ens centrale opgave er at hjælpe brugeren med at tilfredsstille sit informationsbehov. Da det er teknisk svært at beskrive brugerens informationsbehov, er de formuleret som en forespørgsel, som er et sæt nøgleord, der kendetegner det, brugeren leder efter.
Det klassiske brugergrænsefladeproblem, der startede udviklingen af dette felt, er søgningen efter dokumenter, der opfylder en forespørgsel inden for en bestemt statisk samling af dokumenter. Men listen over IP-opgaver udvides konstant og inkluderer nu:
Nogle opgaver er også sat før IP-motorer til behandling af naturlige sprog , hvilket inkluderer morfologisk analyse , opløsning af leksikalsk polysemi og så videre.
Der er mange måder at evaluere, hvor godt de dokumenter, der findes af IPS, matcher en forespørgsel. Desværre er begrebet graden af matchning af en forespørgsel, eller med andre ord relevans , et subjektivt koncept, og graden af matchning afhænger af den specifikke person, der vurderer resultaterne af forespørgslen.
Det er defineret som forholdet mellem antallet af relevante dokumenter fundet af IPS og det samlede antal fundne dokumenter:
,hvor er sættet af relevante dokumenter i databasen, og er sæt dokumenter fundet af systemet.
Forholdet mellem antallet af relevante dokumenter fundet og det samlede antal relevante dokumenter i databasen:
,hvor er sættet af relevante dokumenter i databasen, og er sæt dokumenter fundet af systemet.
Frafaldet karakteriserer sandsynligheden for at finde en irrelevant ressource og defineres som forholdet mellem antallet af fundne irrelevante dokumenter og det samlede antal irrelevante dokumenter i databasen:
,hvor er sættet af irrelevante dokumenter i databasen, og er sæt dokumenter fundet af systemet.
Nogle gange er det nyttigt at kombinere præcision og genkald i et enkelt gennemsnit. Til dette formål er det aritmetiske gennemsnit ikke egnet, da det f.eks. er nok for en søgemaskine at returnere alle dokumenter generelt for at sikre en genkaldelse lig med én med en nøjagtighed tæt på nul, og det aritmetiske middelværdi af præcision og tilbagekaldelse vil være mindst 1/2. Den harmoniske middelværdi har ikke denne ulempe, da den med en stor forskel i de gennemsnitlige værdier nærmer sig minimum af dem.
Derfor er et godt mål til fælles vurdering af præcision og genkaldelse F-målet , som er defineret som det vægtede harmoniske middelværdi af præcision P og genkald R :
F -målet skrives normalt som
For begge giver F - målet samme vægt til nøjagtighed og genkaldelse og kaldes et balanceret eller -mål (det er sædvanligt at angive værdien i sænket skrift ), udtrykket for det er forenklet
Brugen af et afbalanceret F -mål er ikke obligatorisk: nøjagtighed foretrækkes med større vægt, og fuldstændighed vægtes mere.
![]() | ||||
---|---|---|---|---|
|