Indholdsbaseret billedhentning (CBIR) er en sektion af computersyn, der løser problemet med at finde billeder, der har det nødvendige indhold i et stort sæt digitale billeder.
Søgealgoritmen skal analysere indholdet af billedet, for eksempel farven på de objekter, der præsenteres på det, deres form, tekstur, scenesammensætning. Hvis det ikke er muligt at analysere scenen, tager søgningen hensyn til metadata : nøgleord, tags.
Udtrykket "Indholdsbaseret billedhentning" blev først introduceret i 1992 af T. Kato, da han beskrev eksperimenter med automatisk billedhentning baseret på kriterierne for nuværende farver og geometriske former. Siden da er det blevet brugt som en generalisering af processen med at vælge billeder fra databasen i henhold til eventuelle syntaktiske egenskaber ved objekter. De anvendte algoritmer, metoder og softwareværktøjer har deres oprindelse i områder relateret til signalbehandling , computersyn og statistik .
Der er i øjeblikket stigende interesse for billedsøgning efter indholdskriterier på grund af begrænsningerne af metoder, der udelukkende er baseret på metadatakategorisering, samt det voksende potentiale for dets anvendelighed. I øjeblikket gør kategorisering og søgealgoritmer i tekstdata det muligt at håndtere de beskrevne billeder ved hjælp af metadata ganske effektivt, men denne tilgang kræver en manuel beskrivelse af hvert billede i databasen af en person. Dette er fuldstændig upraktisk, især når det anvendes på store databaser eller automatisk genererede billeder (såsom CCTV-kameraer ). Derudover er der en langt fra nul chance for at gå glip af et af søgemålbillederne på grund af tvetydighed eller synonymi.
Potentielle applikationer til indholdssøgningsalgoritmer:
På trods af at der findes mange softwarepakker til at søge billeder i databaser, er problemet med at søge baseret på pixelindhold i de fleste situationer endnu ikke implementeret. Se listen over billedsøgemaskiner.
Forskellige implementeringer af billedindholdssøgesystemer fungerer med følgende typer brugerforespørgsler :
EksempelresultatDet antages, at systemet udfører en søgning baseret på inputbilledet angivet af brugeren. Algoritmerne, der udgør systemet, kan have forskellige måder at beskrive og arbejde med inputbilledet på, men alle resulterende billedforekomster skal have fælles elementer med det brugerspecificerede input.
Brugeren kan indtaste både et eksisterende billede og en grov skitse af det ønskede resultat (markering i farvede områder eller simple geometriske former). [en]
Med denne metode til at konstruere forespørgsler er der ingen vanskeligheder forbundet med repræsentationen af et billede ved hjælp af et sæt ord.
Opløsning af forespørgselssemantikIdeelt set bør søgesystemet være i stand til at behandle brugeranmodninger formuleret i fri form, for eksempel "find billeder af hunde" eller endda "find portrætter af Leonid Ilyich Brezhnev." Forespørgsler af denne type er meget vanskelige at behandle af en computer, fordi fotografier af en labrador og en miniaturepuddel er meget forskellige, og Leonid Ilyich ser ikke altid på kameraet i samme positur. I øjeblikket bruger mange systemer lavniveaukarakteristika såsom farve, tekstur og form af et objekt til klassificering, selvom der også er systemer baseret hovedsageligt på højniveaukriteriedifferentiering (se mønstergenkendelsesteori ). De fleste systemer er ikke bredt orienterede. For eksempel administrerer computergenererede billedhentningssystemer med succes funktioner baseret på matchende former og gradienter.
Andre måderDenne kategori omfatter forespørgselsformer såsom at definere en kategori i et foreslået hierarki, forespørgsel som en del af et billede, der forventes som et resultat, udvidelse af en forespørgsel med yderligere billeder, grafisk skitsering med komplekse former og en kombination af metoder.
Det er også muligt gradvist at forfine forespørgslen, når brugeren markerer mellemresultater som "egnede" eller "utilfredsstillende" under søgesystemet, og systemet fortsætter med at arbejde med den forfinede forespørgsel.
Her er de mest almindelige metoder til at beskrive indholdet af billeder, som bruges til efterfølgende sammenligning af dem med hinanden. Alle er potentielt bredt anvendelige, det vil sige ikke specifikke for nogen bestemt underklasse af systemer.
FarveSøgningen efter billeder ved at sammenligne farvekomponenter udføres ved at konstruere et histogram over deres fordeling. I øjeblikket er der forskning i gang med at opbygge en beskrivelse, hvor billedet er opdelt i områder efter lignende farvekarakteristika, og så tages deres relative placering i betragtning. Beskrivelse af billeder efter de farver, de indeholder, er den mest almindelige, da den ikke afhænger af billedets størrelse eller orientering. Konstruktionen af histogrammer med deres efterfølgende sammenligning bruges oftest, men er ikke den eneste måde at beskrive farveegenskaber på.
TeksturMetoderne til en sådan beskrivelse fungerer med sammenligning af teksturprøver, der er til stede i billedet, og deres relative position. For at bestemme teksturen bruges texels , som kombineres til sæt. De indeholder ikke kun information, der beskriver teksturen, men også dens placering i det beskrevne billede. Tekstur som en enhed er svær at beskrive på en formaliseret måde og er normalt repræsenteret som en todimensionel række af lysstyrkeændringer . Beskrivelsen inkluderer også nogle gange et mål for kontrast , gradientretningsevne , regelmæssighed. Der er et problem med at sammenligne pixel -kovarians for at tildele klasser til teksturer såsom "glat" eller "ru".
FormularBeskrivelsen af formen involverer beskrivelsen af den geometriske form af individuelle områder af billedet. For at bestemme det, anvendes segmentering eller grænsevalg først på regionen . Der findes andre metoder, såsom formfiltrering (Tushabe og Wilkinson, 2008). Ofte kræver definitionen af formen menneskelig indgriben, da metoder som segmentering er svære at automatisere fuldt ud til en bred klasse af opgaver.
Der er softwarevirksomheder, der bruger indholdsbaserede billedsøgningsalgoritmer til at filtrere webindhold og overvåge offentlig netværkstrafik for at spore billeder af pornografisk indhold.
Eksempler: