Caltech 101
Caltech 101 - databasen er en stor billeddatabase designet til at udvikle og teste metoder til mønstergenkendelse og maskinsyn . Dette datasæt blev oprettet i september 2003 hos Caltech af Fei-fei Li, Marc Aurelio Ranzato og Petro Perona. Databasen indeholder 9146 billeder fordelt på 101 kategorier - ansigter, ure, myrer, klaverer og andre. Hvert billede er ledsaget af en annotering samt et MATLAB -biblioteksscript til visning.
Udnævnelse
Databasen indeholder standardiserede maskinlæringsmønstre til udvikling og fejlretning af computervisionsmoduler . For at forbedre effektiviteten kræves der en stor mængde data. For eksempel blev real-time objektgenkendelsesmetoden foreslået af Paul Viola og Michael J. Jones trænet på 4916 prøver af menneskelige ansigter med tilføjede etiketter. [en]
Billedforberedelse – udskæring, dimensionering, etikettering – kræver en masse manuelt arbejde. Derudover fokuserer hver udvikler på deres egne opgaver og opererer på deres egne data, hvilket gør det nødvendigt at sammenligne forskellige metoder og tilgange til maskinlæring. [2]
Caltech 101-sættet er nyttigt som et alternativ til at teste mønstergenkendelsesmetoder og har følgende fordele:
- Billederne er allerede klippet ud og bragt til standardstørrelsen.
- Mange kategorier præsenteres, som giver dig mulighed for at teste genkendelsesalgoritmerne for både individuelle klasser og klassifikation.
- Beskrivelser af objekter er allerede klar.
- Tilgængelig til almindelig brug. Caltech 101 er beregnet som en standard for algoritme-matching.
Nylige undersøgelser [3] viser dog, at test baseret på ukontrollerede naturlige prøver (som Caltech 101) også kan være alvorligt vildledende og føre udvikling i den forkerte retning.
Prøvesæt
Billeder
De 9146 billeder i databasen er opdelt i 101 kategorier.
Hver kategori har 40 til 800 billeder. Almindelige billeder (såsom ansigter) har flere billeder end andre.
Billedstørrelsen er cirka 300x200 pixels. Orienterede objekter (f.eks. motorcykler, fly) ses altid fra venstre mod højre, mens lodrette strukturer (f.eks. huse) roteres for at være uden for aksen.
Anmærkninger
Hvert billede er ledsaget af flere anmærkninger - koordinaterne for den ramme, hvori objektet er placeret, og en detaljeret beskrivelse.
MATLAB -bibliotekets script giver dig mulighed for at uploade et billede og den tilhørende annotering.
Ansøgninger
Analyse og sammenligning
Fordele
Caltech 101 har følgende fordele:
- Standardstørrelser og billedpræsentation:
- Næsten alle objekter har samme størrelse og position i billedet. Caltech 101 kræver ikke skæring eller skalering af dele af billedet.
- Lav interferens og interferens:
- Algoritmerne er fokuseret på at genkende et objekts unikke egenskaber. De fleste billeder har dog varierende niveauer af støj i baggrunden, hvilket kan introducere støj i algoritmen.
- Detaljerede anmærkninger
Ulemper
Manglerne i Caltech 101-databasen [3] [4] tilskrives nogle gange bevidst indførte forvrængninger og nogle gange til et begrænset sæt.
Følgende er noteret som ulemper:
- Dataene er for rene:
- Fordi billederne er ensartede i størrelse, orientering og lav støj, er sættet ikke altid repræsentativt nok til praktiske formål. I virkeligheden har billeder en tendens til at være mere slørede, overlappende og varierende i størrelse, position og orientering. Ensartethed af faciliteter på tværs af gennemsnit på tværs af kategorier er også urealistisk.
- Begrænset antal kategorier:
- Caltech 101 repræsenterer en meget lille delmængde af de mulige og praktiske kategorier af objekter.
- Der er for få prøver i nogle kategorier:
- Nogle kategorier er kun repræsenteret af 31 billeder, hvilket ikke er repræsentativt nok.
- Det vil sige . Mindre end 30 billeder er tydeligvis ikke nok i nogle applikationer.

- Aliasing og forskellige artefakter i processen med at manipulere billeder:
- Nogle billeder er roteret og skaleret fra deres oprindelige position, artefakter og aliasing kan have en negativ effekt .
Udvikling
- Caltech 256 er et datasæt oprettet i 2007. Skaberne forsøgte at forbedre repræsentativiteten af Caltech 101. Selvom dette sæt er mere komplekst, men dets problemer er sammenlignelige [3]
- 30.607 billeder med flere kategorier
- Der er mindst 80 billeder i én kategori
- Billeder er ikke orienteret fra venstre mod højre
- Flere variationer i billedpræsentation
- LabelMe er et åbent dynamisk datasæt oprettet på Massachusetts Institute of Technology Artificial Intelligence Laboratory (CSAIL). LabelMe tager forskellige tilgange og inkluderer også billeder med forskellige støj.
- 106.739 billeder, 41.724 kommenterede billeder, 203.363 mærkede objekter.
- Brugere kan tilføje og uploade billeder, samt tilføje tags og annoteringer til eksisterende eksempler.
- LabelMe dækker på grund af sin åbenhed flere billeder i et bredere spektrum end Caltech 101. Sættet er dog ikke så konsekvent, fordi beslutninger om at tilføje og mærke billeder tages af forskellige, ofte tilfældige personer.
- VOC 2008 er et europæisk billedsamlingsprojekt til evaluering af kategoriseringsmetoder. Sammenlignet med Caltech 101/256 er der et lille antal kategorier (ca. 20). Der er dog flere billeder i hver kategori.
- OIRDS ( Overhead Imagery Research Data Set ) er et billed- og annotationsbibliotek [5] . OIRDS v1.0 består af billeder af køretøjer med en anmærkning placeret i en ekstra del af billedet. Der anvendes kategorier som personbiler, lastbiler, varevogne mv. Ud over typiske beskrivelser omfatter OIRDS objektive og subjektive statistikker, tidspunkt på dagen, dagslys og luftfotografering af billedplaceringen, samt subjektiv vurdering af interferens, støj, klarhed osv.
- ~900 billeder, ~1800 kommenterede billeder
- ~30 anmærkninger for hvert objekt
- ~60 statistikker for hvert objekt
- Stor kontekstvariation
- Dækker udelukkende personbiler
- MICC-Flickr 101 er et sæt billeder indsamlet på Media Integration Center (MICC), University of Florence i 2012. Baseret på Caltech 101 og tilføjet via Flickr . MICC-Flickr 101 [6] løser de vigtigste svagheder ved Caltech 101, især klassevarians, og tilføjer sociale annoteringer via brugerdefinerede attributter. Den indeholder de samme 101 kategorier og kan bruges til at sammenligne resultaterne af kategoriseringsopgaver for både begrænsede scenarier (Caltech 101) og realistiske forhold (MICC-Flickr 101) på de samme kategorier.
- ImageNet er et databaseprojekt med mange millioner kommenterede billeder sorteret i tusindvis af kategorier.
Se også
Noter
- ↑ P. Viola og MJ Jones, Robust Real-Time Object Detection, IJCV 2004
- ↑ Oertel, C., Colder, B., Colombe, J., High, J., Ingram, M., Sallee, P., Current Challenges in Automating Visual Perception. Proceedings of IEEE Advanced Imagery Pattern Recognition Workshop 2008
- ↑ 1 2 3 Hvorfor er real-world visuel objektgenkendelse svært? Pinto N, Cox DD, DiCarlo JJ PLoS Computational Biology Vol. 4, nr. 1, e27 Arkiveret fra originalen den 15. april 2013. doi : 10.1371/journal.pcbi.0040027
- ↑ Datasætproblemer i objektgenkendelse. J. Ponce, TL Berg, M. Everingham, DA Forsyth, M. Hebert, S. Lazebnik, M. Marszalek, C. Schmid, BC Russell, A. Torralba, CKI Williams, J. Zhang og A. Zisserman. Toward Category-Level Object Recognition, Springer-Verlag Lecture Notes in Computer Science. J. Ponce, M. Hebert, C. Schmid og A. Zisserman (red.), 2006 (link ikke tilgængeligt) . Dato for adgang: 23. december 2016. Arkiveret fra originalen 24. december 2016. (ubestemt)
- ↑ F. Tanner, B. Colder, C. Pullen, D. Heagy, C. Oertel og P. Sallee, Overhead Imagery Research Data Set (OIRDS) - et kommenteret databibliotek og værktøjer til at hjælpe med udviklingen af computere vision algorithms , juni 2009, < http://sourceforge.net/apps/mediawiki/oirds/index.php?title=Documentation Arkiveret 9. november 2012 på Wayback Machine > (28. december 2009)
- ↑ L. Ballan, M. Bertini, A. Del Bimbo, A. M. Serain, G. Serra, B. F. Zaccone. Kombination af generative og diskriminerende modeller til klassificering af sociale billeder fra 101 objektkategorier. Int. Conference on Pattern Recognition (ICPR), 2012. Arkiveret fra originalen den 26. august 2014.
Kilder