Learning to rank ( learning to rank eller machine-learned ranking, MLR ) [1] er en klasse af overvågede maskinlæringsopgaver , der består i automatisk at vælge en rangeringsmodel fra et træningssæt bestående af et sæt lister og givne delordrer på elementer inden for hver liste. Delvis rækkefølge specificeres normalt ved at specificere en score for hvert element (f.eks. "relevant" eller "ikke relevant"; mere end to gradueringer er mulige). Målet med en rankingmodel er bedst (i en vis forstand) at tilnærme og generalisere rankingmetoden i træningssættet til nye data.
Ranking learning er stadig et ret ungt forskningsfelt i hastig udvikling, som opstod i 2000'erne med fremkomsten af interessen inden for informationssøgning i at anvende maskinlæringsmetoder på rangeringsproblemer.
I forhold til søgemaskiner er hver liste et sæt dokumenter, der opfylder nogle søgeforespørgsler.
Træningseksemplet består af et udsnit af søgeforespørgsler, et undersæt af dokumenter, der svarer til dem, og estimater af hvert dokuments relevans for forespørgslen. De kan udarbejdes både manuelt, af specialuddannede personer (evaluatorer eller bedømmere af søgekvalitet ), eller automatisk, baseret på analyse af brugerklik [2] eller søgemaskineværktøjer såsom SearchWiki -systemet i Google -søgemaskinen .
Under træningen af rangeringsmodellen og under dens drift oversættes hvert dokument-anmodningspar til en numerisk vektor af rangeringsfunktioner (også kaldet rangeringsfaktorer eller signaler), der karakteriserer dokumentets egenskaber, forespørgslen og deres relation. Disse tegn kan opdeles i tre grupper:
Følgende er nogle eksempler på rangeringsfunktioner brugt i det velkendte LETOR - datasæt inden for dette forskningsfelt : [5]
Der er adskillige metrics, der evaluerer og sammenligner ydeevnen af rangeringsalgoritmer på en prøve med peer reviews. Ofte har parametrene for rangeringsmodellen en tendens til at blive justeret på en sådan måde, at værdien af en af disse målinger maksimeres.
Eksempler på metrics:
I sin artikel "Learning to Rank for Information Retrieval" [1] og præsentationer på tematiske konferencer analyserede Tai-Yan Liu fra Microsoft Research Asia de metoder, der i øjeblikket er tilgængelige til at løse problemet med at lære at rangere og foreslog deres klassificering i tre tilgange, afhængigt af på brugt inputdatarepræsentation og straffunktion:
I den punktvise tilgang antages det , at hvert forespørgsel-dokumentpar er tildelt en numerisk score. Opgaven med at lære at rangere er reduceret til at opbygge en regression : for hvert enkelt forespørgsel-dokument-par er det nødvendigt at forudsige dets score.
Inden for denne tilgang kan mange maskinlæringsalgoritmer anvendes på regressionsproblemer. Når scoringerne kun kan tage nogle få værdier, kan algoritmer til ordinær regression og klassifikation også bruges.
I den parvise tilgang kommer det at lære at rangere ned på at bygge en binær klassifikator, som modtager to dokumenter svarende til den samme forespørgsel som input, og det er nødvendigt for at bestemme hvilken der er bedst.
Eksempler på algoritmer: [1] RankNet, FRank, RankBoost, RankSVM, IR-SVM.
Den listevise tilgang består i at bygge en model, hvis input umiddelbart er alle de dokumenter, der matcher forespørgslen, og outputtet er deres permutation . Modelparametertilpasning udføres for direkte at maksimere en af ovenstående rangeringsmetrics. Men dette er ofte svært, da rangeringsmetrikkene normalt ikke er kontinuerlige og ikke-differentiere med hensyn til rangeringsmodellens parametre, så de tyr til at maksimere nogle af deres tilnærmelser eller lavere estimater.
Eksempler på algoritmer: [1] SoftRank, SVM map , AdaRank, RankGP, ListNet, ListMLE.
Søgemaskiner i mange moderne internetsøgemaskiner, herunder Yandex , Yahoo [7] og Bing , bruger rangeringsmodeller bygget af maskinlæringsmetoder. Bings søgning bruger RankNet- algoritmen . [8] Den nyeste rangerende maskinlæringsalgoritme udviklet og brugt i Yandex -søgemaskinen hedder MatrixNet; [9] Yandex sponsorerede selv Internet Mathematics 2009-konkurrencen [10] for at bygge en rangeringsalgoritme baseret på dets eget datasæt.
I et interview i begyndelsen af 2008 sagde Peter Norvig , forskningsdirektør hos Google , at deres søgemaskine endnu ikke var klar til helt at overlade rangeringen til maskinlæringsalgoritmer, med henvisning til det faktum, at automatisk genererede modeller for det første kan opføre sig uforudsigeligt på nye klasser af forespørgsler, der ikke ligner forespørgsler fra træningsprøven, sammenlignet med modeller skabt af menneskelige eksperter. For det andet er skaberne af den nuværende Google-rangeringsalgoritme overbeviste om, at deres model også er i stand til at løse problemer mere effektivt end maskinlæring. [11] Den første grund er af meget større interesse for os, da den ikke kun går tilbage til et så velkendt problem i induktiv logik, formuleret af den tyske matematiker C.G. Hempel og i strid med intuitionen (udsagnet "alle ravne er sorte" svarer logisk til "alle ikke-sorte genstande er ikke ravne"), men får os også til at vende tilbage til en række uløste spørgsmål om F. Rosenblatt, der skabte verdens første neurale netværk, der er i stand til at perception og dannelsen af et svar på den opfattede stimulus - en enkelt-lags perceptron. [12] Baseret på kritikken af Rosenblatts elementære perceptron , kan vi forstå hele sårbarheden af denne ratingmodel, som Google-eksperter fortæller os om: er kunstige systemer i stand til at generalisere deres individuelle oplevelse til en bred klasse af situationer, for hvilke svaret var ikke meddelt dem på forhånd? Nej, den individuelle oplevelse af kunstige systemer i praksis er altid begrænset og aldrig fuldstændig. På en eller anden måde giver maskinlæringsværktøjer dig mulighed for at løse problemet med spamdexing med en ret høj grad af effektivitet. [13]
Machine learning og data mining | |
---|---|
Opgaver | |
At lære med en lærer | |
klyngeanalyse | |
Dimensionalitetsreduktion | |
Strukturel prognose | |
Anomali detektion | |
Grafer sandsynlighedsmodeller | |
Neurale netværk | |
Forstærkende læring |
|
Teori | |
Tidsskrifter og konferencer |
|