Lemma (lingvistik)

Lemma ( engelsk  lemma ) er den indledende, ordbogsform af ordet [1] . På russisk, for substantiver og adjektiver, er dette den nominative entalsform, for verber og verbumsformer er det infinitivformen. Grundlæggende koncept inden for korpuslingvistik og automatisk naturlig sprogbehandling . Processen med automatisk reduktion af tekstord til lemmaer kaldes lemmatisering .

For eksempel vil sætningen " Tidligt om morgenen, Milas mor vaskede stellet med sæbe " efter lemmatisering se sådan ud: morgen, tidligt, mor, Mila, vask, stel, sæbe .

Lemma i korpuslingvistik

I korpuslingvistik giver en søgning på lemma sammenhænge med omtale af alle ordformer af et givet leksem . For eksempel vil søgning på lemma- katten returnere kontekster indeholdende kat, kat, kat, katte, katte osv. Denne type søgning er i modsætning til ordformssøgning : i dette tilfælde vil søgning på ordformen kat returnere kontekster, der indeholder netop denne grammatiske form af dativkasus entalsnummer [2] .

Lemma i informationssøgning og SEO

Noter

  1. Bolshakova E. I., Vorontsov K. V., Efremova N. E., Klyshinsky E. S., Lukashevich N. V., Sapin A. S. Automatisk tekstbehandling og dataanalyse af naturligt sprog: lærebog. godtgørelse . - M. : NRU HSE, 2017. Arkiveret kopi af 21. januar 2022 på Wayback Machine
  2. Lemma søgebeskrivelse  (engelsk)  ? . skitsemotor . Hentet 31. marts 2021. Arkiveret fra originalen 3. marts 2021.
  3. Lemmatisering i SEO  (russisk)  ? .

Litteratur