Lemma ( engelsk lemma ) er den indledende, ordbogsform af ordet [1] . På russisk, for substantiver og adjektiver, er dette den nominative entalsform, for verber og verbumsformer er det infinitivformen. Grundlæggende koncept inden for korpuslingvistik og automatisk naturlig sprogbehandling . Processen med automatisk reduktion af tekstord til lemmaer kaldes lemmatisering .
For eksempel vil sætningen " Tidligt om morgenen, Milas mor vaskede stellet med sæbe " efter lemmatisering se sådan ud: morgen, tidligt, mor, Mila, vask, stel, sæbe .
I korpuslingvistik giver en søgning på lemma sammenhænge med omtale af alle ordformer af et givet leksem . For eksempel vil søgning på lemma- katten returnere kontekster indeholdende kat, kat, kat, katte, katte osv. Denne type søgning er i modsætning til ordformssøgning : i dette tilfælde vil søgning på ordformen kat returnere kontekster, der indeholder netop denne grammatiske form af dativkasus entalsnummer [2] .