Koefficienten for leksikalsk mangfoldighed (CLR, engelsk leksikalsk mangfoldighed, LD ) er en kvantitativ karakteristik af teksten, der afspejler ordbogens rigdomsgrad, når man konstruerer en tekst af en given længde. Indikatoren er baseret på forholdet mellem antallet af individuelle leksikale enheder ( lemmaer , engelske typer ) og antallet af deres forekomster i teksten (tekstformer , engelske tokens ) .
Beregnet efter formlen
,hvor
Leksisk rig tekst har en høj koefficient for leksikalsk diversitet, det vil sige det maksimale antal unikke enheder pr. enhed af tekstvolumen, leksikalsk dårlig tekst har en tendens til at gentage de samme leksemer, på grund af hvilket dens leksikalske diversitet reduceres. Følgende begrænsning bør tages i betragtning ved beregning af KLR: mens antallet af tekstformer er potentielt uendeligt og kun kan stige, når rækken af analyserede tekstdata udvides, er antallet af tokens stadig begrænset. Derfor er det rationelt kun at beregne CLR for tekster med begrænset volumen. Inden for datalingvistik er flere løsninger på dette problem blevet foreslået [1] .
Tæt på CLR er koefficienten for tekstens leksikalske tæthed ( eng. lexical density ), der udtrykker forholdet mellem uafhængige dele af tale i teksten og det samlede antal ord. Mere leksikalsk tætte vil derfor være tekster, der bruger mindre hjælpeordforråd. Det er muligt at beregne leksikalske tæthedskoefficienter både for uafhængige dele af tale generelt og separat for substantiver, adjektiver, verber, adverbier.
TTR ( engelsk type/token ratio ) er den enkleste og mest kritiserede måde at beregne den leksikalske diversitetskoefficient på, som ikke tager højde for effekten af tekstlængdeeffekten. TTR blev angiveligt introduceret i videnskabelig brug i 1957 i arbejdet af en specialist i lingguodidactics M. Templin [2] . For eksempel er TTR i det engelske udtryk jeg skal købe noget mælk, fordi jeg ikke har nogen mælk (“jeg skal købe mælk, fordi jeg ikke har mælk”) er lav og er 0,73 (kun 8 leksemer pr. 11 ordbrug , 8/11), og for eksempel i sætningen jeg er løbet tør for mælk, så jeg skal købe noget ("Jeg løb tør for mælk, jeg skal købe det") TTR er allerede højere (TTR = 10/11 = 0,91).
TTR kan beregnes ved at fortolke begrebet type på forskellige måder : det kan betyde
1) et leksem i sin helhed af dets ordformer ( lemma ): for eksempel leksemskjorten for formerne skjorte , skjorte, skjorte, skjorter osv. .,
2) en særskilt ordform eller et sæt enslydende ordformer eller endda homonymer i forhold til individuelle forekomster af disse ordformer i teksten ("tekstformer"): for eksempel huse til tekstformer hjemme, hjemme .
Den første løsning er sprogligt korrekt, men den øger kravene til graden af automatisering af beregningen af koefficienten, da den indebærer evnen af den morfologiske analysator til at udføre opmærkning af dele af tale og lemmatisering. Den anden er sårbar fra et teoretisk synspunkt, afslører en afhængighed af et bestemt sprogs morfologi (hvilket f.eks. reducerer dets pålidelighed ved sammenligning af originale og oversatte tekster), men er let automatiseret.
VocD ( vocabulary diversity ) metoden blev foreslået af D. Malvern og hans kolleger [3] og er en forbedret version af TTR, der udjævner virkningerne af tekstlængde. Metoden er baseret på metoden til tilfældig udvælgelse af fragmenter fra teksten med en længde på 35 til 50 tekstformer og beregning af TTR for dem, efterfulgt af gennemsnit af de resulterende grafer.
Koefficienten for leksikalsk mangfoldighed viser sig at være en vigtig målt parameter i studier om stilistik, diskursanalyse, oversættelsesstudier (når man sammenligner originale og oversatte tekster), lingvistik af børns tale.