Trigrammer er et specialtilfælde af n-gram , hvor n er lig med 3. De bruges ofte i naturlig sprogbehandling til at udføre statistisk analyse af tekster, og i kryptografi til at kontrollere og udnytte ciphers og koder.
Kontekst er meget vigtig, variation i rækker og procenter af analyse kan let udledes af forskellige stikprøvestørrelser, forskellige forfattere; eller forskellige typer dokumenter: poesi, science fiction, teknologisk dokumentation; og skriveniveauer: historier for børn mod voksne, militære ordrer og opskrifter. [1] [2]
En typisk kryptoanalytisk frekvensanalyse viser, at de 16 mest almindelige tegnniveautrigrammer på engelsk er:
Placering [2] | trigram | Frekvens [3] (Forskellige kilder) |
---|---|---|
en | det | 1,81 % |
2 | og | 0,73 % |
3 | tha | 0,33 % |
fire | ent | 0,42 % |
5 | ing | 0,72 % |
6 | ion | 0,42 % |
7 | tio | 0,31 % |
otte | til | 0,34 % |
9 | nde | |
ti | har | |
elleve | nce | |
12 | edt | |
13 | tis | |
fjorten | ofte | 0,22 % |
femten | sth | 0,21 % |
16 | Mænd |
Fordi krypterede telegrafmeddelelser ofte udelader tegnsætning og mellemrum, inkluderer kryptografisk frekvensanalyse af sådanne meddelelser trigrammer, der krydser ordgrænser. Dette får trigrammer som "edt" til at forekomme hyppigt, selvom de måske aldrig forekommer i nogen af ordene i disse meddelelser. [fire]
Sætningen " Den hurtige rødræv hopper over den dovne brune hund " har følgende trigrammer på ordniveau:
hurtig rød hurtig rød ræv rød ræv hoppe ræv hoppe over hoppe over over de dovne den dovne brune doven brun hundOg trigrammet på ordniveau "den hurtige røde" har følgende trigrammer på tegnniveau (hvor understregningen "_" står for mellemrum):
det han_ e_q _qu qui uic ick ck_ k_r _re rødnaturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |