En tekstgenerator er et computerprogram, der genererer tekster (slang for en lille pige ), korrekt ud fra de fleste sprognormers synspunkt , men som regel blottet for mening (i forbindelse med hvilken sådanne programmer nogle gange kaldes "vrangforestillinger" generatorer", "generatorer af skizofasi ").
Nogle gange har læseren genereret sådan en programtekst (f.eks. ved hjælp af en Markov-kæde ), at det kan give indtryk af, at denne tekst er meningsfuld, især hvis den har et emne, som læseren ikke er bekendt med. For eksempel forstår nogle mennesker ikke filosofi og anser enhver filosofisk tekst, der indeholder et stort antal specifikke termer, for at være nonsens , så de kan ikke bestemme den kunstige karakter af den pseudo-filosofiske tekst skrevet af programmet.
Der er forskellige typer tekstgeneratorer, der adskiller sig i deres muligheder (for eksempel kan nogle af dem danne nye ord på egen hånd).
Jonathan Swift beskrev i Gulliver's Travels , mens han parodierede Raymond Lulls Ars magna , satirisk en maskine fra Lagado , der genererede tekster.
Tekstgenerering ved at komponere fra helt tilfældige ord giver et skraldresultat: meningsløst for en person og let genkendeligt af tekstanalysatorer, og bruges derfor ikke. Generering er normalt baseret på manuelt skrevne skabelonsætninger.
I tilfælde, hvor betydningen af den genererede tekst ikke er vigtig, er den sammensat af en "mash" af sætninger fra forskellige kildetekster, eller fra dele af sætninger. Denne metode bruges sammen med skabeloner og synonymisering i chatbots og kommentarbots i sociale netværk og blogs. Sådanne bots kopierer til samtalepartneren sætninger optaget fra andre chats eller websteder. Mere avancerede chatbots sorterer sætninger efter nøgleord , så deres svar er tættere på emnet for dialogen.
Ofte kombineres tekstgeneratorer med synonymiseringsprogrammer, der automatisk ændrer ord til synonymer for at omskrive og gøre sætninger unikke. Ord, der skal erstattes i skabelonen med synonymer, erstattes af makroer .
Jo længere teksten er, jo mere mærkbar er unaturligheden i autosuggerede synonymer. Derfor kan synonymizere i tekster "lavet til mennesker" ( MDL ) kun bruges til at skabe unikke korte tekster: titler og ankre med nøgleord , kommentarer og afsnit. Synonymizere bruges mere vellykket på engelsk, som i modsætning til russisk har en simpel morfologi .
Synonymiseringstyper:
Døråbninger "flyver" hurtigt ud af søgeresultaterne på grund af den dårlige kvalitet af deres tekster. Derfor forsøger døråbningsarbejdere at generere tekst til et minimum. Kun små sætninger genereres tilfældigt i forskellige elementer på siden, passende i betydning. Og tekstafsnit analyseres i deres helhed fra andre websteder med samme emne, og de er muligvis synonymiserede, eller der bruges en "mash".
En række virksomheder udvikler mere sofistikeret teknologi. Syntaktiske strukturer skabes af dele af tale og medlemmer i sætninger, ord i ordbøger er kategoriseret efter semantik, med deres yderligere automatiske substitution i sætninger. Men på grund af den ekstreme kompleksitet og omfanget af arbejdet, ophavsrettigheder til disse udviklinger og forretningshemmeligheder (sådanne systemer gør det i princippet muligt at skabe meget rentable kommercielle projekter), kan vi næppe forvente udseendet af kommunikerende robotter og oversættelsesrobotter i de kommende år.
På dette udviklingsniveau af computerteknologi er der ingen frit tilgængelige tekstgeneratorer med relativt meningsfuld tekst. Generatorer med et nonsens-sæt af ord eller formel-fraser har et snævert anvendelsesområde.
En af tekstgeneratorerne kan kaldes den seneste nyhed i Yandex - Balaboba, som er i stand til at fuldføre en given sætning med højkvalitets og læsbare sætninger og endda hele tekster.
Mange websteder forklarer i detaljer, hvordan denne service fungerer.
Tekstgeneratorer bruges i vid udstrækning til udvikling og søgemaskineoptimering af websteder : til at generere titler, beskrivelser og indhold på hele websteder ved hjælp af dorgens ( døråbningsgeneratorer ).
Der er store engelsksprogede sider, der tjener penge på annoncering, hvor alt indhold ikke er skrevet af journalister, men af bots - artikler bliver automatisk omskrevet fra andre kilder. Eksempler på sådanne websteder: Demand Media og Associated Content [1] . Det russiske sprog har, i modsætning til engelsk, en kompleks morfologi, så udseendet af sådanne rewriter-bots i Runet er meget kompliceret.
Materialer skabt ved hjælp af en tekstgenerator og brugt til søgemaskineoptimering kræver obligatorisk omhyggelig udvælgelse i henhold til unikhedskriteriet.[ afklar ] Dette valg er foretaget ved hjælp af specialiseret software, der har en anden verifikationsalgoritme.
Virtuelle samtalepartnere ( chatbots) er programmer designet til at efterligne kommunikation i chatrum . De bruges i vid udstrækning til at sende spam på sociale netværk (spam bots), såvel som autosvar, der kan reagere på mange søgeord i forskellige scenarier.
Da personen samtidig ikke ser sin samtalepartner, kan han få det indtryk, at han korresponderer med en levende person. Ingen chatbot har dog endnu bestået Turing-testen , og programmer, der bruger tekstgeneratorer, finder det endnu sværere.
Massepropaganda og trolling i sociale netværkI forbindelse med udviklingen af internetpropaganda og "cyberkrige" bruges bots i sociale netværk til massivt at efterligne den offentlige mening. Når du opretter bots, genereres deres navne og internetadresser automatisk, og når de reagerer, teksten af kommentarer, normalt provokerende, propaganda eller stødende indhold.
Relativt kendt på det russisktalende internet var den sjældneste tekstgenerator, designet i form af et php -script . I nogen tid blev den brugt som en del af det satiriske internetprojekt "Gavgav Center", og derefter blev den udbredt som en robot til live-magasiner, blogs osv. Her er eksempler på sekventiel generering af beskeder af samme type af denne robot:
Alle dine indlæg er en typisk kliché af falske insinuationer, der søger at miskreditere og latterliggøre enhver, der begynder at se klart og taler åbent om det kriminelle regimes forbrydelser. Sandheden om deres umenneskelighed og den fascistiske essens af det blodige Kreml-regime stikker øjnene på de blodige Kreml-gouls idioter! Et interessant træk ved dette forum er, at putinister hovedsageligt er engageret i oversvømmelse eller diskussion af personligheder, og emner om fordelene ved Ruslands problemer, som dette, er bange som helvede. Der er plads nok i løgneren, hvor NKVD-fascister som dig kan bruge deres tid, uden at være tynget af sandheden og analysen af stalin- putinismen . Det er derfor, jeg tror, I putinister er moralske degenererede. Når alt kommer til alt, optræder denne slags "diskussionsdeltagere" ikke på de "tjetjenske" løgnersider, der kontrolleres af Kreml og Yastrzembsky. Puti-Put og hans blodtørstige daglejere vil stå til ansvar for alt.
Disse eksempler viser, at selv en læser, der er bekendt med de emner, der diskuteres, kan tage beskeder fra en robot for beskeder fra en virkelig levende person, omend noget ophøjet. Robotten i disse beskeder udleveres kun af en typisk struktur til at konstruere sætninger og kombinere dem.
Der er tilfælde, hvor tekstgeneratorer med succes er blevet brugt til at opdage dårlig kvalitet (og nogle gange fuldstændig mangel) af peer review i videnskabelige tidsskrifter . SCIgen - programmet er især kendt i denne henseende .
naturlig sprogbehandling | |
---|---|
Generelle definitioner | |
Tekstanalyse |
|
Referencer |
|
Maskinoversættelse |
|
Identifikation og dataindsamling | |
Tematisk model | |
Peer review |
|
Naturlig sproggrænseflade [ |