GATE (program)

Generel arkitektur for tekstteknik (GATE)
GATE Developer Hovedvindue
Type	Data mining, informationsudvinding
Udviklere	University of Sheffield
Skrevet i	Java
Interface	Grafiske, GATE API'er
Operativ system	Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris osv.
Interface sprog	engelsk
Første udgave	1995
Hardware platform	Java virtuel maskine
nyeste version	8.6.1 ( 17. januar 2020 )
Licens	LGPL
Internet side	gate.ac.uk
Mediefiler på Wikimedia Commons

General Architecture for Text Engineering (GATE, program) er et naturligt sprogbehandlingssystem med åben kildekode, der bruger sæt af komponenter i Java-sproget [1] . Systemet blev oprindeligt udviklet på University of Sheffield og er blevet udviklet siden 1995.

Ved hjælp af GATE implementeres opgaver, hvor det er nødvendigt at identificere tekstens semantiske indhold og indkode den i en struktureret form ved at tilføje annotationer til tekstsegmenter. GATE bruges sammen med NLTK , R og RapidMiner [2] . Systemet bruges til informationsudtrækning , manuel og automatisk semantisk annotering, coreferenceanalyse , arbejde med ontologier (f.eks. WordNet), maskinlæring (Weka, RASP, MAXENT, SVM Light), blogpostflowanalyse (f.eks. Twitter) [3] .

GATE-familien af værktøjer inkluderer: GATE-udvikler, GATE Mímir, GATE Cloud (til at arbejde med store sproglige projekter), GATE Teamware (serveroptimering til kollaborativ tekstannotering), GATE Embedded (objektbibliotek) [4] .

GATE er bakket op af et stort fællesskab af udviklere, brugere, undervisere, studerende og videnskabsmænd. Anvendes i kommercielle og forskningsprojekter af store virksomheder, forskningslaboratorier og universiteter, små og mellemstore kommercielle virksomheder rundt om i verden. GATE anvendes i en lang række videnskabelige områder relateret til computerlingvistik , naturlig sprogbehandling , modellering af sprogprocesser, beregningsbiologi og medicin [5] . Projekter, der bruger GATE: ForgetIT (UK), The National Archives (UK), EMILLE (UK), myGRID Arkiveret 29. september 2013 på Wayback Machine (UK), AKT (UK), KIT Semantic Platform , Ontotext (Bulgarien), MeManage (utilgængeligt link) (Tyskland), Med Dictate (Canada), IE Denso (Japan) [6] .

Arkitektur og grundlæggende operationer

GATE-arkitekturen består af indbyrdes forbundne komponenter: "stykker" software med veldefinerede grænseflader, der kan implementeres i en række forskellige sammenhænge. GATE implementerer færdige løsninger til tokenisering, tagging, opdeling af tekst i udsagn (splitter), udtrækning af navngivne enheder , maskinlæring . Komponenter er opdelt i tre kategorier efter funktion:

Sproglige ressourcer (LR) - sproglige ressourcer (data),
Processing Resources (PR) - programmer til behandling af dokumenter (ressourcer),
Visual Resources (VR) - GUI'er til LR og PR.

Følgende dokumentformater understøttes: almindelig tekst, HTML, SGML, XML, RTF, e-mail, PDF (nogle dokumenter), Microsoft Office (nogle formater), OpenOffice (nogle formater), UIMA CAS, CoNLL/IOB. Arbejde med dokumentformater i GATE har en række specifikke funktioner [7] . GATE har indbygget forskellige værktøjer til at arbejde med Unicode. Understøttede sprog: engelsk (standard), spansk, kinesisk, arabisk, bulgarsk, fransk, tysk, hindi, italiensk, cebuano, rumænsk, russisk.

Når programmet startes, indeholder dets hovedvindue fire hovedmenupunkter: Programmer, Sprogressourcer, Behandlingsressourcer, Datalagre.

Ansøgninger

Controlleren sammen med dens tilhørende tekstbehandlingsprogrammer (behandlingsressourcer). Definerede og lagrede tekstbehandlingsprocesser kan genanvendes på et enkelt dokument eller tekstkorpus. Dette sikrer pålidelig tekstbehandling og sparer tid.

Sprogressourcer (LR)

Indeholder tre typer data: dokumenter, korpora og annoteringsgrafer.

Dokument/ Tomt dokument - Portdokument indlæst fra en fil eller tomt. Et nyt dokument oprettes via Sprogressourcer > Nyt > Portdokument. Dokumentet kan gemmes i XML-format (højreklik på dokumentnavnet > Gem til XML).

Gate Corpus - en sag til opbevaring af dokumenter. Korpuset oprettes via Sprogressourcer > Nyt > Portkorpus. Du kan udfylde et korpus ved at angive en liste over dokumenter, når du opretter det, eller ved at tilføje dokumenter i grænsefladen af et allerede oprettet korpus, eller ved at bruge kommandoen Indfyld. Korpuset kan gemmes i XML på samme måde, men i stedet for filnavnet skal mappen angives.
Annoteringer er organiseret som grafer, som er modelleret som Java-sæt. Annoteringer er repræsenteret som buer med start- og slutnoder, et ID, en tildelt type og et FeatureMap (sæt af funktioner). Noder indeholder pointere til kilder i dokumentet.

Behandlingsressourcer (PR)

Programmer til tekstbehandling. I GATE bruges ressourcer til automatisk at oprette og administrere annoteringer. Med PR kan du tilføje eller ændre dokumentmarkering. En ny PR skabes på samme måde som LR. Ved oprettelse af en PR indstilles parametre, som er af to typer: initialiseringsparametre og opstartsparametre. Førstnævnte skal indstilles, når ressourcen oprettes, sidstnævnte lige før den startes fra controlleren. Regulatorerne styrer driften af PR. De er ansvarlige for den rækkefølge, som PR'en anvendes i, og samspillet mellem PR'en og LR'en. De vigtigste typer af controllere:

rørledning . Konsekvent anvendelse af PR-kæden på dokumentet. Efter initialisering af de nødvendige ressourcer og tilføjelse af dokumenter, kan vi oprette en controller og køre vores ressourcer i den specificerede rækkefølge med de specificerede parametre på det specificerede sæt dokumenter.
Corpus pipeline . Påføring af PR-kæden på kroppen.

Principperne for at arbejde med Pipeline og Corpus Pipeline er ens: en ny controller oprettes (højreklik på Applications > New > controller name), PR'er vælges fra listen til venstre og installeres i den rækkefølge, som brugeren angiver. Angiv måldokumentet i tilfælde af Pipeline, målkorpus i tilfælde af Corpus Pipeline, parametre for PR er defineret. Efter start af Run, vil controlleren begynde sekventielt at starte PR'er på de valgte dokumenter i den rækkefølge, som er angivet af brugeren.

Controllerkonfigurationer (PR + indstillinger) kan gemmes i applikationer (Gem applikationstilstand), helst ved at bruge .gapp-udvidelsen.

CREOLE ressourcepakke

Sættet af ressourcer integreret med GATE er kendt som CREOLE - Genanvendelige objekter til sprogteknologi. Ressourcer er gemt i CREOLE repositories, som indeholder XML-filer, Java-arkivkoder og biblioteker, der er nødvendige for ressourcer. De anvendte ressourcer er grupperet sammen i plugins [8] , som er gemt på en bestemt adresse (URL eller fil:/URL). Plugins kan være grundlæggende (indlæst under GATE-installation) og brugerdefinerede, de kan være placeret på et lokalt drev eller en fjernserver. Når filen er indlæst i GATE, ligner den en creole.xml indstillingsfil. CREOLE-plugins administreres gennem grænsefladen ved hjælp af kommandoen Fil > Administrer CREOLE-plugins > Tilføj nyt kreolsk lager. GATE er repræsenteret som et sæt indstillinger (funktioner), hvor brugeren forbinder CREOLE-komponenter: brugeren angiver en liste over adresser, GATE udtrækker de tilsvarende ressourcer (PR) fra dem. Når et plug-in er valgt, vises dets indstillingsliste i feltet til højre.

datastores

Datalager. Nødvendig for at opbevare dokumenter/sager og processer til senere brug. Af alle lagertyper bruges Serial DataStore ofte. opbevaring kan

oprette (Datastore > Opret datalager > Serial DataStore > angiv en tom mappe uden kyrilliske tegn og mellemrum i stien),
åben tidligere oprettet (Åbn datalager),
gem dokumenter og sager i den (Åbn datalager > dobbeltklik på et dokument/en sag),
gemme ændringer foretaget i dokumentet eller korpuset (Gem i dets datalager).

En sekvens af tekstbehandlingsprocesser fra Applications kan køres fra under DataStore. Du skal åbne DataStore, åbne sagen og derefter i Applications vælge denne sag. Når du kører Application på en body fra DataStore, vil hvert dokument blive indlæst, behandlet, gemt og lukket. Det vil sige, at der kun behandles ét dokument ad gangen. Dette overbelaster ikke hukommelsen, men processen er langsommere, end hvis alle dokumenterne blev behandlet på samme tid.

Dokumentmarkering i GATE Developer

Opmærkning af dokumenter i overensstemmelse med ensartede regler giver dig mulighed for at søge efter og udtrække data fra et dokument, skabe ontologier .

I GATE, efter åbning af dokumenteditoren, vises fanebladene Annotationssæt og Annotationsliste (eller Annotations afhængigt af versionen af Gate), hvor du i listen til højre kan markere de typer annoteringer, du vil have vist, eller oprette annoteringer . Funktionen Skift farve er tilvejebragt. Når et stykke tekst, som en anmærkning skal tildeles til, er valgt, vises vinduet Annotation Editor, der indeholder følgende felter og kontrolelementer:

Annotationstype (hvis nogle typer allerede er tilføjet, kan du vælge mellem eksisterende)
Attributnavn (tomme felter for den næste attribut vises automatisk)
Attributværdi
Knappen Slet anmærkning

Annoteringer er grupperet i AnnotationSets. Dette er en praktisk funktion, der giver dig mulighed for at gemme flere opmærkningsmuligheder for et dokument, for eksempel ekspert og automatisk. Ekspertmarkering gemmes typisk i et annotationssæt kaldet Key. Automatisk opmærkning skrives normalt i et tomt annotationssæt, som er til stede i alle dokumenter som standard. Der er ingen AnnotationSet Key i dokumenterne, du skal oprette den, indtaste ordet Key i feltet under annotationstyperne og klikke Ny.

ANNIE system

GATE har et AI-system kaldet ANNIE (A Nearly-New Information Extraction System), som inkluderer et sæt ressourcer, der giver tokenisering (ANNIE English Tokenizer), POS-tagging (ANNIE POS-Tagger), opdelt i sætninger (ANNIE Sentence Splitter) , navngivet enhedsekstraktion (ANNIE Gazetteer og ANNIE NE Transducer) og coreferenceanalyse (ANNIE OrthoMatcher). Udviklere: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov og andre. ANNIE-udviklere bruger JAPE [9] endelige automatalgoritmer og regulære udtryk .

ANNIE-komponenter er integreret i applikationen, så for initialisering skal du blot klikke på det tilsvarende grønne ikon på GATE-værktøjslinjen og vælge med standardindstillinger. Når alle ressourcer vises på listen Behandlingsressourcer, skal du dobbeltklikke for at åbne ANNIE-applikationen, som er på applikationslisten. Grænsefladen for ANNIE-appen er den samme som resten af apps. På højre side er en ordnet liste over ressourcer, der vil blive kaldt på dokumentet i nøjagtig den rækkefølge, der er angivet i listen. ANNIE-applikationen tilhører Corpus Pipeline-klassen, det vil sige, den skal køre på et korpus af tekster. Som et resultat af driften af ANNIE-systemet tilføjes et antal annoteringer til standardannotationssættet, inklusive Token (tokens), Sætning (sætninger), Lookup (ordbogsindgange), Person, Location, Organisation. Hvis korpus og dokumenter var i DataStore, før ANNIE kørte, vil ANNIE hente dokumenterne et ad gangen, behandle dem og lægge dem tilbage.

Liste over komponenter:

PR-listen har en Document Reset PR -ressource , der fjerner markering fra dokumentet før behandling. Ressourcen har en setsToKeep-parameter, som viser navnene på AnnotationSets, der ikke skal ryddes. Hvis der er manuel opmærkning i dokumentet, skal du sikre dig, at det AnnotationSet, der indeholder denne markup, er opført på denne liste, ellers slettes det. Som standard er nøglesættet angivet der.
Tokenizer . Inddeler tekst i tokens, nemlig tal, tegnsætning, ord, symboler, mellemrum. Hver token tildeles sin type, henholdsvis Word (orth-attribut med parametre: upperInitial, allCaps, smallCase, mixedCaps), Number, Symbol, Tegnsætning, SpaceToken.
Gazetteer . Definerer navngivne enheder i overensstemmelse med listen, det vil sige en tekstfil (almindelig tekst) med en liste over navngivne enheder linje for linje. Hver liste indeholder et andet sæt af navngivne enheder: byer, organisationer, ugedage osv. for kun ét af de givne sprog. Lists.def-filen giver adgang til en liste over navngivne enheder. Du kan indstille anmærkningstypen for en individuel liste over navngivne enheder. Hver liste skal være i samme mappe som lists.def-indeksfilen.
Sætningsopdeler . Inddeler teksten i sætninger. Splitteren bruger listen over forkortelser fra Gazetteer til at skelne slutningen af en sætning fra andre typer tegnsætning. Hver ytring tildeles 'Sætning'-annoteringen, indeni hvilken er 'Split'-annotationen med værdien 'intern' og 'ekstern' for at skelne spørgende, udråbende, bekræftende sætninger.
RegEx-sætningssplitter . En alternativ måde at opdele tekst i sætninger ved hjælp af JAPE regulære udtryk.
En del af Speech Tagger . Annoterer hvert ord og tegn. Der er en liste over brugte tags. Bruger ordforråd og mange regler baseret på korpus af Wall Street Journal. Regler og ordforråd kan ændres manuelt.
Semantisk tagger . Semantisk annotering udføres ved hjælp af JAPE resolver-regler (regulære udtryk), der bruger de tags, der er opnået i tidligere annoteringstrin.
Ortografisk Coreference (OrthoMatcher eller 'NameMatcher'). Tilføjer en relationstype mellem navngivne enhedstags og semantiske tags. Finder ikke nye navngivne enheder, men kan tildele en ikke-klassificerbar type til et egennavn baseret på ordmatches.
Pronominal Coreference . Forbundet til PR som en ekstra ressource til ANNIE plugin. Kan finde citeret tekst, direkte tale, pronominer (substitution af navneord, anafora ), gentagelser. Kræver foreløbig annotering af tags: Token (engelsk tokenizer), sætning (sætningssplitter), split (sætningssplitter), Location (NE-transducer, OrthoMatcher), person (NE-transducer, OrthoMatcher), Organisation (NE-transducer, OrthoMatcher). Analysen udføres ved hjælp af reglerne for JAPE-konverteren (regulære udtryk), en tilstandsmaskine er bygget til at søge efter tegn på direkte tale og citater (enkelt- og dobbeltanførselstegn osv.), søg efter pronominer "det, det, det, det, sig selv" og "jeg, mig, min, mig selv."

Test af resultaterne af tekstbehandling

GATE har indbyggede værktøjer til at teste resultaterne af tekstbehandling:

AnnotationDiff-værktøjet udfører en sammenligning på det samme dokument (sammenlign-knappen på GATE-panelet).

Parametre: Nøglesæt (navn på annotationssæt med markup #1), svarsæt (navn på annotationssæt med markup #2), Type (kun én type kan testes ad gangen), Features (attributter vi sammenligner). Efter start af sammenligningen (Sammenlign), vil AnnotationDiff udsende par af annoteringer, der markerer typen af parret med en farve. Typer: Korrekt (fuldt match), Manglende (korrekt anmærkning ikke fundet), falsk/falsk positiv (ekstra anmærkning fundet), delvis korrekt (delvist krydser anmærkningsgrænser). I henhold til antallet af par af forskellige typer beregnes standardmetrikken Precision, Recall og F.

Corpus Quality Assurance (CQA) er designet til at beregne kvalitetsmålinger på et korpus.

Fanen Corpus Quality Assurance åbnes i det ønskede korpusvindue. CQA vil indsamle data om sæt, annoteringer og deres attributter. Det er nødvendigt at indstille parametrene, vælge typer af vurderinger (for eksempel F1.0-score streng, mild og gennemsnitlig). Kør sammenligning. På fanebladet Dokumentstatistik kan du se statistik over dokumenter, samt straks åbne det valgte dokument eller se AnnotationDiff for det. Testresultater kan eksporteres til HTML.

GATE Mimir

GATE Mímir er en open source søgemaskine hostet på SourceForge, distribueret under GNU Lesser General Public License 3.0. GATE Mímir giver support til indeksering og søgning efter sproglig og semantisk information fra applikationer med enorme databaser med sproglige data. GATE Mímir giver mulighed for at søge efter information om tekst, annotationer, semantiske ontologier og semantiske metadata ved hjælp af vilkårlige kombinationer af tekst, strukturel information og SPARQL. Udviklerne leverer ikke et færdigt pakket produkt, men tilbyder at downloade kilderne og kompilere dine egne filer. GATE Mímir brugermanualen [10] , brugseksempler [11] er tilvejebragt , for de seneste udgivelsesversioner er arkiver af et helt kildetræ tilgængelige [12] .

Se også

Litteratur

Hamish Cunningham, Diana Maynard, Kalina Bontcheva, et al. Udvikling af sprogbehandlingskomponenter med GATE version 7 (en brugervejledning ) . The University of Shelf (2013).
Seth Grimes. Open Source tekstanalyse . – 2009.
K. Bontcheva, L. Derczynski, A. Funk, M.A. Greenwood, D. Maynard og N. Aswani. TwitIE: An Open-Source Information Extraction Pipeline for Microblog Text // Association for Computational Linguistics. - 2013.
Hamish Cunningham, Valentin Tablan, Angus Roberts, Kalina Bontcheva. Få mere ud af biomedicinske dokumenter med GATEs fulde livscyklus Open Source tekstanalyse // PLoS Comput Biol 9(2) : tidsskrift . - USA, 2013. - Iss. 9(2) .
Cunningham H., Maynard D., Bontcheva K. og Tablan V. GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications (I proc. af 40th Anniversary Meeting of Association for Computational Linguistics, 2002 ) ) // University of Shelf. – 2009.
Konchady Manu. Bygningssøgningsapplikationer: Lucene, LingPipe og Gate . - Oakton, Virginia, USA: Mustru Publishing, 2008. - 447 s. — ISBN 978-0-61520-425-3 .
Graham Wilcock. Introduktion til sproglig annotering og tekstanalyse . - Princeton, NJ: Morgan & Claypool Publishers, 2009. - 159 s. — ISBN 9781598297386 .
Valentin Tablan, Ian Roberts. Mimir brugervejledning (engelsk) . The University of Shelf (2013).