Generel arkitektur for tekstteknik (GATE) | |
---|---|
GATE Developer Hovedvindue | |
Type | Data mining, informationsudvinding |
Udviklere | University of Sheffield |
Skrevet i | Java |
Interface | Grafiske, GATE API'er |
Operativ system | Windows Vista, Windows XP, Mac OS X, Linux, Mac OS X, Solaris osv. |
Interface sprog | engelsk |
Første udgave | 1995 |
Hardware platform | Java virtuel maskine |
nyeste version |
|
Licens | LGPL |
Internet side | gate.ac.uk |
Mediefiler på Wikimedia Commons |
General Architecture for Text Engineering (GATE, program) er et naturligt sprogbehandlingssystem med åben kildekode, der bruger sæt af komponenter i Java-sproget [1] . Systemet blev oprindeligt udviklet på University of Sheffield og er blevet udviklet siden 1995.
Ved hjælp af GATE implementeres opgaver, hvor det er nødvendigt at identificere tekstens semantiske indhold og indkode den i en struktureret form ved at tilføje annotationer til tekstsegmenter. GATE bruges sammen med NLTK , R og RapidMiner [2] . Systemet bruges til informationsudtrækning , manuel og automatisk semantisk annotering, coreferenceanalyse , arbejde med ontologier (f.eks. WordNet), maskinlæring (Weka, RASP, MAXENT, SVM Light), blogpostflowanalyse (f.eks. Twitter) [3] .
GATE-familien af værktøjer inkluderer: GATE-udvikler, GATE Mímir, GATE Cloud (til at arbejde med store sproglige projekter), GATE Teamware (serveroptimering til kollaborativ tekstannotering), GATE Embedded (objektbibliotek) [4] .
GATE er bakket op af et stort fællesskab af udviklere, brugere, undervisere, studerende og videnskabsmænd. Anvendes i kommercielle og forskningsprojekter af store virksomheder, forskningslaboratorier og universiteter, små og mellemstore kommercielle virksomheder rundt om i verden. GATE anvendes i en lang række videnskabelige områder relateret til computerlingvistik , naturlig sprogbehandling , modellering af sprogprocesser, beregningsbiologi og medicin [5] . Projekter, der bruger GATE: ForgetIT (UK), The National Archives (UK), EMILLE (UK), myGRID Arkiveret 29. september 2013 på Wayback Machine (UK), AKT (UK), KIT Semantic Platform , Ontotext (Bulgarien), MeManage (utilgængeligt link) (Tyskland), Med Dictate (Canada), IE Denso (Japan) [6] .
GATE-arkitekturen består af indbyrdes forbundne komponenter: "stykker" software med veldefinerede grænseflader, der kan implementeres i en række forskellige sammenhænge. GATE implementerer færdige løsninger til tokenisering, tagging, opdeling af tekst i udsagn (splitter), udtrækning af navngivne enheder , maskinlæring . Komponenter er opdelt i tre kategorier efter funktion:
Følgende dokumentformater understøttes: almindelig tekst, HTML, SGML, XML, RTF, e-mail, PDF (nogle dokumenter), Microsoft Office (nogle formater), OpenOffice (nogle formater), UIMA CAS, CoNLL/IOB. Arbejde med dokumentformater i GATE har en række specifikke funktioner [7] . GATE har indbygget forskellige værktøjer til at arbejde med Unicode. Understøttede sprog: engelsk (standard), spansk, kinesisk, arabisk, bulgarsk, fransk, tysk, hindi, italiensk, cebuano, rumænsk, russisk.
Når programmet startes, indeholder dets hovedvindue fire hovedmenupunkter: Programmer, Sprogressourcer, Behandlingsressourcer, Datalagre.
Controlleren sammen med dens tilhørende tekstbehandlingsprogrammer (behandlingsressourcer). Definerede og lagrede tekstbehandlingsprocesser kan genanvendes på et enkelt dokument eller tekstkorpus. Dette sikrer pålidelig tekstbehandling og sparer tid.
Indeholder tre typer data: dokumenter, korpora og annoteringsgrafer.
Programmer til tekstbehandling. I GATE bruges ressourcer til automatisk at oprette og administrere annoteringer. Med PR kan du tilføje eller ændre dokumentmarkering. En ny PR skabes på samme måde som LR. Ved oprettelse af en PR indstilles parametre, som er af to typer: initialiseringsparametre og opstartsparametre. Førstnævnte skal indstilles, når ressourcen oprettes, sidstnævnte lige før den startes fra controlleren. Regulatorerne styrer driften af PR. De er ansvarlige for den rækkefølge, som PR'en anvendes i, og samspillet mellem PR'en og LR'en. De vigtigste typer af controllere:
Principperne for at arbejde med Pipeline og Corpus Pipeline er ens: en ny controller oprettes (højreklik på Applications > New > controller name), PR'er vælges fra listen til venstre og installeres i den rækkefølge, som brugeren angiver. Angiv måldokumentet i tilfælde af Pipeline, målkorpus i tilfælde af Corpus Pipeline, parametre for PR er defineret. Efter start af Run, vil controlleren begynde sekventielt at starte PR'er på de valgte dokumenter i den rækkefølge, som er angivet af brugeren.
Controllerkonfigurationer (PR + indstillinger) kan gemmes i applikationer (Gem applikationstilstand), helst ved at bruge .gapp-udvidelsen.
CREOLE ressourcepakkeSættet af ressourcer integreret med GATE er kendt som CREOLE - Genanvendelige objekter til sprogteknologi. Ressourcer er gemt i CREOLE repositories, som indeholder XML-filer, Java-arkivkoder og biblioteker, der er nødvendige for ressourcer. De anvendte ressourcer er grupperet sammen i plugins [8] , som er gemt på en bestemt adresse (URL eller fil:/URL). Plugins kan være grundlæggende (indlæst under GATE-installation) og brugerdefinerede, de kan være placeret på et lokalt drev eller en fjernserver. Når filen er indlæst i GATE, ligner den en creole.xml indstillingsfil. CREOLE-plugins administreres gennem grænsefladen ved hjælp af kommandoen Fil > Administrer CREOLE-plugins > Tilføj nyt kreolsk lager. GATE er repræsenteret som et sæt indstillinger (funktioner), hvor brugeren forbinder CREOLE-komponenter: brugeren angiver en liste over adresser, GATE udtrækker de tilsvarende ressourcer (PR) fra dem. Når et plug-in er valgt, vises dets indstillingsliste i feltet til højre.
Datalager. Nødvendig for at opbevare dokumenter/sager og processer til senere brug. Af alle lagertyper bruges Serial DataStore ofte. opbevaring kan
En sekvens af tekstbehandlingsprocesser fra Applications kan køres fra under DataStore. Du skal åbne DataStore, åbne sagen og derefter i Applications vælge denne sag. Når du kører Application på en body fra DataStore, vil hvert dokument blive indlæst, behandlet, gemt og lukket. Det vil sige, at der kun behandles ét dokument ad gangen. Dette overbelaster ikke hukommelsen, men processen er langsommere, end hvis alle dokumenterne blev behandlet på samme tid.
Opmærkning af dokumenter i overensstemmelse med ensartede regler giver dig mulighed for at søge efter og udtrække data fra et dokument, skabe ontologier .
I GATE, efter åbning af dokumenteditoren, vises fanebladene Annotationssæt og Annotationsliste (eller Annotations afhængigt af versionen af Gate), hvor du i listen til højre kan markere de typer annoteringer, du vil have vist, eller oprette annoteringer . Funktionen Skift farve er tilvejebragt. Når et stykke tekst, som en anmærkning skal tildeles til, er valgt, vises vinduet Annotation Editor, der indeholder følgende felter og kontrolelementer:
Annoteringer er grupperet i AnnotationSets. Dette er en praktisk funktion, der giver dig mulighed for at gemme flere opmærkningsmuligheder for et dokument, for eksempel ekspert og automatisk. Ekspertmarkering gemmes typisk i et annotationssæt kaldet Key. Automatisk opmærkning skrives normalt i et tomt annotationssæt, som er til stede i alle dokumenter som standard. Der er ingen AnnotationSet Key i dokumenterne, du skal oprette den, indtaste ordet Key i feltet under annotationstyperne og klikke Ny.
GATE har et AI-system kaldet ANNIE (A Nearly-New Information Extraction System), som inkluderer et sæt ressourcer, der giver tokenisering (ANNIE English Tokenizer), POS-tagging (ANNIE POS-Tagger), opdelt i sætninger (ANNIE Sentence Splitter) , navngivet enhedsekstraktion (ANNIE Gazetteer og ANNIE NE Transducer) og coreferenceanalyse (ANNIE OrthoMatcher). Udviklere: Hamish Cunningham, Valentin Tablan, Diana Maynard, Kalina Bontcheva, Marin Dimitrov og andre. ANNIE-udviklere bruger JAPE [9] endelige automatalgoritmer og regulære udtryk .
ANNIE-komponenter er integreret i applikationen, så for initialisering skal du blot klikke på det tilsvarende grønne ikon på GATE-værktøjslinjen og vælge med standardindstillinger. Når alle ressourcer vises på listen Behandlingsressourcer, skal du dobbeltklikke for at åbne ANNIE-applikationen, som er på applikationslisten. Grænsefladen for ANNIE-appen er den samme som resten af apps. På højre side er en ordnet liste over ressourcer, der vil blive kaldt på dokumentet i nøjagtig den rækkefølge, der er angivet i listen. ANNIE-applikationen tilhører Corpus Pipeline-klassen, det vil sige, den skal køre på et korpus af tekster. Som et resultat af driften af ANNIE-systemet tilføjes et antal annoteringer til standardannotationssættet, inklusive Token (tokens), Sætning (sætninger), Lookup (ordbogsindgange), Person, Location, Organisation. Hvis korpus og dokumenter var i DataStore, før ANNIE kørte, vil ANNIE hente dokumenterne et ad gangen, behandle dem og lægge dem tilbage.
Liste over komponenter:
GATE har indbyggede værktøjer til at teste resultaterne af tekstbehandling:
Parametre: Nøglesæt (navn på annotationssæt med markup #1), svarsæt (navn på annotationssæt med markup #2), Type (kun én type kan testes ad gangen), Features (attributter vi sammenligner). Efter start af sammenligningen (Sammenlign), vil AnnotationDiff udsende par af annoteringer, der markerer typen af parret med en farve. Typer: Korrekt (fuldt match), Manglende (korrekt anmærkning ikke fundet), falsk/falsk positiv (ekstra anmærkning fundet), delvis korrekt (delvist krydser anmærkningsgrænser). I henhold til antallet af par af forskellige typer beregnes standardmetrikken Precision, Recall og F.
Fanen Corpus Quality Assurance åbnes i det ønskede korpusvindue. CQA vil indsamle data om sæt, annoteringer og deres attributter. Det er nødvendigt at indstille parametrene, vælge typer af vurderinger (for eksempel F1.0-score streng, mild og gennemsnitlig). Kør sammenligning. På fanebladet Dokumentstatistik kan du se statistik over dokumenter, samt straks åbne det valgte dokument eller se AnnotationDiff for det. Testresultater kan eksporteres til HTML.
GATE Mímir er en open source søgemaskine hostet på SourceForge, distribueret under GNU Lesser General Public License 3.0. GATE Mímir giver support til indeksering og søgning efter sproglig og semantisk information fra applikationer med enorme databaser med sproglige data. GATE Mímir giver mulighed for at søge efter information om tekst, annotationer, semantiske ontologier og semantiske metadata ved hjælp af vilkårlige kombinationer af tekst, strukturel information og SPARQL. Udviklerne leverer ikke et færdigt pakket produkt, men tilbyder at downloade kilderne og kompilere dine egne filer. GATE Mímir brugermanualen [10] , brugseksempler [11] er tilvejebragt , for de seneste udgivelsesversioner er arkiver af et helt kildetræ tilgængelige [12] .