Tekst mining

Text mining ( IAT , engelsk  text mining ) er en retning inden for kunstig intelligens , hvis formål er at indhente information fra samlinger af tekstdokumenter , baseret på brug af praktiske metoder til maskinlæring og naturlig sprogbehandling . Navnet "text mining" har noget til fælles med begrebet " data mining " ( IAD , eng.  data mining), som udtrykker ligheden mellem deres mål, tilgange til informationsbehandling og anvendelsesområder; forskellen kommer kun til udtryk i de endelige metoder, og også i det faktum, at IAD'en omhandler repositories og databaser , og ikke elektroniske biblioteker og tekstkorpus .

IAT Task Groups

Nøglegrupperne af IAT-opgaver er: tekstkategorisering, informationsudtrækning og informationssøgning , bearbejdning af ændringer i tekstsamlinger og udvikling af midler til at præsentere information for brugeren. [en]

Kategorisering af dokumenter består i at tildele dokumenter fra en samling til en eller flere grupper (klasser, klynger) af lignende tekster (for eksempel efter emne eller stil). Kategorisering kan forekomme med deltagelse af en person og uden ham. I det første tilfælde, kaldet klassificering af dokumenter , skal IAT-systemet tilskrive tekster til allerede definerede (praktisk for det) klasser. Med hensyn til maskinlæring kræver dette overvåget læring , hvor brugeren skal forsyne IAT-systemet med både et sæt klasser og eksempler på dokumenter, der tilhører disse klasser.

Det andet tilfælde af kategorisering kaldes dokumentklynger . Samtidig skal IAT-systemet selv bestemme det sæt af klynger, som tekster kan distribueres over - i maskinlæring kaldes den tilsvarende opgave unsupervised learning . I dette tilfælde skal brugeren informere IAT-systemet om antallet af klynger, som han ønsker at opdele samlingen i, der behandles (det antages, at proceduren for valg af funktioner allerede er inkluderet i programalgoritmen ).

Ansøgning

På det seneste har tekstanalyse tiltrukket sig mere og mere opmærksomhed inden for forskellige områder som sikkerhed, handel og videnskab.

Sikker

Mange tekstanalysepakker, såsom Aerotext og Attensity , retter sig mod markedet for sikkerhedsapplikationer, især analysen af ​​almindelige tekstkilder såsom nyhedssider.

I software

Forsknings- og udviklingsafdelinger af større virksomheder som IBM , Apple og Microsoft undersøger tekstanalyseteknologier med det mål at fremtidig automatisering af dataanalyse- og udtræksprocesser.

Noter

  1. Berry, 2003 , s. xi.

Litteratur

På russisk:

På engelsk: