Ustrukturerede data

Ustrukturerede data  er data , der ikke svarer til en forudbestemt datamodel , og som regel præsenteres i form af tekst med datoer, tal, fakta placeret i den i en vilkårlig form [1] [2] . Sådanne data er vanskelige at analysere, især med traditionelle programmer designet til at arbejde med strukturerede data ( annoteret eller gemt i databaser ).

Merrill Lynch anslog i 1998, at omkring 80-90 % af alle potentielt nyttige forretningsoplysninger blev præsenteret i ustruktureret form [1] , men dette forhold var ikke baseret på statistik eller kvantitativ forskning, men var en antagelse [2] . Computerworld anslår mængden af ​​ustrukturerede data i organisationer til 70-80 % af alle data [3] .

Historie

Den tidligste forskning i business intelligence fokuserede ikke på numeriske data, men på ustrukturerede tekstdata. Så tidligt som i 1958 udforskede informationsteknologiforskere som H. P. Lun måder at udtrække og klassificere data i ustruktureret tekst. [3] Men først siden begyndelsen af ​​2000'erne har den tilgængelige teknologi indhentet forskningsinteressen. I 2004 udviklede SAS Instituttet SAS Text Miner, som bruger entalsværdinedbrydning til at faktorisere et højdimensionelt tekstrum til lavere dimensionelle underrum for i høj grad at forenkle maskinanalyse [4] . Fremskridt inden for matematik og tekstbehandlingsteknologier har stimuleret kommercielle organisationers forskning inden for områder som tekstsentimentanalyse (sentimentanalyse), indsamling og analyse af forbrugernes meninger, callcenterautomatisering [5] . Fremkomsten af ​​big data- teknologier i slutningen af ​​2000'erne stimulerede en øget interesse for programmer til analyse af ustrukturerede data inden for moderne områder såsom prognoser og årsagsanalyse [6] .

Vanskeligheder med terminologi

Udtrykket "ustrukturerede data" kan betragtes som upræcis af flere årsager:

Arbejde med ustrukturerede data

Teknikker som data mining, Natural Language Processing og text mining giver metoder til at finde mønstre for på en eller anden måde at fortolke ustruktureret information.

Teknikker til strukturering af tekst omfatter typisk manuel tagging (metadata) eller orddel- opmærkning for at strukturere teksten yderligere. The Unstructured Information Management Architecture (UIMA) giver en fælles ramme for behandling af denne information for at udtrække værdier og skabe strukturerede data fra den ustrukturerede information [4] . Software, der skaber en maskinlæsbar datastruktur, gør brug af de sproglige, auditive og visuelle strukturer, der findes i alle former for menneskelig kommunikation [5] . For eksempel kan specielle algoritmer udlede struktur fra tekst ved at analysere morfologi , sætningssyntaks og så videre. Den ustrukturerede information kan derefter markeres til disambiguation, og relevansscoringsteknikker bruges til at forbedre søgningen.

Eksempler på "ustrukturerede data" omfatter bøger, tidsskrifter, dokumenter, metadata, lægejournaler, lyd, video, analoge data, billeder og filer baseret på ustruktureret tekst: e-mail-beskeder, websider, dokumenter oprettet ved hjælp af tekstbehandlere . Ustruktureret information kan lagres i form af strukturerede objekter (f.eks. i form af filer eller dokumenter), der selv har en struktur. I dette tilfælde kaldes kombinationen af ​​strukturerede og ustrukturerede data i aggregatet også "ustrukturerede data" [6] . For eksempel har HTML -websider allerede opmærkning, men det er kun brugbart til visning. Den indeholder ikke information om betydningen eller funktionerne af visse markup-elementer i en form, der er egnet til automatisk behandling. XHTML -markering er lettere at håndtere automatisk, men indeholder typisk ikke de semantiske betydninger af udtryk.

Da ustrukturerede data normalt lagres i form af elektroniske dokumenter , foretrækker indholdsanalyse eller dokumenthåndteringsprogrammer at klassificere hele dokumenter frem for at manipulere i dokumenter. Programmer til behandling af denne type data er således normalt værktøjer til at skabe samlinger af dokumenter med ustruktureret information. Men i dag findes der også løsninger, der virker med atomare grundstoffer mindre end hele dokumentet [7] .

Søgemaskiner er blevet et af de populære værktøjer til indeksering og søgning i ustrukturerede data.

Noter

  1. Ustrukturerede data Arkiveret 21. september 2020 på Wayback Machine // geeksforgeeks.org
  2. [https://web.archive.org/web/20171020135110/https://www.pcmag.com/encyclopedia/term/unstructured-data Arkiveret 20. oktober 2017 på Wayback Machine Unstructured data] // PC Magazine Encyclopedia
  3. Grimes, Seth A Brief History of Text Analytics . B Eye Network . Hentet 24. juni 2016. Arkiveret fra originalen 8. december 2017.
  4. Albright, Russ Tæmmer tekst med SVD'en . S.A.S. _ Hentet 24. juni 2016. Arkiveret fra originalen 21. september 2017.
  5. Desai, Manish Applications of Text Analytics . My Business Analytics @ Blogspot . Hentet 24. juni 2016. Arkiveret fra originalen 13. oktober 2016.
  6. Chakraborty, Goutam Analyse af ustrukturerede data: Anvendelser af tekstanalyse og sentimentmining . S.A.S. _ Hentet 24. juni 2016. Arkiveret fra originalen 13. januar 2017.
  7. Datagrav: A Framework for Knowledge Sharing Using Transclusion Enabled Collaboration Media | Sergey Kochuguev - Academia.edu . Hentet 21. september 2016. Arkiveret fra originalen 15. december 2019.

Links