Ustrukturerede data

Ustrukturerede data er data , der ikke svarer til en forudbestemt datamodel , og som regel præsenteres i form af tekst med datoer, tal, fakta placeret i den i en vilkårlig form [1] [2] . Sådanne data er vanskelige at analysere, især med traditionelle programmer designet til at arbejde med strukturerede data ( annoteret eller gemt i databaser ).

Merrill Lynch anslog i 1998, at omkring 80-90 % af alle potentielt nyttige forretningsoplysninger blev præsenteret i ustruktureret form [1] , men dette forhold var ikke baseret på statistik eller kvantitativ forskning, men var en antagelse [2] . Computerworld anslår mængden af ustrukturerede data i organisationer til 70-80 % af alle data [3] .

Historie

Den tidligste forskning i business intelligence fokuserede ikke på numeriske data, men på ustrukturerede tekstdata. Så tidligt som i 1958 udforskede informationsteknologiforskere som H. P. Lun måder at udtrække og klassificere data i ustruktureret tekst. [3] Men først siden begyndelsen af 2000'erne har den tilgængelige teknologi indhentet forskningsinteressen. I 2004 udviklede SAS Instituttet SAS Text Miner, som bruger entalsværdinedbrydning til at faktorisere et højdimensionelt tekstrum til lavere dimensionelle underrum for i høj grad at forenkle maskinanalyse [4] . Fremskridt inden for matematik og tekstbehandlingsteknologier har stimuleret kommercielle organisationers forskning inden for områder som tekstsentimentanalyse (sentimentanalyse), indsamling og analyse af forbrugernes meninger, callcenterautomatisering [5] . Fremkomsten af big data- teknologier i slutningen af 2000'erne stimulerede en øget interesse for programmer til analyse af ustrukturerede data inden for moderne områder såsom prognoser og årsagsanalyse [6] .

Vanskeligheder med terminologi

Udtrykket "ustrukturerede data" kan betragtes som upræcis af flere årsager:

struktur, selv om den ikke er formelt defineret, kan være underforstået;
data, der har en struktur af en eller anden form, kan stadig karakteriseres som ustrukturerede, hvis strukturen ikke er beregnet til maskinel behandling;
ustruktureret information kan have en vis struktur (sådan information kaldes semi-struktureret) eller endda være velstruktureret, men på måder, der ikke er indlysende uden forudgående aftale.

Arbejde med ustrukturerede data

Teknikker som data mining, Natural Language Processing og text mining giver metoder til at finde mønstre for på en eller anden måde at fortolke ustruktureret information.

Teknikker til strukturering af tekst omfatter typisk manuel tagging (metadata) eller orddel- opmærkning for at strukturere teksten yderligere. The Unstructured Information Management Architecture (UIMA) giver en fælles ramme for behandling af denne information for at udtrække værdier og skabe strukturerede data fra den ustrukturerede information [4] . Software, der skaber en maskinlæsbar datastruktur, gør brug af de sproglige, auditive og visuelle strukturer, der findes i alle former for menneskelig kommunikation [5] . For eksempel kan specielle algoritmer udlede struktur fra tekst ved at analysere morfologi , sætningssyntaks og så videre. Den ustrukturerede information kan derefter markeres til disambiguation, og relevansscoringsteknikker bruges til at forbedre søgningen.

Eksempler på "ustrukturerede data" omfatter bøger, tidsskrifter, dokumenter, metadata, lægejournaler, lyd, video, analoge data, billeder og filer baseret på ustruktureret tekst: e-mail-beskeder, websider, dokumenter oprettet ved hjælp af tekstbehandlere . Ustruktureret information kan lagres i form af strukturerede objekter (f.eks. i form af filer eller dokumenter), der selv har en struktur. I dette tilfælde kaldes kombinationen af strukturerede og ustrukturerede data i aggregatet også "ustrukturerede data" [6] . For eksempel har HTML -websider allerede opmærkning, men det er kun brugbart til visning. Den indeholder ikke information om betydningen eller funktionerne af visse markup-elementer i en form, der er egnet til automatisk behandling. XHTML -markering er lettere at håndtere automatisk, men indeholder typisk ikke de semantiske betydninger af udtryk.

Da ustrukturerede data normalt lagres i form af elektroniske dokumenter , foretrækker indholdsanalyse eller dokumenthåndteringsprogrammer at klassificere hele dokumenter frem for at manipulere i dokumenter. Programmer til behandling af denne type data er således normalt værktøjer til at skabe samlinger af dokumenter med ustruktureret information. Men i dag findes der også løsninger, der virker med atomare grundstoffer mindre end hele dokumentet [7] .

Søgemaskiner er blevet et af de populære værktøjer til indeksering og søgning i ustrukturerede data.

Noter

↑ Ustrukturerede data Arkiveret 21. september 2020 på Wayback Machine // geeksforgeeks.org
↑ [https://web.archive.org/web/20171020135110/https://www.pcmag.com/encyclopedia/term/unstructured-data Arkiveret 20. oktober 2017 på Wayback Machine Unstructured data] // PC Magazine Encyclopedia
↑ Grimes, Seth A Brief History of Text Analytics . B Eye Network . Hentet 24. juni 2016. Arkiveret fra originalen 8. december 2017. (ubestemt)
↑ Albright, Russ Tæmmer tekst med SVD'en . S.A.S. _ Hentet 24. juni 2016. Arkiveret fra originalen 21. september 2017. (ubestemt)
↑ Desai, Manish Applications of Text Analytics . My Business Analytics @ Blogspot . Hentet 24. juni 2016. Arkiveret fra originalen 13. oktober 2016. (ubestemt)
↑ Chakraborty, Goutam Analyse af ustrukturerede data: Anvendelser af tekstanalyse og sentimentmining . S.A.S. _ Hentet 24. juni 2016. Arkiveret fra originalen 13. januar 2017. (ubestemt)
↑ Datagrav: A Framework for Knowledge Sharing Using Transclusion Enabled Collaboration Media | Sergey Kochuguev - Academia.edu . Hentet 21. september 2016. Arkiveret fra originalen 15. december 2019. (ubestemt)

Links

Artak Hovhannisyan . Ustrukturerede data 2.0 Arkiveret 11. december 2016 på Wayback Machine // Åbne systemer. DBMS, 2012, nr. 04
Leonid Chernyak . Ustruktureret dataanalyse Arkiveret 16. januar 2017 på Wayback Machine // Åbne systemer. DBMS, 2012, nr. 06
Anton Ivanov . Omfattende analyse af ustrukturerede data arkiveret 15. november 2016 på Wayback Machine // Åbne systemer. DBMS, 2013, nr. 06
Artem Grishkovsky . Integreret ustruktureret databehandling Arkiveret 11. december 2016 på Wayback Machine // Åbne systemer. DBMS, 2013, nr. 06
Struktur, modeller og betydning: Er "ustrukturerede" data blot umodellerede? Arkiveret 11. februar 2009 på Wayback Machine , Intelligent Enterprise 1. marts 2005.
Strukturering af ustrukturerede data Arkiveret 30. november 2016 på Wayback Machine , Forbes , 5. april 2007.
Christopher C. Shilakes og Julie Tylman, "Enterprise Information Portals" , Merrill Lynch , 16. november 1998.
Holzinger, Andreas; Stocker, Christof; Ofner, Bernard; Prohaska, Gottfried; Brabenetz, Alberto; Hofmann-Wellenhof, Rainer. Kombination af HCI, Natural Language Processing og Knowledge Discovery – Potentialet af IBM Content Analytics som en hjælpeteknologi på det biomedicinske område // Human-Computer Interaction and Knowledge Discovery in Complex, Unstructured, Big Data (engelsk) / Holzinger, Andreas; Pasi, Gabriella. - Springer, 2013. - S. 13-24 . — (Forelæsningsnotater i datalogi). - ISBN 978-3-642-39146-0 . - doi : 10.1007/978-3-642-39146-0_2 .
Ustrukturerede data og 80 procent-reglen Arkiveret 12. september 2014 på Wayback Machine , Seth Grimes, Clarabridge Bridgepoints, 3. kvartal 2008.
Dagens udfordring i regeringen: Hvad skal man gøre med ustruktureret information, og hvorfor det ikke er en mulighed at gøre noget, Noel Yuhanna, hovedanalytiker, Forrester Research , nov 2010
Ny Digital Universe Study afslører Big Data Gab: Mindre end 1 % af verdens data er analyseret; Mindre end 20 % er beskyttet Arkiveret 18. april 2016 på Wayback Machine , EMC Pressemeddelelse, december 2012.
Semi- og ustruktureret databehandling/forberedelse i IRI CoSort Arkiveret 16. oktober 2016 på Wayback Machine , maj 2014.

Ordbøger og encyklopædier	stor kinesisk Britannica (online)