Videnskaben | |
Statistikker | |
---|---|
Mediefiler på Wikimedia Commons |
Statistik er en gren af viden, en videnskab, der skitserer de generelle spørgsmål om indsamling, måling, overvågning, analyse af massestatistiske (kvantitative eller kvalitative) data og sammenligning af dem; studiet af den kvantitative side af massesociale fænomener i numerisk form [1] .
En statistiker er en statistiker.
Ordet "statistik" kommer fra det latinske status - tingenes tilstand [2] . Begrebet "statistik" blev introduceret i videnskaben af den tyske videnskabsmand Gottfried Achenwall i 1746, som foreslog at erstatte navnet på kurset " Statistik ", der undervises på tyske universiteter, med "Statistik", hvilket lagde grundlaget for udviklingen af statistik som en videnskabelig og akademisk disciplin. På trods af dette blev statistiske optegnelser ført meget tidligere: folketællinger blev gennemført i det gamle Kina , staternes militære potentiale blev sammenlignet, borgernes ejendom i det antikke Rom blev registreret og lignende [3] . Statistik udvikler en særlig metodologi til undersøgelse og behandling af materialer: massestatistiske observationer, grupperingsmetoden, gennemsnit , indekser, balancemetoden, metoden til grafiske billeder, klynge- , diskriminant- , faktor- og komponentanalyser, optimering og andre metoder til analysere statistiske data.
Begyndelsen af statistisk praksis går tilbage omtrent til tidspunktet for statens fremkomst. Det sumeriske riges lertavler ( III-II årtusinde f.Kr. ) kan betragtes som den første offentliggjorte statistiske information .
I begyndelsen blev statistik forstået som en beskrivelse af den økonomiske og politiske tilstand i en stat eller en del af den. For eksempel refererer definitionen til 1792: "statistikker beskriver statens tilstand på nuværende tidspunkt eller på et eller andet kendt tidspunkt i fortiden." Og på nuværende tidspunkt passer de statslige statistiske tjenesters aktiviteter godt ind i denne definition [4] .
Efterhånden begyndte udtrykket "statistik" dog at blive brugt mere udbredt. Ifølge Napoleon Bonaparte er "statistikker tingenes budget" [5] . Således blev statistiske metoder fundet nyttige ikke kun til administrativ ledelse, men også til anvendelse på det enkelte virksomhedsniveau. Ifølge ordlyden fra 1833 er "statistikkens formål at fremstille fakta i den mest kortfattede form" [6] . I 2. halvdel af det 19. - tidlige 20. århundrede dannedes en videnskabelig disciplin - matematisk statistik , som er en del af matematikken.
I det 20. århundrede betragtes statistik ofte primært som en selvstændig videnskabelig disciplin. Statistik er et sæt af metoder og principper, hvorefter indsamling, analyse, sammenligning, præsentation og fortolkning af numeriske data udføres. I 1954 gav akademiker fra Akademiet for Videnskaber i den ukrainske SSR B. V. Gnedenko følgende definition: "Statistik består af tre sektioner:
Udtrykket "statistik" bruges i yderligere to betydninger. For det første forstås "statistik" i hverdagen ofte som et sæt kvantitative data om et fænomen eller en proces. For det andet er en statistik en funktion af resultaterne af observationer, der bruges til at evaluere karakteristika og parametre for fordelinger og testhypoteser.
Typiske eksempler på den tidlige anvendelse af statistiske metoder er beskrevet i Bibelen, i Det Gamle Testamente . Der er især antallet af krigere i forskellige stammer angivet. Fra et matematisk synspunkt blev sagen reduceret til at tælle antallet af hits af værdierne af de observerede funktioner i visse gradueringer.
Umiddelbart efter fremkomsten af sandsynlighedsteori ( Pascal , Fermat , 1600-tallet) begyndte man at bruge sandsynlighedsmodeller i behandlingen af statistiske data. For eksempel blev hyppigheden af fødslen af drenge og piger undersøgt, forskellen mellem sandsynligheden for at få en dreng fra 0,5 blev fastslået, årsagerne til, at i parisiske krisecentre denne sandsynlighed ikke er den samme som i selve Paris blev analyseret. , og så videre.
I 1794 (ifølge andre kilder - i 1795) formaliserede den tyske matematiker Carl Gauss en af metoderne i moderne matematisk statistik - metoden med mindste kvadrater [8] . I det 19. århundrede blev et væsentligt bidrag til udviklingen af praktisk statistik ydet af belgiske Quetelet , som på baggrund af analysen af en lang række reelle data viste stabiliteten af relative statistiske indikatorer, såsom andelen af selvmord blandt alle dødsfald [9] .
Den første tredjedel af det 20. århundrede var præget af parametrisk statistik. Metoder baseret på analyse af data fra parametriske familier af fordelinger beskrevet af kurver fra Pearson -familien blev undersøgt . Den mest populære var normalfordelingen . Pearson , Student og Fisher kriterierne blev brugt til at teste hypoteserne . Den maksimale sandsynlighedsmetode , variansanalyse blev foreslået , hovedideerne til eksperimentplanlægning blev formuleret.
Teorien om dataanalyse udviklet i den første tredjedel af det 20. århundrede kaldes parametrisk statistik, da dens hovedformål for undersøgelsen er prøver fra fordelinger beskrevet af en eller et lille antal parametre. Den mest generelle er familien af Pearson-kurver defineret af fire parametre. Der kan som udgangspunkt ikke gives gode begrundelser for, hvorfor fordelingen af resultaterne af konkrete observationer skal indgå i en eller anden parametrisk familie. Undtagelserne er velkendte: hvis den probabilistiske model sørger for summering af uafhængige stokastiske variable , så er det naturligt at beskrive summen ved en normalfordeling; hvis modellen betragter produktet af sådanne mængder, så tilnærmes resultatet tilsyneladende ved en logaritmisk normalfordeling og så videre.
Statistisk gruppering forstås som opdelingen af befolkningen i grupper (intervaller for parameterændring), der er homogene i enhver henseende. Antallet af sådanne intervaller (grupper) beregnes ved hjælp af Sturges- formlen :
,hvor k er antallet af intervaller, n er antallet af observationer.
Der er tre typer gruppering: analytisk, typologisk, strukturel.
Analytisk gruppering - giver dig mulighed for at identificere forholdet mellem grupperinger. Typologisk gruppering er opdelingen af den undersøgte befolkning i homogene grupper. Strukturel gruppering - hvor en homogen befolkning er opdelt i grupper efter en bestemt egenskab.Typiske grupper: maksimalt homogene indeni og heterogene udenfor. Grupperinger er primære og sekundære. Primære grupperinger opnås i løbet af statistiske observationer. Og de sekundære udføres på basis af den primære.
Statistiske metoder - metoder til analyse af statistiske data. Der er metoder til anvendt statistik , som kan anvendes inden for alle områder af videnskabelig forskning og alle sektorer af den nationale økonomi, og andre statistiske metoder, hvis anvendelighed er begrænset til et bestemt område. Dette refererer til metoder som statistisk acceptkontrol, statistisk kontrol af teknologiske processer, pålidelighed og testning og design af eksperimenter.
Statistiske metoder til dataanalyse bruges på næsten alle områder af menneskelig aktivitet. De bruges, når det er nødvendigt for at opnå og underbygge eventuelle domme om en gruppe (objekter eller emner) med en vis intern heterogenitet.
Det er tilrådeligt at skelne mellem tre typer videnskabelige og anvendte aktiviteter inden for statistiske metoder til dataanalyse (i henhold til graden af specificitet af metoder forbundet med fordybelse i specifikke problemer):
a) udvikling og forskning af metoder til generelle formål uden at tage hensyn til anvendelsesområdets specifikationer;
b) udvikling og forskning af statistiske modeller for virkelige fænomener og processer i overensstemmelse med behovene inden for et bestemt aktivitetsområde;
c) brug af statistiske metoder og modeller til statistisk analyse af specifikke data til løsning af anvendte problemer, for eksempel med henblik på at udføre stikprøveundersøgelser .
Anvendt statistik er videnskaben om, hvordan man behandler data af vilkårlig karakter. Det matematiske grundlag for anvendt statistik og statistiske analysemetoder er sandsynlighedsteorien og matematisk statistik .
Beskrivelse af typen af data og mekanismen for deres generering er begyndelsen på enhver statistisk undersøgelse. Både deterministiske og probabilistiske metoder bruges til at beskrive data. Ved hjælp af deterministiske metoder er det muligt kun at analysere de data, der er til rådighed for forskeren. For eksempel blev de brugt til at få tabeller beregnet af officielle statslige statistikorganer på grundlag af statistiske rapporter indsendt af virksomheder og organisationer. Det er muligt at overføre de opnåede resultater til et bredere sæt, for kun at bruge dem til forudsigelse og kontrol på basis af probabilistisk-statistisk modellering. Derfor indgår ofte kun metoder baseret på sandsynlighedsteori i matematisk statistik.
I den enkleste situation er statistiske data værdierne af nogle karakteristiske træk ved de undersøgte objekter. Værdier kan være kvantitative eller repræsentere en indikation af den kategori, som objektet kan tildeles. I det andet tilfælde taler vi om et kvalitativt tegn.
Når vi måler med flere kvantitative eller kvalitative karakteristika, får vi en vektor som statistiske data om objektet. Det kan betragtes som en ny slags data. I dette tilfælde består prøven af et sæt vektorer. Hvis nogle af koordinaterne er tal, og nogle er kvalitative (kategoriserede) data, så taler vi om en vektor af heterogene data.
Et element i prøven, det vil sige én dimension, kan være en funktion som en helhed. For eksempel beskriver indikatorens dynamik, det vil sige dens ændring over tid, patientens elektrokardiogram eller amplituden af motorakslens slag. Eller en tidsserie , der beskriver dynamikken i en bestemt virksomheds præstationer. Derefter består prøven af et sæt funktioner.
Elementerne i prøven kan også være andre matematiske objekter. For eksempel binære relationer. Så når de interviewer eksperter, bruger de ofte bestilling (rangering) af ekspertiseobjekter - produktprøver, investeringsprojekter, muligheder for ledelsesbeslutninger . Afhængigt af reglerne for ekspertundersøgelsen kan elementerne i prøven være forskellige typer binære relationer (orden, partitionering , tolerance ), sæt , fuzzy sæt osv.
Den matematiske karakter af prøveelementerne i forskellige problemer med anvendt statistik kan være meget forskellig. Der kan dog skelnes mellem to klasser af statistik - numerisk og ikke-numerisk. Anvendt statistik er derfor opdelt i to dele - numerisk statistik og ikke-numerisk statistik.
Numerisk statistik er tal, vektorer, funktioner. De kan lægges sammen, ganget med koefficienter. Derfor har forskellige summer i numerisk statistik stor betydning. Det matematiske apparat til at analysere summer af tilfældige stikprøveelementer er de (klassiske) love for store tal og centrale grænsesætninger.
Ikke-numeriske statistiske data er kategoriserede data, vektorer af heterogene træk, binære relationer, mængder, fuzzy mængder osv. De kan ikke adderes og ganges med koefficienter. Så det giver ikke mening at tale om summer af ikke-numerisk statistik. De er elementer i ikke-numeriske matematiske rum (mængder). Det matematiske apparat til analyse af ikke-numeriske statistiske data er baseret på brugen af afstande mellem elementer (såvel som nærhedsmålinger, forskelsindikatorer) i sådanne rum. Ved hjælp af afstande bestemmes empiriske og teoretiske gennemsnit, lovene for store tal bevises, ikke-parametriske estimater af sandsynlighedsfordelingstætheden konstrueres , problemer med diagnostik og klyngeanalyse løses osv. [2]
Anvendt forskning anvender forskellige typer statistiske data. Dette skyldes især metoderne til at opnå dem. For eksempel, hvis test af nogle tekniske enheder fortsætter indtil et bestemt tidspunkt, så får vi de såkaldte censurerede data, bestående af et sæt tal - varigheden af driften af en række enheder før fejl, og information om, at resten af enhederne fortsatte med at virke ved afslutningen af testen. Censurerede data bruges ofte til vurdering og kontrol af pålideligheden af tekniske enheder.
Statistik er en multidisciplin, fordi den bruger metoder og principper lånt fra andre discipliner. Så viden inden for sociologi og økonomisk teori tjener som et teoretisk grundlag for dannelsen af statistisk videnskab. Inden for rammerne af disse discipliner studeres de sociale fænomeners love. Statistik hjælper med at vurdere omfanget af et fænomen, samt at udvikle et system af metoder til analyse og undersøgelse. Statistik er uden tvivl relateret til matematik, da der kræves en række matematiske operationer, metoder og love for at identificere mønstre, vurdere og analysere genstanden for undersøgelsen, og systematiseringen af resultaterne afspejles i form af grafer og tabeller.
Teorien om statistiske metoder er rettet mod at løse reelle problemer. Derfor opstår der konstant nye formuleringer af matematiske problemer med statistisk dataanalyse i den, nye metoder udvikles og underbygges. Begrundelse udføres ofte med matematiske midler, det vil sige ved at bevise teoremer. En vigtig rolle spilles af den metodiske komponent - hvordan man præcist skal stille opgaver, hvilke antagelser man skal acceptere med henblik på yderligere matematisk undersøgelse. Rollen af moderne informationsteknologier , især computereksperimenter, er stor.
En presserende opgave er at analysere de statistiske metoders historie for at identificere udviklingstendenser og anvende dem til prognoser.
Udviklingen af computerteknologi i anden halvdel af det 20. århundrede havde en betydelig indflydelse på statistikken. Tidligere var statistiske modeller overvejende repræsenteret ved lineære modeller . Stigningen i computerhastighed og udviklingen af tilsvarende numeriske algoritmer har forårsaget en øget interesse for ikke-lineære modeller, såsom kunstige neurale netværk , og har ført til udviklingen af komplekse statistiske modeller, såsom en generaliseret lineær model og en hierarkisk model .
Beregningsmetoder baseret på resampling som et permutationskriterium og bootstrapping er blevet udbredt , sammen med metoder som Gibbs sampling har gjort brugen af Bayesianske algoritmer mere tilgængelig. I øjeblikket er der en række statistisk software til generelle og specialiserede formål.
Der er en opfattelse af, at data fra statistiske undersøgelser i stigende grad bevidst fordrejes eller fejlfortolkes, idet man kun vælger de data, der er gunstige for den enkelte forsker [10] . Misbrug af statistikker kan enten være tilfældigt eller bevidst. How to Lie with Statistics af Darrell Huff (1954) opstiller en række overvejelser om brugen og forkert anvendelse af statistik. Nogle forfattere gennemgår også de statistiske metoder, der anvendes i visse områder (f.eks. Warne, Lazo, Ramos og Ritter (2012)) [11] . Måder at undgå fejlfortolkning af statistik omfatter brug af korrekt design og undgåelse af bias i forskning [12] . Misbrug forekommer, når sådanne konklusioner er "ordnet" af bestemte strukturer, som bevidst eller ubevidst fører til udvælgelsen af partiske data eller stikprøver [13] . Samtidig kan histogrammer, som den nemmeste type diagram at bruge og forstå (opfatte), enten laves ved hjælp af konventionelle computerprogrammer eller blot tegnes [12] . De fleste mennesker forsøger ikke at lede efter fejl eller tager selv fejl, og ser derfor ikke fejl. For at være sande skal statistiske data således ifølge forfatterne være "ukæmmet" (det vil sige, pålidelige data bør ikke se perfekte ud) [13] . For at den resulterende statistik skal være plausibel og nøjagtig, skal stikprøven være repræsentativ for helheden [14] .
Den mest berømte (og en af de bedste [15] ) kritik af anvendt statistik er "Der er tre slags bedrag: løgne, forbandede løgne og statistikker", Eng. Der er tre slags løgne: løgne, forbandede løgne og statistik ) er traditionelt tilskrevet den britiske premierminister Benjamin Disraeli , efter at have tilskrevet Mark Twain i udgivelsen af " Chapter of my autobiography " ( North American Review magazine 5. juli 1907) [ 16] : "Tallene er vildledende," skrev han, "jeg var overbevist om dette ud fra min egen erfaring; Disraeli talte med rette om dette: "Der er tre typer løgne: løgne, åbenlyse løgne og statistik." Denne sætning er dog ikke i Disraelis værker, dens oprindelse kan diskuteres. I 1964 foreslog C. White ( eng. Colin White ) [15] forfatterskabet af Francois Magendie (1783-1855), som sagde sætningen på fransk: fr. Ainsi l'altération de la vérité qui se manifeste déjà sous la forme progressive du mensonge et du parjure, nous offre-t-elle au superlatif, la statistique ("ændringen af sandheden, som manifesterer sig i den komparative grad af usandhed og mened, har også en superlativ , statistik"). Med Whites ord, "verden havde brug for denne sætning, og nogle få mennesker kunne være stolte over at have opfundet den."
Ordbøger og encyklopædier |
| |||
---|---|---|---|---|
|