Histogram (statistik)

Den aktuelle version af siden er endnu ikke blevet gennemgået af erfarne bidragydere og kan afvige væsentligt fra den version , der blev gennemgået den 27. april 2016; checks kræver 10 redigeringer .

Et histogram i matematisk statistik  er en af ​​de grafiske metoder til at studere fordelingsrækken af ​​værdier af en tilfældig variabel. [B:1]

Blandt de grafiske metoder til at studere distributionsserier er følgende angivet [1] :

Trinpolygoner og frekvenspolygoner kaldes tilsammen fordelingspolygoner . Spredningsplottet, trinpolygonen og frekvenspolygonen er angivet som de mest bekvemme. [en]

For det todimensionelle tilfælde er der i stedet for en distributionsserie konstrueret en fordelingstabel, og den tilsvarende grafiske konstruktion kaldes et prismogram . [en]

Definition

Ifølge GOST

GOST R 50779.10-2000 tilbød følgende definitioner:

2.17 histogram
En grafisk repræsentation af frekvensfordelingen for en kvantitativ karakteristik, dannet af sammenhængende rektangler, hvis baser er klasseintervaller, og hvis arealer er proportionale med frekvenserne af disse klasser

2.18 søjlediagram
En grafisk repræsentation af frekvensfordelingen for en diskret stokastisk variabel, dannet af et sæt søjler af samme bredde, hvis højder er proportionale med frekvenserne[D:1]

Alternativ definition

Lad være et eksempel fra en distribution . Lad os definere en partition af den rigtige linje . Lade

er antallet af prøveelementer, der falder ind i det th interval. Derefter en stykkevis konstant funktion , som har formen:

kaldes et normaliseret histogram.[2]

Histogram af en perfekt kontinuerlig fordeling

Lad fordelingen af ​​stokastiske variable være absolut kontinuert og være givet ved sandsynlighedstætheden . Derefter

med sandsynlighed kl . [3]

Fremgangsmåde til at konstruere et histogram

Når man tegner efter metoden med rektangler, er den vandrette akse opdelt i lige store segmenter svarende til rækkerne ; på disse segmenter, som på baserne, bygges rektangler med en højde, der er proportional med frekvensen af ​​en given udledning. [fire]

Lad os beskrive denne procedure mere detaljeret. For det første er det sæt af værdier, som prøveelementet kan tage, opdelt i flere bits (bins). Oftest tages disse intervaller ens, men det er ikke et strengt krav. Disse intervaller er plottet på den vandrette akse, hvorefter der tegnes et rektangel over hver. Hvis alle intervaller var ens, så er højden af ​​hvert rektangel proportional med antallet af prøveelementer, der falder ind i det tilsvarende interval. Hvis intervallerne er forskellige, så vælges højden af ​​rektanglet således, at dets areal er proportionalt med antallet af prøveelementer, der falder ind i dette interval.

Det er vigtigt for at konstruere et histogram at vælge den optimale partition, da når intervallerne øges, falder detaljerne i fordelingstæthedsestimatet, og når intervallerne falder, falder nøjagtigheden af ​​dens værdi. For at vælge det optimale antal intervaller bruges Sturges-reglen ofte .

,

hvor er det samlede antal observationer af mængden, er grundtallet 2-logaritmen og er den heltallige del af .

Ofte findes også en regel, der estimerer det optimale antal intervaller som kvadratroden af ​​det samlede antal målinger:

Brug

Repræsentation af fordelingsrækkerne i transformeret form er en nødvendig betingelse, når man sammenligner disse serier med hinanden [1] .

Studiet af distributionsserier lettes i høj grad ved brugen af ​​den grafiske metode . Ved afbildning af distributionsserier er værdierne af udladningerne eller de observerede værdier af den stokastiske variabel plottet på henholdsvis den vandrette akse og på den lodrette akse bitfrekvenserne eller de observerede frekvenser [1] .

Konstruktionen af ​​histogrammer bruges til at opnå et empirisk estimat af fordelingstætheden af ​​en stokastisk variabel [5] .

I den mest overordnede form er en af ​​de vigtigste opgaver formuleret således: test på et givet signifikansniveau hypotesen om, at fordelingen præsenteret på histogrammet er monomodal [A: 1] .

Eksempler på brug

Histogramanalyse anses traditionelt blandt geologer for at være en klar og informativ metode til løsning af geologiske problemer, da histogramanalyse gør det muligt at teste geologiske hypoteser formuleret på statistiksproget [A: 1] .

I kardiologi er konstruktionen og beskrivelsen af ​​et histogram en obligatorisk geometrisk metode til analyse af hjertefrekvensvariabilitet , foreslået af 1996 [A: 2] [B: 2] standarderne . Som yderligere måder at beskrive hjertefrekvenshistogrammer på, anvendes metoder til deres trekantede fortolkning , såsom St. George-indekset og det trekantede indeks [6] .

I produktionen, når man analyserer tilstanden af ​​den teknologiske proces, betragtes konstruktionen af ​​histogrammer som en effektiv måde at vurdere situationen og udføre en analyse på i første fase af undersøgelse af stabiliteten af ​​den teknologiske proces, og den betragtes også som en af ​​de effektive kvalitetsstyringsværktøjer på stadiet af kvalitetskontrol af det færdige produkt og analyse af den aktuelle tilstand af den teknologiske proces [A :3] .

Se også

Noter

  1. 1 2 3 4 5 Mitropolsky, 1971 , § 2 Rækker og fordelingstabeller, s. 20-43.
  2. Et normaliseret histogram er en sandsynlighedstæthed. I særdeleshed:
    • .
    • .
  3. Således nærmer arealet af figuren under det normaliserede histogram, begrænset af intervallet , sig sandsynligheden for at acceptere værdier inden for dette interval af enhver af de tilfældige variable . Det normaliserede histogram konvergerer dog ikke punktvis til den teoretiske fordelingstæthed af disse tilfældige variable.
  4. Mitropolsky, 1971 , s. 32.
  5. For at konstruere et histogram opdeles det observerede variationsområde for en stokastisk variabel i flere intervaller, og andelen af ​​alle målinger, der falder ind i hvert af intervallerne, beregnes. Værdien af ​​hver aktie tages som et skøn over sandsynligheden for, at en stokastisk variabel falder ind i det tilsvarende interval. Det er forkert at tale om sandsynlighedstætheden i sammenhæng med et histogram, eftersom histogrammering omdanner en fordeling af enhver art til en diskret (det tages i betragtning, hvis en værdi falder ind i et bestemt interval, hvis antal kan tælles). og for en diskret stokastisk variabel er der ingen sandsynlighedstæthedsfunktion.
  6. Ryabykina, 1998 , § 3.6. Geometriske metoder til analyse af rytmegrammer, s. 43-49.

Litteratur

Bøger

  1. Mitropolsky A. K. . Teknik til statistiske beregninger. - 2. udg., revideret. og yderligere .. - M . : Nauka, 1971. - 576 s. - (En ingeniørs fysisk-matematiske bibliotek). - 19 500 eksemplarer.
  2. Ryabykina G.V. , Sobolev A.V. Hjertefrekvensvariabilitet. - M . : "Star'Ko", 1998. - 200 s. — ISBN 5-85493-032-3 .

Artikler

  1. 1 2 Tkachev Yu. A. Undersøgelse af histogrammer af geologiske træk ved computermodellering  // Bulletin fra Institut for Geologi ved Komi Scientific Center i Ural-grenen af ​​Det Russiske Videnskabsakademi: tidsskrift. - 2004. - Nr. 2 . - S. 7-11 .
  2. Arbejdsgruppe for European Society of Cardiology og North American Society of Stimulation and Electrophysiology. Pulsvariation. Standarder for måling, fysiologisk fortolkning og klinisk brug Bulletin of Arhythmology  : Journal  . - 1999. - Nr. 11 . - S. 53-78 .
  3. Abdullin I. A. , Beloborodova O. I. , Laptev N. I. , Moskvicheva E. L. , Goryainov A. D. Anvendelse af statistiske metoder til at vurdere den teknologiske proces med produktion af formede ladninger  // Bulletin of the Kazan Technological University: journal. - 2010. - Nr. 12 . - S. 477-482 .

Normative dokumenter

  1. GOST R 50779.10-2000 (ISO 3534-1-93) Statistiske metoder. Sandsynlighed og grundlag for statistik. Begreber og definitioner . docs.cntd.ru. Hentet 27. maj 2020. Arkiveret fra originalen 19. maj 2020.

Links

  • Canva Online Bar Chart Builder
  • Online kortlægningsværktøj til webtjeneste ChartBlocks