Konštrukcia intervalového distribučného radu. Konštrukcia intervalových variačných sérií pre spojité kvantitatívne údaje

podmienka:

Existujú údaje o vekovom zložení pracovníkov (roky): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

1. Zostrojte intervalový distribučný rad.
2. Vytvorte grafické znázornenie série.
3. Graficky určte režim a medián.

Riešenie:

1) Podľa Sturgessovho vzorca treba populáciu rozdeliť do 1 + 3,322 lg 30 = 6 skupín.

Maximálny vek - 38, minimálny - 18.

Šírka intervalu Keďže konce intervalov musia byť celé čísla, rozdelíme populáciu do 5 skupín. Šírka intervalu - 4.

Pre uľahčenie výpočtov usporiadame údaje vzostupne: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Vekové rozdelenie pracovníkov

Graficky môže byť séria znázornená ako histogram alebo polygón. Histogram - stĺpcový graf. Základňa stĺpca je šírka intervalu. Výška stĺpca sa rovná frekvencii.

Polygón (alebo distribučný polygón) - frekvenčný graf. Aby sme ho vytvorili pomocou histogramu, spojíme stredy horných strán obdĺžnikov. Polygón uzavrieme na osi Ox vo vzdialenostiach rovnajúcich sa polovici intervalu od extrémnych hodnôt x.

Modus (Mo) je hodnota sledovanej charakteristiky, ktorá sa v danej populácii vyskytuje najčastejšie.

Ak chcete určiť režim z histogramu, musíte vybrať najvyšší obdĺžnik, nakresliť čiaru z pravého vrcholu tohto obdĺžnika do pravého horného rohu predchádzajúceho obdĺžnika a z ľavého vrcholu modálneho obdĺžnika nakresliť čiaru do ľavý vrchol nasledujúceho obdĺžnika. Z priesečníka týchto čiar nakreslite kolmicu na os x. Abscisa bude módna. Po ≈ 27.5. To znamená, že najčastejší vek v tejto populácii je 27-28 rokov.

Medián (Me) je hodnota sledovanej charakteristiky, ktorá je v strede radu usporiadaných variácií.

Medián nájdeme pomocou kumulácie. Kumuluje - graf akumulovaných frekvencií. Abscisy sú varianty série. Ordináty sú akumulované frekvencie.

Na určenie mediánu nad kumuláciou nájdeme bod pozdĺž ordinátnej osi zodpovedajúci 50 % akumulovaných frekvencií (v našom prípade 15), nakreslíme ním priamku rovnobežnú s osou Ox az bodu jeho priesečník s kumuláciou nakreslite kolmicu na os x. Abcisa je stred. Ja ≈ 25.9. To znamená, že polovica pracujúcich v tejto populácii má menej ako 26 rokov.

Pri spracovaní veľkého množstva informácií, ktoré je obzvlášť dôležité pri modernom vedeckom vývoji, stojí pred výskumníkom vážna úloha správneho zoskupenia zdrojových údajov. Ak sú údaje svojou povahou diskrétne, potom, ako sme videli, nevznikajú žiadne problémy - stačí vypočítať frekvenciu každej funkcie. Ak má skúmaná charakteristika nepretržitý charakteru (čo je v praxi bežnejšie), potom výber optimálneho počtu intervalov zoskupovania prvkov nie je v žiadnom prípade triviálnou úlohou.

Na zoskupenie spojitých náhodných premenných je celý variačný rozsah charakteristiky rozdelený do určitého počtu intervalov Komu.

Zoskupený interval (nepretržitý) variačná séria sa nazývajú intervaly zoradené podľa hodnoty atribútu (), kde počty pozorovaní spadajúce do i"-tého intervalu alebo relatívne početnosti () sú uvedené spolu s príslušnými početnosťami ():

Charakteristické intervaly hodnôt
mi frekvencia

Histogram A kumulovať (ogiva), ktoré sme už podrobne rozoberali, sú vynikajúcim prostriedkom vizualizácie údajov, ktorý vám umožňuje získať primárnu predstavu o štruktúre údajov. Takéto grafy (obr. 1.15) sú konštruované pre spojité dáta rovnakým spôsobom ako pre diskrétne dáta, len s prihliadnutím na skutočnosť, že spojité dáta úplne vypĺňajú oblasť ich možných hodnôt, pričom nadobúdajú akékoľvek hodnoty.

Ryža. 1.15.

Preto stĺpce na histograme a kumulácii sa musia navzájom dotýkať a nesmú mať oblasti, v ktorých hodnoty atribútov nespadajú do všetkých možných(t. j. histogram a kumulácie by nemali mať pozdĺž osi x „diery“, ktoré neobsahujú hodnoty skúmanej premennej, ako na obr. 1.16). Výška stĺpca zodpovedá frekvencii – počtu pozorovaní spadajúcich do daného intervalu, alebo relatívnej frekvencii – podielu pozorovaní. Intervaly sa nesmie pretínať a zvyčajne majú rovnakú šírku.

Ryža. 1.16.

Histogram a polygón sú aproximáciou krivky hustoty pravdepodobnosti (diferenciálna funkcia) f(x) teoretické rozdelenie, uvažované v rámci teórie pravdepodobnosti. Preto je ich konštrukcia taká dôležitá pri primárnom štatistickom spracovaní kvantitatívnych spojitých údajov - podľa ich vzhľadu možno usudzovať na zákon hypotetického rozdelenia.

Kumulovať – krivka akumulovaných frekvencií (frekvencií) intervalového variačného radu. Graf funkcie kumulatívneho rozdelenia sa porovnáva s kumulovaným F(x), diskutované aj v kurze teórie pravdepodobnosti.

V zásade sú pojmy histogram a kumulovať špecificky spojené so spojitými údajmi a ich intervalovými variačnými sériami, pretože ich grafy sú empirickými odhadmi funkcie hustoty pravdepodobnosti a distribučnej funkcie.

Konštrukcia intervalového variačného radu začína určením počtu intervalov k. A táto úloha je azda najťažšia, najdôležitejšia a najkontroverznejšia v skúmanej problematike.

Počet intervalov by nemal byť príliš malý, pretože to spôsobí, že histogram bude príliš hladký ( prehladený), stráca všetky znaky variability pôvodných údajov – na obr. 1.17 vidno, ako tie isté údaje, na ktorých sú grafy na obr. 1.15, slúži na zostrojenie histogramu s menším počtom intervalov (graf vľavo).

Počet intervalov by zároveň nemal byť príliš veľký - inak nebudeme môcť odhadnúť hustotu rozloženia študovaných údajov pozdĺž číselnej osi: histogram bude nedostatočne vyhladený (nevyhladené), s prázdnymi intervalmi, nerovnomerné (pozri obr. 1.17, pravý graf).

Ryža. 1.17.

Ako určiť najvýhodnejší počet intervalov?

Už v roku 1926 Herbert Sturges navrhol vzorec na výpočet počtu intervalov, do ktorých je potrebné rozdeliť pôvodný súbor hodnôt študovanej charakteristiky. Tento vzorec sa skutočne stal mimoriadne populárnym – väčšina štatistických učebníc ho ponúka a mnohé štatistické balíky ho štandardne používajú. Nakoľko je to opodstatnené a vo všetkých prípadoch je to veľmi vážna otázka.

Takže, na čom je Sturgesov vzorec založený?

Zvážte binomické rozdelenie)