Konstruksyon ng isang serye ng pamamahagi ng pagitan. Pagbuo ng serye ng pagkakaiba-iba ng pagitan para sa tuluy-tuloy na dami ng data

Kundisyon:

Mayroong data sa komposisyon ng edad ng mga manggagawa (taon): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

1. Bumuo ng serye ng pamamahagi ng pagitan.
2. Bumuo ng isang graphical na representasyon ng serye.
3. Matukoy nang graphic ang mode at median.

Solusyon:

1) Ayon sa pormula ng Sturgess, ang populasyon ay dapat nahahati sa 1 + 3.322 lg 30 = 6 na pangkat.

Pinakamataas na edad - 38, minimum - 18.

Lapad ng pagitan Dahil ang mga dulo ng mga pagitan ay dapat na mga integer, hinahati namin ang populasyon sa 5 pangkat. Lapad ng pagitan - 4.

Upang gawing mas madali ang mga kalkulasyon, ayusin namin ang data sa pataas na pagkakasunud-sunod: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30 , 30, 31, 32, 32, 33, 34, 35, 38, 38.

Pamamahagi ng edad ng mga manggagawa

Sa graphically, ang isang serye ay maaaring ilarawan bilang isang histogram o polygon. Histogram - bar chart. Ang base ng column ay ang lapad ng pagitan. Ang taas ng column ay katumbas ng frequency.

Polygon (o distribution polygon) - frequency graph. Upang maitayo ito gamit ang isang histogram, ikinonekta namin ang mga midpoint ng itaas na gilid ng mga parihaba. Isinasara namin ang polygon sa axis ng Ox sa mga distansya na katumbas ng kalahati ng pagitan mula sa matinding mga halaga ng x.

Ang Mode (Mo) ay ang halaga ng katangiang pinag-aaralan, na pinakamadalas na nangyayari sa isang partikular na populasyon.

Upang matukoy ang mode mula sa isang histogram, kailangan mong piliin ang pinakamataas na parihaba, gumuhit ng isang linya mula sa kanang tuktok ng parihaba na ito sa kanang itaas na sulok ng nakaraang parihaba, at mula sa kaliwang tuktok ng modal rectangle gumuhit ng isang linya patungo sa kaliwang vertex ng kasunod na parihaba. Mula sa intersection ng mga linyang ito, gumuhit ng patayo sa x-axis. Ang abscissa ay magiging fashion. Mo ≈ 27.5. Nangangahulugan ito na ang pinakakaraniwang edad sa populasyon na ito ay 27-28 taong gulang.

Ang Median (Me) ay ang halaga ng katangiang pinag-aaralan, na nasa gitna ng ordered variation series.

Hinahanap namin ang median gamit ang cumulate. Cumulates - isang graph ng mga naipon na frequency. Ang Abscissas ay mga variant ng isang serye. Ang mga ordinasyon ay mga naipon na frequency.

Upang matukoy ang median sa ibabaw ng cumulate, nakahanap kami ng isang punto sa kahabaan ng ordinate axis na tumutugma sa 50% ng mga naipon na frequency (sa aming kaso, 15), gumuhit ng isang tuwid na linya sa pamamagitan nito, parallel sa Ox axis, at mula sa punto ng ang intersection nito sa cumulate, gumuhit ng patayo sa x axis. Ang abscissa ay ang median. Ako ≈ 25.9. Nangangahulugan ito na kalahati ng mga manggagawa sa populasyon na ito ay wala pang 26 taong gulang.

Kapag nagpoproseso ng malaking halaga ng impormasyon, na kung saan ay lalong mahalaga kapag nagsasagawa ng mga modernong pang-agham na pag-unlad, ang mananaliksik ay nahaharap sa seryosong gawain ng wastong pagpapangkat ng data ng pinagmulan. Kung ang data ay discrete sa kalikasan, kung gayon, tulad ng nakita natin, walang mga problema na lumitaw - kailangan mo lamang kalkulahin ang dalas ng bawat tampok. Kung ang katangiang pinag-aaralan ay may tuloy-tuloy kalikasan (na mas karaniwan sa pagsasanay), kung gayon ang pagpili ng pinakamainam na bilang ng mga pagitan ng pagpapangkat ng tampok ay hindi nangangahulugang isang maliit na gawain.

Upang pangkatin ang tuluy-tuloy na mga random na variable, ang buong variational range ng katangian ay nahahati sa isang tiyak na bilang ng mga agwat Upang.

Pinagsamang pagitan (tuloy-tuloy) serye ng pagkakaiba-iba ay tinatawag na mga agwat na niraranggo ayon sa halaga ng katangian (), kung saan ang mga bilang ng mga obserbasyon na bumabagsak sa r"th interval, o mga relatibong frequency (), ay ipinahiwatig kasama ng mga kaukulang frequency ():

Mga agwat ng halaga ng katangian
dalas ng mi

bar chart At pinagsama-sama (ogiva), na tinalakay nang detalyado sa amin, ay isang mahusay na paraan ng visualization ng data, na nagbibigay-daan sa iyo upang makakuha ng isang pangunahing ideya ng istraktura ng data. Ang ganitong mga graph (Larawan 1.15) ay itinayo para sa tuluy-tuloy na data sa parehong paraan tulad ng para sa discrete data, isinasaalang-alang lamang ang katotohanan na ang tuluy-tuloy na data ay ganap na pinupuno ang rehiyon ng kanilang mga posibleng halaga, na kumukuha ng anumang mga halaga.

kanin. 1.15.

kaya lang ang mga column sa histogram at ang cumulate ay dapat magkadikit sa isa't isa at walang mga lugar kung saan ang mga halaga ng katangian ay hindi nasa loob ng lahat ng posibleng(ibig sabihin, ang histogram at cumulates ay hindi dapat magkaroon ng "mga butas" sa kahabaan ng abscissa axis, na hindi naglalaman ng mga halaga ng variable na pinag-aaralan, tulad ng sa Fig. 1.16). Ang taas ng bar ay tumutugma sa dalas - ang bilang ng mga obserbasyon na nasa loob ng isang partikular na agwat, o kamag-anak na dalas - ang proporsyon ng mga obserbasyon. Mga pagitan hindi dapat magsalubong at kadalasan ay pareho ang lapad.

kanin. 1.16.

Ang histogram at polygon ay mga pagtatantya ng probability density curve (differential function) f(x) theoretical distribution, na isinasaalang-alang sa kurso ng probability theory. Samakatuwid, ang kanilang pagtatayo ay napakahalaga sa pangunahing pagpoproseso ng istatistika ng dami ng tuluy-tuloy na data - sa pamamagitan ng kanilang hitsura ay maaaring hatulan ng isa ang hypothetical na batas sa pamamahagi.

Cumulate – isang kurba ng mga naipon na frequency (mga frequency) ng isang serye ng pagkakaiba-iba ng pagitan. Ang graph ng cumulative distribution function ay inihambing sa cumulate F(x), tinalakay din sa kursong probability theory.

Karaniwan, ang mga konsepto ng histogram at cumulate ay partikular na nauugnay sa tuluy-tuloy na data at ang kanilang mga serye ng pagkakaiba-iba ng pagitan, dahil ang kanilang mga graph ay mga empirical na pagtatantya ng probability density function at distribution function, ayon sa pagkakabanggit.

Ang pagbuo ng isang serye ng pagkakaiba-iba ng pagitan ay nagsisimula sa pagtukoy ng bilang ng mga pagitan k. At ang gawaing ito ay marahil ang pinakamahirap, mahalaga at kontrobersyal sa isyung pinag-aaralan.

Ang bilang ng mga pagitan ay hindi dapat masyadong maliit, dahil gagawin nitong masyadong makinis ang histogram ( oversmooted), nawawala ang lahat ng mga tampok ng pagkakaiba-iba ng orihinal na data - sa Fig. 1.17 makikita mo kung paano ang parehong data kung saan ang mga graph sa Fig. 1.15, ginamit upang bumuo ng histogram na may mas maliit na bilang ng mga pagitan (kaliwang graph).

Kasabay nito, ang bilang ng mga agwat ay hindi dapat masyadong malaki - kung hindi, hindi namin matantya ang density ng pamamahagi ng pinag-aralan na data sa kahabaan ng numerical axis: ang histogram ay magiging under-smoothed (undersmooth), na may mga walang laman na pagitan, hindi pantay (tingnan ang Fig. 1.17, kanang graph).

kanin. 1.17.

Paano matukoy ang pinaka-kanais-nais na bilang ng mga agwat?

Noong 1926, iminungkahi ni Herbert Sturges ang isang pormula para sa pagkalkula ng bilang ng mga agwat kung saan kinakailangan upang hatiin ang orihinal na hanay ng mga halaga ng katangian na pinag-aaralan. Ang pormula na ito ay talagang naging napakapopular - karamihan sa mga aklat-aralin sa istatistika ay nag-aalok nito, at maraming mga pakete ng istatistika ang gumagamit nito bilang default. Gaano ito katuwiran at sa lahat ng pagkakataon ay isang napakaseryosong tanong.

Kaya, ano ang batayan ng formula ng Sturges?

Isaalang-alang ang binomial distribution)