విరామం పంపిణీ శ్రేణి నిర్మాణం. నిరంతర పరిమాణాత్మక డేటా కోసం విరామ వైవిధ్య శ్రేణి నిర్మాణం

పరిస్థితి:

కార్మికుల వయస్సు కూర్పుపై డేటా ఉంది (సంవత్సరాలు): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. విరామ పంపిణీ శ్రేణిని నిర్మించండి.
    2. సిరీస్ యొక్క గ్రాఫికల్ ప్రాతినిధ్యాన్ని రూపొందించండి.
    3. మోడ్ మరియు మధ్యస్థాన్ని గ్రాఫికల్‌గా నిర్ణయించండి.

పరిష్కారం:

1) స్టర్జెస్ సూత్రం ప్రకారం, జనాభాను తప్పనిసరిగా 1 + 3.322 lg 30 = 6 సమూహాలుగా విభజించాలి.

గరిష్ట వయస్సు - 38, కనీసం - 18.

విరామం వెడల్పు విరామాల చివరలు పూర్ణాంకాలుగా ఉండాలి కాబట్టి, మేము జనాభాను 5 సమూహాలుగా విభజిస్తాము. విరామం వెడల్పు - 4.

గణనలను సులభతరం చేయడానికి, మేము డేటాను ఆరోహణ క్రమంలో అమర్చుతాము: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

కార్మికుల వయస్సు పంపిణీ

గ్రాఫికల్‌గా, ఒక శ్రేణిని హిస్టోగ్రాం లేదా బహుభుజిగా చిత్రీకరించవచ్చు. హిస్టోగ్రాం - బార్ చార్ట్. కాలమ్ యొక్క ఆధారం విరామం యొక్క వెడల్పు. నిలువు వరుస యొక్క ఎత్తు ఫ్రీక్వెన్సీకి సమానంగా ఉంటుంది.

బహుభుజి (లేదా పంపిణీ బహుభుజి) - ఫ్రీక్వెన్సీ గ్రాఫ్. హిస్టోగ్రాం ఉపయోగించి దీన్ని నిర్మించడానికి, మేము దీర్ఘచతురస్రాల ఎగువ భుజాల మధ్య బిందువులను కలుపుతాము. మేము x యొక్క తీవ్ర విలువల నుండి సగం విరామానికి సమానమైన దూరంలో ఆక్స్ అక్షం మీద బహుభుజిని మూసివేస్తాము.

మోడ్ (మో) అనేది అధ్యయనం చేయబడిన లక్షణం యొక్క విలువ, ఇది ఇచ్చిన జనాభాలో చాలా తరచుగా జరుగుతుంది.

హిస్టోగ్రాం నుండి మోడ్‌ను నిర్ణయించడానికి, మీరు అత్యధిక దీర్ఘచతురస్రాన్ని ఎంచుకోవాలి, ఈ దీర్ఘచతురస్రం యొక్క కుడి శీర్షం నుండి మునుపటి దీర్ఘచతురస్రం యొక్క కుడి ఎగువ మూలకు ఒక గీతను గీయండి మరియు మోడల్ దీర్ఘచతురస్రం యొక్క ఎడమ శీర్షం నుండి ఒక గీతను గీయండి. తదుపరి దీర్ఘచతురస్రం యొక్క ఎడమ శీర్షం. ఈ రేఖల ఖండన నుండి, x-అక్షానికి లంబంగా గీయండి. అబ్సిస్సా ఫ్యాషన్ అవుతుంది. మో ≈ 27.5. అంటే ఈ జనాభాలో అత్యంత సాధారణ వయస్సు 27-28 సంవత్సరాలు.

మధ్యస్థం (నేను) అనేది అధ్యయనం చేయబడిన లక్షణం యొక్క విలువ, ఇది ఆర్డర్ చేయబడిన వైవిధ్య శ్రేణి మధ్యలో ఉంటుంది.

మేము క్యుములేట్ ఉపయోగించి మధ్యస్థాన్ని కనుగొంటాము. క్యుములేట్స్ - సంచిత పౌనఃపున్యాల గ్రాఫ్. అబ్సిస్సాస్ అనేది సిరీస్ యొక్క రూపాంతరాలు. ఆర్డినేట్లు సంచిత పౌనఃపున్యాలు.

సంచితం మీద మధ్యస్థాన్ని నిర్ణయించడానికి, ఆర్డినేట్ అక్షం వెంబడి 50% సంచిత పౌనఃపున్యాలకు (మా విషయంలో, 15) అనుగుణంగా ఒక బిందువును మేము కనుగొంటాము, దాని ద్వారా, ఆక్స్ అక్షానికి సమాంతరంగా మరియు పాయింట్ నుండి సరళ రేఖను గీయండి. సంచితంతో దాని ఖండన, x అక్షానికి లంబంగా గీయండి. అబ్సిస్సా మధ్యస్థం. నేను ≈ 25.9. అంటే ఈ జనాభాలో సగం మంది కార్మికులు 26 ఏళ్లలోపు వారే.

ఆధునిక శాస్త్రీయ అభివృద్ధిని నిర్వహించేటప్పుడు చాలా ముఖ్యమైన సమాచారాన్ని పెద్ద మొత్తంలో ప్రాసెస్ చేస్తున్నప్పుడు, పరిశోధకుడు మూల డేటాను సరిగ్గా సమూహపరిచే తీవ్రమైన పనిని ఎదుర్కొంటాడు. డేటా ప్రకృతిలో వివిక్తంగా ఉంటే, మేము చూసినట్లుగా, ఎటువంటి సమస్యలు తలెత్తవు - మీరు ప్రతి లక్షణం యొక్క ఫ్రీక్వెన్సీని లెక్కించాలి. అధ్యయనంలో ఉన్న లక్షణం ఉంటే నిరంతరస్వభావం (ఇది ఆచరణలో సర్వసాధారణం), ఆపై ఫీచర్ గ్రూపింగ్ విరామాల యొక్క సరైన సంఖ్యను ఎంచుకోవడం అనేది ఏ విధమైన పనికిమాలిన పని కాదు.

నిరంతర యాదృచ్ఛిక వేరియబుల్స్ సమూహానికి, లక్షణం యొక్క మొత్తం వైవిధ్య పరిధి నిర్దిష్ట సంఖ్యలో విరామాలుగా విభజించబడింది. కు.

సమూహ విరామం (నిరంతర) వైవిధ్యం సిరీస్లక్షణం () విలువ ద్వారా ర్యాంక్ చేయబడిన విరామాలు అని పిలుస్తారు, ఇక్కడ r"వ విరామంలోకి వచ్చే పరిశీలనల సంఖ్యలు లేదా సంబంధిత పౌనఃపున్యాలు () సంబంధిత పౌనఃపున్యాలతో సూచించబడతాయి ():

లక్షణ విలువ విరామాలు

mi ఫ్రీక్వెన్సీ

బార్ చార్ట్మరియు సంచితం (ఒగివా),మేము ఇప్పటికే వివరంగా చర్చించాము, డేటా విజువలైజేషన్ యొక్క అద్భుతమైన సాధనం, ఇది డేటా నిర్మాణం యొక్క ప్రాథమిక ఆలోచనను పొందడానికి మిమ్మల్ని అనుమతిస్తుంది. అటువంటి గ్రాఫ్‌లు (Fig. 1.15) వివిక్త డేటా కోసం అదే విధంగా నిరంతర డేటా కోసం నిర్మించబడ్డాయి, నిరంతర డేటా ఏదైనా విలువలను తీసుకొని, దాని సాధ్యమైన విలువల ప్రాంతాన్ని పూర్తిగా నింపుతుందనే వాస్తవాన్ని మాత్రమే పరిగణనలోకి తీసుకుంటుంది.

అన్నం. 1.15

అందుకే హిస్టోగ్రాం మరియు క్యుములేట్‌లోని నిలువు వరుసలు ఒకదానికొకటి తాకాలి మరియు లక్షణ విలువలు సాధ్యమయ్యే అన్ని పరిధిలోకి రాని ప్రాంతాలు ఉండకూడదు(అనగా, హిస్టోగ్రాం మరియు క్యుములేట్‌లు అబ్సిస్సా అక్షం వెంట “రంధ్రాలు” కలిగి ఉండకూడదు, అవి ఫిగ్ 1.16లో ఉన్నట్లుగా అధ్యయనం చేయబడిన వేరియబుల్ విలువలను కలిగి ఉండవు). బార్ యొక్క ఎత్తు ఫ్రీక్వెన్సీకి అనుగుణంగా ఉంటుంది - ఇచ్చిన విరామంలో పడే పరిశీలనల సంఖ్య, లేదా సాపేక్ష ఫ్రీక్వెన్సీ - పరిశీలనల నిష్పత్తి. విరామాలు కలుస్తూ ఉండకూడదుమరియు సాధారణంగా ఒకే వెడల్పు ఉంటుంది.

అన్నం. 1.16

హిస్టోగ్రాం మరియు బహుభుజి సంభావ్యత సాంద్రత వక్రరేఖ (డిఫరెన్షియల్ ఫంక్షన్) యొక్క ఉజ్జాయింపులు. f(x)సైద్ధాంతిక పంపిణీ, సంభావ్యత సిద్ధాంతం యొక్క కోర్సులో పరిగణించబడుతుంది. అందువల్ల, పరిమాణాత్మక నిరంతర డేటా యొక్క ప్రాధమిక గణాంక ప్రాసెసింగ్‌లో వాటి నిర్మాణం చాలా ముఖ్యమైనది - వాటి ప్రదర్శన ద్వారా ఊహాత్మక పంపిణీ చట్టాన్ని నిర్ధారించవచ్చు.

క్యుములేట్ - విరామ వైవిధ్య శ్రేణి యొక్క సంచిత పౌనఃపున్యాల (ఫ్రీక్వెన్సీలు) వక్రరేఖ. సంచిత పంపిణీ ఫంక్షన్ యొక్క గ్రాఫ్ క్యుములేట్‌తో పోల్చబడుతుంది F(x), సంభావ్యత సిద్ధాంతం కోర్సులో కూడా చర్చించబడింది.

ప్రాథమికంగా, హిస్టోగ్రాం మరియు క్యుములేట్ యొక్క భావనలు నిరంతర డేటా మరియు వాటి విరామ వైవిధ్య శ్రేణితో ప్రత్యేకంగా అనుబంధించబడి ఉంటాయి, ఎందుకంటే వాటి గ్రాఫ్‌లు వరుసగా సంభావ్యత సాంద్రత ఫంక్షన్ మరియు పంపిణీ ఫంక్షన్ యొక్క అనుభావిక అంచనాలు.

విరామ వైవిధ్య శ్రేణి నిర్మాణం విరామాల సంఖ్యను నిర్ణయించడం ద్వారా ప్రారంభమవుతుంది కె.మరియు ఈ పని బహుశా అధ్యయనంలో ఉన్న సమస్యలో చాలా కష్టతరమైనది, ముఖ్యమైనది మరియు వివాదాస్పదమైనది.

విరామాల సంఖ్య చాలా తక్కువగా ఉండకూడదు, ఎందుకంటే ఇది హిస్టోగ్రామ్‌ను చాలా మృదువైనదిగా చేస్తుంది ( మితిమీరిన)అసలైన డేటా యొక్క వైవిధ్యం యొక్క అన్ని లక్షణాలను కోల్పోతుంది - అంజీర్లో. 1.17 అంజీర్‌లోని గ్రాఫ్‌లు ఎలా ఉన్నాయో అదే డేటాను మీరు చూడవచ్చు. 1.15, తక్కువ సంఖ్యలో విరామాలతో (ఎడమ గ్రాఫ్) హిస్టోగ్రాంను నిర్మించడానికి ఉపయోగిస్తారు.

అదే సమయంలో, విరామాల సంఖ్య చాలా పెద్దదిగా ఉండకూడదు - లేకుంటే మేము సంఖ్యా అక్షంతో పాటు అధ్యయనం చేసిన డేటా పంపిణీ సాంద్రతను అంచనా వేయలేము: హిస్టోగ్రాం తక్కువగా ఉంటుంది (అండర్ స్మూత్డ్),ఖాళీ విరామాలతో, అసమానంగా (Fig. 1.17, కుడి గ్రాఫ్ చూడండి).

అన్నం. 1.17

విరామాల యొక్క అత్యంత ప్రాధాన్యత సంఖ్యను ఎలా నిర్ణయించాలి?

తిరిగి 1926లో, హెర్బర్ట్ స్టర్జెస్ విరామాల సంఖ్యను లెక్కించడానికి ఒక సూత్రాన్ని ప్రతిపాదించాడు, దీనిలో అధ్యయనం చేయబడుతున్న లక్షణం యొక్క అసలు విలువల సమితిని విభజించడం అవసరం. ఈ ఫార్ములా నిజంగా అత్యంత ప్రజాదరణ పొందింది - చాలా గణాంక పాఠ్యపుస్తకాలు దీనిని అందిస్తాయి మరియు అనేక గణాంక ప్యాకేజీలు దీనిని డిఫాల్ట్‌గా ఉపయోగిస్తాయి. ఇది ఎలా సమర్థించబడుతోంది మరియు అన్ని సందర్భాల్లోనూ చాలా తీవ్రమైన ప్రశ్న.

కాబట్టి, స్టర్జెస్ ఫార్ములా దేనిపై ఆధారపడి ఉంటుంది?

ద్విపద పంపిణీని పరిగణించండి)