విరామం పంపిణీ శ్రేణి నిర్మాణం. నిరంతర పరిమాణాత్మక డేటా కోసం విరామ వైవిధ్య శ్రేణి నిర్మాణం
పరిస్థితి:
కార్మికుల వయస్సు కూర్పుపై డేటా ఉంది (సంవత్సరాలు): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.
- విరామ పంపిణీ శ్రేణిని నిర్మించండి.
- సిరీస్ యొక్క గ్రాఫికల్ ప్రాతినిధ్యాన్ని రూపొందించండి.
- మోడ్ మరియు మధ్యస్థాన్ని గ్రాఫికల్గా నిర్ణయించండి.
పరిష్కారం:
1) స్టర్జెస్ సూత్రం ప్రకారం, జనాభాను తప్పనిసరిగా 1 + 3.322 lg 30 = 6 సమూహాలుగా విభజించాలి.
గరిష్ట వయస్సు - 38, కనీసం - 18.
విరామం వెడల్పు విరామాల చివరలు పూర్ణాంకాలుగా ఉండాలి కాబట్టి, మేము జనాభాను 5 సమూహాలుగా విభజిస్తాము. విరామం వెడల్పు - 4.
గణనలను సులభతరం చేయడానికి, మేము డేటాను ఆరోహణ క్రమంలో అమర్చుతాము: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.
కార్మికుల వయస్సు పంపిణీ
గ్రాఫికల్గా, ఒక శ్రేణిని హిస్టోగ్రాం లేదా బహుభుజిగా చిత్రీకరించవచ్చు. హిస్టోగ్రాం - బార్ చార్ట్. కాలమ్ యొక్క ఆధారం విరామం యొక్క వెడల్పు. నిలువు వరుస యొక్క ఎత్తు ఫ్రీక్వెన్సీకి సమానంగా ఉంటుంది.
బహుభుజి (లేదా పంపిణీ బహుభుజి) - ఫ్రీక్వెన్సీ గ్రాఫ్. హిస్టోగ్రాం ఉపయోగించి దీన్ని నిర్మించడానికి, మేము దీర్ఘచతురస్రాల ఎగువ భుజాల మధ్య బిందువులను కలుపుతాము. మేము x యొక్క తీవ్ర విలువల నుండి సగం విరామానికి సమానమైన దూరంలో ఆక్స్ అక్షం మీద బహుభుజిని మూసివేస్తాము.
మోడ్ (మో) అనేది అధ్యయనం చేయబడిన లక్షణం యొక్క విలువ, ఇది ఇచ్చిన జనాభాలో చాలా తరచుగా జరుగుతుంది.
హిస్టోగ్రాం నుండి మోడ్ను నిర్ణయించడానికి, మీరు అత్యధిక దీర్ఘచతురస్రాన్ని ఎంచుకోవాలి, ఈ దీర్ఘచతురస్రం యొక్క కుడి శీర్షం నుండి మునుపటి దీర్ఘచతురస్రం యొక్క కుడి ఎగువ మూలకు ఒక గీతను గీయండి మరియు మోడల్ దీర్ఘచతురస్రం యొక్క ఎడమ శీర్షం నుండి ఒక గీతను గీయండి. తదుపరి దీర్ఘచతురస్రం యొక్క ఎడమ శీర్షం. ఈ రేఖల ఖండన నుండి, x-అక్షానికి లంబంగా గీయండి. అబ్సిస్సా ఫ్యాషన్ అవుతుంది. మో ≈ 27.5. అంటే ఈ జనాభాలో అత్యంత సాధారణ వయస్సు 27-28 సంవత్సరాలు.
మధ్యస్థం (నేను) అనేది అధ్యయనం చేయబడిన లక్షణం యొక్క విలువ, ఇది ఆర్డర్ చేయబడిన వైవిధ్య శ్రేణి మధ్యలో ఉంటుంది.
మేము క్యుములేట్ ఉపయోగించి మధ్యస్థాన్ని కనుగొంటాము. క్యుములేట్స్ - సంచిత పౌనఃపున్యాల గ్రాఫ్. అబ్సిస్సాస్ అనేది సిరీస్ యొక్క రూపాంతరాలు. ఆర్డినేట్లు సంచిత పౌనఃపున్యాలు.
సంచితం మీద మధ్యస్థాన్ని నిర్ణయించడానికి, ఆర్డినేట్ అక్షం వెంబడి 50% సంచిత పౌనఃపున్యాలకు (మా విషయంలో, 15) అనుగుణంగా ఒక బిందువును మేము కనుగొంటాము, దాని ద్వారా, ఆక్స్ అక్షానికి సమాంతరంగా మరియు పాయింట్ నుండి సరళ రేఖను గీయండి. సంచితంతో దాని ఖండన, x అక్షానికి లంబంగా గీయండి. అబ్సిస్సా మధ్యస్థం. నేను ≈ 25.9. అంటే ఈ జనాభాలో సగం మంది కార్మికులు 26 ఏళ్లలోపు వారే.
ఆధునిక శాస్త్రీయ అభివృద్ధిని నిర్వహించేటప్పుడు చాలా ముఖ్యమైన సమాచారాన్ని పెద్ద మొత్తంలో ప్రాసెస్ చేస్తున్నప్పుడు, పరిశోధకుడు మూల డేటాను సరిగ్గా సమూహపరిచే తీవ్రమైన పనిని ఎదుర్కొంటాడు. డేటా ప్రకృతిలో వివిక్తంగా ఉంటే, మేము చూసినట్లుగా, ఎటువంటి సమస్యలు తలెత్తవు - మీరు ప్రతి లక్షణం యొక్క ఫ్రీక్వెన్సీని లెక్కించాలి. అధ్యయనంలో ఉన్న లక్షణం ఉంటే నిరంతరస్వభావం (ఇది ఆచరణలో సర్వసాధారణం), ఆపై ఫీచర్ గ్రూపింగ్ విరామాల యొక్క సరైన సంఖ్యను ఎంచుకోవడం అనేది ఏ విధమైన పనికిమాలిన పని కాదు.
నిరంతర యాదృచ్ఛిక వేరియబుల్స్ సమూహానికి, లక్షణం యొక్క మొత్తం వైవిధ్య పరిధి నిర్దిష్ట సంఖ్యలో విరామాలుగా విభజించబడింది. కు.
సమూహ విరామం (నిరంతర) వైవిధ్యం సిరీస్లక్షణం () విలువ ద్వారా ర్యాంక్ చేయబడిన విరామాలు అని పిలుస్తారు, ఇక్కడ r"వ విరామంలోకి వచ్చే పరిశీలనల సంఖ్యలు లేదా సంబంధిత పౌనఃపున్యాలు () సంబంధిత పౌనఃపున్యాలతో సూచించబడతాయి ():
లక్షణ విలువ విరామాలు |
||||||
mi ఫ్రీక్వెన్సీ |
బార్ చార్ట్మరియు సంచితం (ఒగివా),మేము ఇప్పటికే వివరంగా చర్చించాము, డేటా విజువలైజేషన్ యొక్క అద్భుతమైన సాధనం, ఇది డేటా నిర్మాణం యొక్క ప్రాథమిక ఆలోచనను పొందడానికి మిమ్మల్ని అనుమతిస్తుంది. అటువంటి గ్రాఫ్లు (Fig. 1.15) వివిక్త డేటా కోసం అదే విధంగా నిరంతర డేటా కోసం నిర్మించబడ్డాయి, నిరంతర డేటా ఏదైనా విలువలను తీసుకొని, దాని సాధ్యమైన విలువల ప్రాంతాన్ని పూర్తిగా నింపుతుందనే వాస్తవాన్ని మాత్రమే పరిగణనలోకి తీసుకుంటుంది.
అన్నం. 1.15
అందుకే హిస్టోగ్రాం మరియు క్యుములేట్లోని నిలువు వరుసలు ఒకదానికొకటి తాకాలి మరియు లక్షణ విలువలు సాధ్యమయ్యే అన్ని పరిధిలోకి రాని ప్రాంతాలు ఉండకూడదు(అనగా, హిస్టోగ్రాం మరియు క్యుములేట్లు అబ్సిస్సా అక్షం వెంట “రంధ్రాలు” కలిగి ఉండకూడదు, అవి ఫిగ్ 1.16లో ఉన్నట్లుగా అధ్యయనం చేయబడిన వేరియబుల్ విలువలను కలిగి ఉండవు). బార్ యొక్క ఎత్తు ఫ్రీక్వెన్సీకి అనుగుణంగా ఉంటుంది - ఇచ్చిన విరామంలో పడే పరిశీలనల సంఖ్య, లేదా సాపేక్ష ఫ్రీక్వెన్సీ - పరిశీలనల నిష్పత్తి. విరామాలు కలుస్తూ ఉండకూడదుమరియు సాధారణంగా ఒకే వెడల్పు ఉంటుంది.
అన్నం. 1.16
హిస్టోగ్రాం మరియు బహుభుజి సంభావ్యత సాంద్రత వక్రరేఖ (డిఫరెన్షియల్ ఫంక్షన్) యొక్క ఉజ్జాయింపులు. f(x)సైద్ధాంతిక పంపిణీ, సంభావ్యత సిద్ధాంతం యొక్క కోర్సులో పరిగణించబడుతుంది. అందువల్ల, పరిమాణాత్మక నిరంతర డేటా యొక్క ప్రాధమిక గణాంక ప్రాసెసింగ్లో వాటి నిర్మాణం చాలా ముఖ్యమైనది - వాటి ప్రదర్శన ద్వారా ఊహాత్మక పంపిణీ చట్టాన్ని నిర్ధారించవచ్చు.
క్యుములేట్ - విరామ వైవిధ్య శ్రేణి యొక్క సంచిత పౌనఃపున్యాల (ఫ్రీక్వెన్సీలు) వక్రరేఖ. సంచిత పంపిణీ ఫంక్షన్ యొక్క గ్రాఫ్ క్యుములేట్తో పోల్చబడుతుంది F(x), సంభావ్యత సిద్ధాంతం కోర్సులో కూడా చర్చించబడింది.
ప్రాథమికంగా, హిస్టోగ్రాం మరియు క్యుములేట్ యొక్క భావనలు నిరంతర డేటా మరియు వాటి విరామ వైవిధ్య శ్రేణితో ప్రత్యేకంగా అనుబంధించబడి ఉంటాయి, ఎందుకంటే వాటి గ్రాఫ్లు వరుసగా సంభావ్యత సాంద్రత ఫంక్షన్ మరియు పంపిణీ ఫంక్షన్ యొక్క అనుభావిక అంచనాలు.
విరామ వైవిధ్య శ్రేణి నిర్మాణం విరామాల సంఖ్యను నిర్ణయించడం ద్వారా ప్రారంభమవుతుంది కె.మరియు ఈ పని బహుశా అధ్యయనంలో ఉన్న సమస్యలో చాలా కష్టతరమైనది, ముఖ్యమైనది మరియు వివాదాస్పదమైనది.
విరామాల సంఖ్య చాలా తక్కువగా ఉండకూడదు, ఎందుకంటే ఇది హిస్టోగ్రామ్ను చాలా మృదువైనదిగా చేస్తుంది ( మితిమీరిన)అసలైన డేటా యొక్క వైవిధ్యం యొక్క అన్ని లక్షణాలను కోల్పోతుంది - అంజీర్లో. 1.17 అంజీర్లోని గ్రాఫ్లు ఎలా ఉన్నాయో అదే డేటాను మీరు చూడవచ్చు. 1.15, తక్కువ సంఖ్యలో విరామాలతో (ఎడమ గ్రాఫ్) హిస్టోగ్రాంను నిర్మించడానికి ఉపయోగిస్తారు.
అదే సమయంలో, విరామాల సంఖ్య చాలా పెద్దదిగా ఉండకూడదు - లేకుంటే మేము సంఖ్యా అక్షంతో పాటు అధ్యయనం చేసిన డేటా పంపిణీ సాంద్రతను అంచనా వేయలేము: హిస్టోగ్రాం తక్కువగా ఉంటుంది (అండర్ స్మూత్డ్),ఖాళీ విరామాలతో, అసమానంగా (Fig. 1.17, కుడి గ్రాఫ్ చూడండి).
అన్నం. 1.17
విరామాల యొక్క అత్యంత ప్రాధాన్యత సంఖ్యను ఎలా నిర్ణయించాలి?
తిరిగి 1926లో, హెర్బర్ట్ స్టర్జెస్ విరామాల సంఖ్యను లెక్కించడానికి ఒక సూత్రాన్ని ప్రతిపాదించాడు, దీనిలో అధ్యయనం చేయబడుతున్న లక్షణం యొక్క అసలు విలువల సమితిని విభజించడం అవసరం. ఈ ఫార్ములా నిజంగా అత్యంత ప్రజాదరణ పొందింది - చాలా గణాంక పాఠ్యపుస్తకాలు దీనిని అందిస్తాయి మరియు అనేక గణాంక ప్యాకేజీలు దీనిని డిఫాల్ట్గా ఉపయోగిస్తాయి. ఇది ఎలా సమర్థించబడుతోంది మరియు అన్ని సందర్భాల్లోనూ చాలా తీవ్రమైన ప్రశ్న.
కాబట్టి, స్టర్జెస్ ఫార్ములా దేనిపై ఆధారపడి ఉంటుంది?
ద్విపద పంపిణీని పరిగణించండి)