خوارزمية لبناء سلسلة تباين بفواصل زمنية متساوية.

إرسال عملك الجيد في قاعدة المعرفة أمر بسيط. استخدم النموذج أدناه

سيكون الطلاب وطلاب الدراسات العليا والعلماء الشباب الذين يستخدمون قاعدة المعرفة في دراساتهم وعملهم ممتنين جدًا لك.

نشر على http://www.allbest.ru/

مهمة1

تتوفر البيانات التالية عن أجور الموظفين في المؤسسة:

الجدول 1.1

مقدار الأجور بالشروط التقليدية. عرين. وحدات

مطلوب إنشاء سلسلة توزيع فاصلة يمكن من خلالها العثور عليها؛

1) متوسط ​​الراتب.

2) متوسط ​​الانحراف الخطي.

4) الانحراف المعياري.

5) نطاق الاختلاف.

6) معامل التذبذب.

7) معامل التباين الخطي.

8) معامل الاختلاف البسيط.

10) الوسيط.

11) معامل عدم التماثل.

12) مؤشر عدم تناسق بيرسون؛

13) معامل التفرطح.

حل

كما تعلم، يتم ترتيب الخيارات (القيم المعترف بها) بترتيب تصاعدي لتكوينها سلسلة الاختلاف المنفصلة مع عدد كبير الخيار (أكثر من 10)، حتى في حالة الاختلاف المنفصل، يتم إنشاء سلسلة الفاصل الزمني.

إذا تم تجميع سلسلة الفاصل الزمني بفواصل زمنية زوجية، فسيتم تقسيم نطاق التباين على العدد المحدد من الفواصل الزمنية. علاوة على ذلك، إذا كانت القيمة الناتجة عددًا صحيحًا ولا لبس فيه (وهو أمر نادر)، فمن المفترض أن يكون طول الفاصل الزمني مساويًا لهذا الرقم. في حالات أخرى أنتجت التقريب بالضرورة الخامس جانب يزيد، لذا ل الرقم الأخير المتبقي كان زوجيًا. ومن الواضح أنه مع زيادة طول الفاصل الزمني، فإن نطاق التباين بمقدار يساوي حاصل ضرب عدد الفواصل الزمنية: بالفرق بين الطول المحسوب والطول الأولي للفاصل الزمني

أ) إذا كان حجم التوسع في نطاق التباين ضئيلا، فإنه إما يضاف إلى أكبر قيمة أو يطرح من أصغر قيمة للخاصية؛

ب) إذا كان حجم التوسع في نطاق التباين ملحوظًا، فمن أجل تجنب الخلط بين مركز النطاق، يتم تقسيمه تقريبًا إلى النصف عن طريق إضافة القيم الأكبر والطرح من أصغر قيم في نفس الوقت المميز.

إذا تم تجميع سلسلة فواصل زمنية بفواصل زمنية غير متساوية، فسيتم تبسيط العملية، ولكن لا يزال من الضروري التعبير عن طول الفواصل الزمنية كرقم بآخر رقم زوجي، مما يبسط بشكل كبير الحسابات اللاحقة للخصائص العددية.

30 هو حجم العينة

لنقم بإنشاء سلسلة توزيع بفاصل زمني باستخدام صيغة Sturges:

ك = 1 + 3.32*سجل ن،

ك - عدد المجموعات؛

ك = 1 + 3.32*ل 30 = 5.91=6

نجد نطاق الخاصية - أجور العاملين في المؤسسة - (x) باستخدام الصيغة

R= xmax - xmin والقسمة على 6؛ ص = 195-112 = 83

ثم سيكون طول الفاصل الزمني لحارة=83:6=13.83

بداية الفترة الأولى ستكون 112. إضافة إلى 112 ل ras = 13.83، نحصل على قيمته النهائية 125.83، وهي أيضًا بداية الفترة الثانية، إلخ. نهاية الشوط الخامس - 195.

عند العثور على الترددات، ينبغي الاسترشاد بالقاعدة: "إذا كانت قيمة الميزة تتزامن مع حدود الفاصل الداخلي، فيجب أن تعزى إلى الفاصل الزمني السابق".

نحصل على سلسلة فاصلة من الترددات والترددات التراكمية.

الجدول 1.2

لذلك، 3 موظفين لديهم راتب. الرسوم من 112 إلى 125.83 وحدة نقدية تقليدية. أعلى راتب الرسوم من 181.15 إلى 195 وحدة نقدية تقليدية. 6 موظفين فقط.

لحساب الخصائص العددية، نقوم بتحويل سلسلة الفترات إلى سلسلة منفصلة، ​​مع أخذ منتصف الفترات كخيار:

الجدول 1.3

14131,83

استخدام صيغة الوسط الحسابي المرجح

الوحدات النقدية التقليدية

متوسط ​​الانحراف الخطي:

حيث xi هي قيمة الخاصية التي تتم دراستها للوحدة i من السكان،

متوسط ​​قيمة الصفة المدروسة.

نشر على http://www.allbest.ru/

تم النشر على http://www.allbest.ru/

الوحدات النقدية التقليدية

الانحراف المعياري:

تشتت:

النطاق النسبي للتباين (معامل التذبذب): ج= ص:،

الانحراف الخطي النسبي:س = ل:

معامل الاختلاف: الخامس = ص:

ويبين معامل التذبذب التذبذب النسبي للقيم المتطرفة لخاصية ما حول الوسط الحسابي، ويميز معامل التباين درجة وتجانس السكان.

ج= ر: = 83 / 159.485*100% = 52.043%

وبالتالي فإن الفرق بين القيم المتطرفة هو 5.16% (=94.84%-100%) أقل من متوسط ​​راتب الموظفين في المؤسسة.

ف = ل: = 17.765/ 159.485*100% = 11.139%

الخامس = ص: = 21.704/ 159.485*100% = 13.609%

- أن يكون معامل التباين أقل من 33% مما يدل على تباين ضعيف في أجور العاملين في المنشأة أي أجور العاملين في المنشأة. أن متوسط ​​القيمة هو سمة نموذجية لأجور العمال (السكان متجانسون).

في سلسلة التوزيع الفاصل موضةتحددها الصيغة -

تكرار الفاصل الزمني المشروط، أي الفاصل الذي يحتوي على أكبر عدد من الخيارات؛

تردد الفاصل الزمني الذي يسبق المشروط؛

تردد الفاصل الزمني بعد مشروط؛

طول الفاصل الزمني مشروط؛

الحد الأدنى للفاصل المشروط.

لتحديد الوسطاءفي السلسلة الفاصلة نستخدم الصيغة

أين هو التكرار التراكمي (التراكمي) للفاصل الزمني الذي يسبق الوسيط؛

الحد الأدنى للفاصل الزمني المتوسط؛

تردد الفاصل الزمني المتوسط؛

طول الفاصل الزمني المتوسط.

الفاصل الزمني المتوسط- الفاصل الزمني الذي يتجاوز تردده المتراكم (=3+3+5+7) نصف مجموع الترددات - (153.49; 167.32).

دعونا نحسب عدم التماثل والتفرطح، وسنقوم بإنشاء ورقة عمل جديدة لهما:

الجدول 1.4

بيانات واقعية

بيانات الحساب

دعونا نحسب لحظة الترتيب الثالث

ولذلك، فإن عدم التماثل يساوي

منذ 0.3553 0.25، يعتبر عدم التماثل كبيرًا.

دعونا نحسب لحظة الترتيب الرابع

وبالتالي فإن التفرطح يساوي

لأن< 0, то эксцесс является плосковершинным.

يمكن تحديد درجة عدم التماثل باستخدام معامل عدم التماثل بيرسون (As): قيمة دوران عينة التذبذب

أين هو الوسط الحسابي لسلسلة التوزيع؟ -- موضة؛ -- الانحراف المعياري.

مع التوزيع المتماثل (العادي) = Mo، فإن معامل عدم التماثل يكون صفرًا. إذا كان As > 0، فهذا يعني أن هناك المزيد من الوضع، وبالتالي، يوجد عدم تناسق أيمن.

كما لو< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

التوزيع غير متماثل، ولكن لديه عدم تناسق في الجانب الأيسر.

مهمة 2

ما هو حجم العينة بحيث مع الاحتمال 0.954 لا يتجاوز خطأ العينة 0.04 إذا علم من المسوحات السابقة أن التباين هو 0.24؟

حل

يتم حساب حجم العينة لأخذ العينات غير التكرارية باستخدام الصيغة:

t - معامل الثقة (مع احتمال 0.954 يساوي 2.0؛ يتم تحديده من جداول التكاملات الاحتمالية)،

y2=0.24 - الانحراف المعياري؛

10.000 شخص - حجم العينة؛

Dx = 0.04 - الحد الأقصى لخطأ متوسط ​​العينة.

وباحتمال 95.4% يمكن القول أن حجم العينة، مع ضمان خطأ نسبي لا يزيد عن 0.04، ينبغي أن لا يقل عن 566 أسرة.

مهمة3

البيانات التالية متاحة عن الدخل من الأنشطة الرئيسية للمؤسسة، مليون روبل.

لتحليل سلسلة من الديناميكيات، حدد المؤشرات التالية:

1) السلسلة والأساسية:

الزيادات المطلقة

معدلات النمو؛

معدل النمو؛

2) متوسط

مستوى صف الديناميكيات؛

الزيادة المطلقة

معدل النمو؛

معدل الزيادة؛

3) القيمة المطلقة للزيادة 1%.

حل

1. الزيادة المطلقة (دذ)- هذا هو الفرق بين المستوى التالي من السلسلة والمستوى السابق (أو الأساسي):

السلسلة: DN = يي - يي-1،

الأساسية: DN = يي - y0،

уi - مستوى الصف،

ط - رقم مستوى الصف،

y0 - مستوى سنة الأساس.

2. معدل النمو (تو)هي نسبة المستوى اللاحق للسلسلة والمستوى السابق (أو سنة الأساس 2001):

السلسلة: تو =؛

الأساسية: تو =

3. معدل النمو (تد) هي نسبة النمو المطلق إلى المستوى السابق، معبراً عنها بنسبة مئوية.

السلسلة: تو =؛

الأساسية: تو =

4. القيمة المطلقة للزيادة 1% (أ)- هذه هي نسبة النمو المطلق للسلسلة إلى معدل النمو، معبرًا عنها بنسبة مئوية.

أ =

متوسط ​​مستوى الصفتحسب باستخدام صيغة المتوسط ​​الحسابي.

متوسط ​​مستوى الدخل من الأنشطة الأساسية لمدة 4 سنوات:

متوسط ​​الزيادة المطلقةتحسب بواسطة الصيغة:

حيث n هو عدد مستويات السلسلة

في المتوسط، ارتفع الدخل من الأنشطة الأساسية خلال العام بمقدار 3.333 مليون روبل.

متوسط ​​معدل النمو السنويمحسوبة باستخدام صيغة المتوسط ​​الهندسي:

уn هو المستوى الأخير من الصف،

y0 هو المستوى الأولي للسلسلة.

تو = 100% = 102.174%

متوسط ​​معدل النمو السنويتحسب بواسطة الصيغة:

تي؟ = تو - 100% = 102.74% - 100% = 2.74%.

وهكذا، في المتوسط، خلال العام، ارتفع الدخل من الأنشطة الرئيسية للمؤسسة بنسبة 2.74٪.

مهامأ4

احسب:

1. مؤشرات الأسعار الفردية.

2. مؤشر حجم التداول العام.

3. الرقم القياسي للأسعار الإجمالية.

4. المؤشر الإجمالي للحجم المادي لمبيعات البضائع؛

5. تحليل الزيادة المطلقة في قيمة حجم التداول التجاري حسب العوامل (بسبب التغيرات في الأسعار وعدد السلع المباعة)؛

6. استخلاص استنتاجات موجزة عن جميع المؤشرات التي تم الحصول عليها.

حل

1. وفقًا للشرط، بلغت مؤشرات الأسعار الفردية للمنتجات أ، ب، ج -

آي بي إيه=1.20; إيرب=1.15; إيرب=1.00.

2. سنقوم بحساب مؤشر حجم التداول العام باستخدام الصيغة:

أنا ث = = 1470/1045*100% = 140.67%

ارتفع حجم التداول بنسبة 40.67% (140.67%-100%).

وفي المتوسط، ارتفعت أسعار السلع الأساسية بنسبة 10.24%.

مقدار التكاليف الإضافية للمشترين من ارتفاع الأسعار:

ث(ع) = ؟ ص1q1 - ؟ p0q1 = 1470 - 1333.478 = 136.522 مليون روبل.

ونتيجة لارتفاع الأسعار، اضطر المشترون إلى إنفاق 136.522 مليون روبل إضافية.

4. المؤشر العام للحجم المادي لحجم التداول التجاري:

وارتفع حجم التداول الفعلي بنسبة 27.61%.

5. دعونا نحدد التغير الإجمالي في حجم التداول في الفترة الثانية مقارنة بالفترة الأولى:

ث = 1470-1045 = 425 مليون روبل.

بسبب تغيرات الأسعار:

W(ع) = 1470 - 1333.478 = 136.522 مليون روبل.

بسبب التغيرات في الحجم المادي:

ث(ف) = 1333.478 - 1045 = 288.478 مليون روبل.

وارتفع حجم مبيعات البضائع بنسبة 40.67٪. ارتفعت أسعار 3 سلع في المتوسط ​​بنسبة 10.24%. وارتفع حجم التداول الفعلي بنسبة 27.61%.

بشكل عام، ارتفع حجم المبيعات بمقدار 425 مليون روبل، بما في ذلك بسبب ارتفاع الأسعار بنسبة 136.522 مليون روبل، وبسبب زيادة حجم المبيعات - بمقدار 288.478 مليون روبل.

مهمة5

البيانات التالية متاحة لـ 10 مصانع في صناعة واحدة.

رقم النبات

إخراج المنتج، ألف جهاز كمبيوتر شخصى. (X)

بناءً على البيانات المقدمة:

I) لتأكيد أحكام التحليل المنطقي حول وجود ارتباط خطي بين خاصية العامل (حجم المنتج) والخاصية الناتجة (استهلاك الكهرباء)، ورسم البيانات الأولية على الرسم البياني لحقل الارتباط واستخلاص استنتاجات حول النموذج العلاقة، تشير إلى صيغتها؛

2) تحديد معلمات معادلة الاتصال ورسم الخط النظري الناتج على الرسم البياني لحقل الارتباط؛

3) حساب معامل الارتباط الخطي،

4) شرح معنى المؤشرات التي تم الحصول عليها في الفقرتين 2) و3)؛

5) باستخدام النموذج الناتج، قم بالتنبؤ باستهلاك الطاقة المحتمل في مصنع يبلغ حجم إنتاجه 4.5 ألف وحدة.

حل

سيتم الإشارة إلى بيانات السمة - حجم الإنتاج (العامل)، بواسطة xi؛ علامة - استهلاك الكهرباء (النتيجة) من خلال يي؛ يتم رسم النقاط ذات الإحداثيات (x، y) في حقل الارتباط OXY.

تقع نقاط مجال الارتباط على طول خط مستقيم معين. ولذلك فإن العلاقة خطية، وسنبحث عن معادلة الانحدار على شكل خط مستقيم Уx=ax+b. للعثور عليه نستخدم نظام المعادلات العادية:

لنقم بإنشاء جدول حسابي.

باستخدام المتوسطات التي تم العثور عليها، نقوم بتكوين نظام وحله فيما يتعلق بالمعلمات a وb:

لذلك، نحصل على معادلة الانحدار لـ y على x: = 3.57692 x + 3.19231

نحن نبني خط الانحدار في مجال الارتباط.

باستبدال قيم x من العمود 2 في معادلة الانحدار، نحصل على القيم المحسوبة (العمود 7) ونقارنها ببيانات y التي تنعكس في العمود 8. وبالمناسبة، يتم تأكيد صحة الحسابات من خلال تزامن متوسط ​​قيم y و.

معامل في الرياضيات او درجةالارتباط الخطييقيم مدى قرب العلاقة بين الخصائص x و y ويتم حسابه باستخدام الصيغة

يصف المعامل الزاوي للانحدار المباشر a (عند x) اتجاه المحددالتبعياتالعلامات: بالنسبة لـ a>0 فهي نفسها بالنسبة لـ a<0- противоположны. انها مطلقة القيمة - مقياس التغير في الخاصية الناتجة عندما تتغير خاصية العامل بوحدة القياس.

يكشف المدى الحر للانحدار المباشر عن الاتجاه، وقيمته المطلقة هي مقياس كمي لتأثير جميع العوامل الأخرى على الخاصية الناتجة.

لو< 0، ثم يتم استخدام مورد العامل المميز لكائن فردي مع أقل ومتى>0 معكفاءة أكبر من المتوسط ​​لمجموعة الكائنات بأكملها.

دعونا نجري تحليل ما بعد الانحدار.

إن معامل الانحدار المباشر عند x يساوي 3.57692 >0، وبالتالي، مع زيادة (نقص) إنتاج الإنتاج، يزيد (نقصان) استهلاك الكهرباء. زيادة حجم الإنتاج بمقدار ألف وحدة. يعطي متوسط ​​زيادة في استهلاك الكهرباء بمقدار 3.57692 ألف كيلووات ساعة.

2. الحد الحر للانحدار المباشر يساوي 3.19231، وبالتالي فإن تأثير العوامل الأخرى يزيد من تأثير مخرجات المنتج على استهلاك الكهرباء بالقيمة المطلقة بمقدار 3.19231 ألف كيلووات ساعة.

3. يكشف معامل الارتباط 0.8235 عن اعتماد وثيق للغاية لاستهلاك الكهرباء على مخرجات المنتج.

من السهل عمل تنبؤات باستخدام معادلة نموذج الانحدار. وللقيام بذلك يتم استبدال قيم x - حجم الإنتاج - في معادلة الانحدار ويتم التنبؤ باستهلاك الكهرباء. في هذه الحالة، يمكن أخذ قيم x ليس فقط ضمن نطاق معين، ولكن أيضًا خارجه.

لنقم بالتنبؤ باستهلاك الطاقة المحتمل في مصنع يبلغ حجم إنتاجه 4.5 ألف وحدة.

3.57692*4.5 + 3.19231= 19.288 45 ألف كيلووات ساعة.

قائمة المصادر المستخدمة

1. زاخارينكوف إس.إن. الإحصاءات الاجتماعية والاقتصادية: كتاب مدرسي ودليل عملي. - مينيسوتا: جامعة بوسطن، 2002.

2. إفيموفا إم آر، بتروفا إي في، روميانتسيف في إن. النظرية العامة للإحصاء. - م: إنفرا - م، 2000.

3. إليسيفا آي. إحصائيات. - م: بروسبكت، 2002.

4. النظرية العامة للإحصاء / تحت العام. إد. عمر الفاروق. باشينا، أ.أ. سبيرينا. - م.: المالية والإحصاء، 2000.

5. الإحصاءات الاجتماعية والاقتصادية: تعليمية وعملية. بدل / زاخارينكوف س.ن. وآخرون - مينيسوتا: جامعة يريفان الحكومية، 2004.

6. الإحصاءات الاجتماعية والاقتصادية: كتاب مدرسي. مخصص. / إد. نيستيروفيتش إس.آر. - مينيسوتا: جامعة جنوب الأورال، 2003.

7. تيسليوك آي إي، تارلوفسكايا في إيه، تيرليزينكو إن إحصائيات - مينسك، 2000.

8. خارتشينكو إل.بي. إحصائيات. - م: إنفرا - م، 2002.

9. خارشينكو إل.بي.، دولجينكوفا في.جي.، إيونين في.جي. إحصائيات. - م: إنفرا - م، 1999.

10. الإحصاءات الاقتصادية / إد. يو.ن. إيفانوفا - م.، 2000.

تم النشر على موقع Allbest.ru

...

وثائق مماثلة

    حساب الوسط الحسابي لسلسلة التوزيع الفاصلة. تحديد المؤشر العام للحجم المادي لحجم التداول التجاري. تحليل التغير المطلق في التكلفة الإجمالية للإنتاج بسبب التغيرات في الحجم المادي. حساب معامل الاختلاف.

    تمت إضافة الاختبار في 19/07/2010

    جوهر تجارة الجملة والتجزئة والتجارة العامة. صيغ لحساب مؤشرات دوران الفردية والإجمالية. حساب خصائص سلسلة التوزيع الفاصلة - الوسط الحسابي، المنوال والوسيط، معامل الاختلاف.

    تمت إضافة الدورة التدريبية في 05/10/2013

    حساب حجم المبيعات المخططة والفعلية، ونسبة تنفيذ الخطة، والتغير المطلق في حجم المبيعات. تحديد النمو المطلق ومتوسط ​​معدلات النمو وزيادة الدخل النقدي. حساب المتوسطات الهيكلية: الأوضاع، المتوسطات، الأرباع.

    تمت إضافة الاختبار في 24/02/2012

    سلسلة الفاصل الزمني لتوزيع البنوك حسب حجم الربح. إيجاد المنوال والوسيط لسلسلة التوزيع الفاصلة الناتجة باستخدام طريقة رسومية وعن طريق الحسابات. حساب خصائص سلسلة التوزيع الفاصل. حساب الوسط الحسابي.

    تمت إضافة الاختبار في 15/12/2010

    صيغ لتحديد القيم المتوسطة لسلسلة الفاصل الزمني - الأوضاع، والمتوسطات، والتشتت. حساب المؤشرات التحليلية لسلسلة الديناميكيات باستخدام المخططات المتسلسلة والأساسية ومعدلات النمو والزيادات. مفهوم المؤشر الموحد للتكاليف والأسعار والنفقات ودورانها.

    تمت إضافة الدورة التدريبية في 27/02/2011

    المفهوم والغرض والنظام وقواعد بناء سلسلة التباين. تحليل تجانس البيانات في المجموعات. مؤشرات الاختلاف (التقلب) للسمة. تحديد متوسط ​​الانحراف الخطي والمربع ومعامل التذبذب والتباين.

    تمت إضافة الاختبار في 26/04/2010

    مفهوم الوضع والوسيط كخصائص نموذجية وترتيب ومعايير تحديدهما. العثور على المنوال والوسيط في سلسلة الاختلافات المنفصلة والفاصلة. الربعيات والأعشار كخصائص إضافية لسلسلة إحصائية مختلفة.

    تمت إضافة الاختبار في 11/09/2010

    بناء سلسلة التوزيع الفاصلة على أساس خصائص التجميع. خصائص انحراف التوزيع التكراري عن الشكل المتماثل وحساب التفرطح ومؤشرات عدم التماثل. تحليل مؤشرات الميزانية العمومية أو بيان الدخل.

    تمت إضافة الاختبار في 19/10/2014

    تحويل السلاسل التجريبية إلى سلاسل منفصلة وفاصلة. تحديد القيمة المتوسطة لسلسلة منفصلة باستخدام خصائصها. الحساب باستخدام سلسلة منفصلة من مؤشرات الوضع والوسيط والتباين (التشتت والانحراف ومعامل التذبذب).

    تمت إضافة الاختبار في 17/04/2011

    بناء سلسلة إحصائية لتوزيع المنظمات. التحديد الرسومي للوضع والقيم المتوسطة. تقارب الارتباط باستخدام معامل التحديد. تحديد خطأ العينة لمتوسط ​​عدد الموظفين.

العمل المختبري رقم 1

حسب الإحصائيات الرياضية

الموضوع: المعالجة الأولية للبيانات التجريبية

3. سجل بالنقاط. 1

5. أسئلة الاختبار.. 2

6. منهجية أداء العمل المخبري.. 3

الهدف من العمل

اكتساب مهارات المعالجة الأولية للبيانات التجريبية باستخدام أساليب الإحصاء الرياضي.

استنادا إلى مجمل البيانات التجريبية، أكمل المهام التالية:

التمرين 1.بناء سلسلة توزيع التباين الفاصل.

المهمة 2.أنشئ رسمًا بيانيًا لترددات سلسلة تباين الفاصل الزمني.

المهمة 3.إنشاء دالة توزيع تجريبية ورسم رسم بياني.

أ) الوضع والوسيط.

ب) اللحظات الأولية المشروطة؛

ج) متوسط ​​العينة؛

د) تباين العينة، تصحيح تباين السكان، تصحيح الانحراف المعياري؛

ه) معامل الاختلاف.

و) عدم التماثل.

ز) التفرطح.

المهمة 5.تحديد حدود القيم الحقيقية للخصائص العددية للمتغير العشوائي محل الدراسة بثبات معين.

المهمة 6.التفسير المبني على المحتوى لنتائج المعالجة الأولية وفقا لشروط المهمة.

يسجل في النقاط

المهام 1-56 نقاط

المهمة 62 نقطة

الدفاع عن العمل المختبري(مقابلة شفهية حول أسئلة الاختبار والعمل المخبري) - 2 نقطة

يجب تقديم العمل كتابيًا على أوراق مقاس A4 ويتضمن:

1) صفحة العنوان (الملحق 1)

2) البيانات الأولية.

3) تقديم العمل حسب العينة المحددة .

4) نتائج الحساب (يتم إجراؤها يدويًا و/أو باستخدام MS Excel) بالترتيب المحدد.

5) الاستنتاجات - تفسير هادف لنتائج المعالجة الأولية وفقًا لشروط المهمة.

6) المقابلة الشفهية حول أسئلة العمل والرقابة.



5. أسئلة الاختبار


منهجية أداء العمل المختبري

المهمة 1. إنشاء سلسلة توزيع تباينية بفاصل زمني

من أجل تقديم البيانات الإحصائية في شكل سلسلة متغيرة مع خيارات متباعدة بشكل متساو، من الضروري:

1. في جدول البيانات الأصلي، ابحث عن القيم الأصغر والأكبر.

2. تحديد نطاق الاختلاف :

3. تحديد طول الفاصل الزمني h، إذا كانت العينة تحتوي على ما يصل إلى 1000 بيانات، استخدم الصيغة: حيث n - حجم العينة - كمية البيانات في العينة؛ لإجراء العمليات الحسابية تأخذ LGN).

يتم تقريب النسبة المحسوبة إلى قيمة عددية مريحة .

4. لتحديد بداية الفترة الأولى لعدد زوجي من الفترات، يوصى بأخذ القيمة؛ ولعدد فردي من الفترات.

5. اكتب فترات التجميع ورتبها بترتيب تصاعدي للحدود

, ,………., ,

أين هو الحد الأدنى للفاصل الزمني الأول. يتم أخذ رقم مناسب لا يزيد عن , ويجب ألا يقل الحد الأعلى للفاصل الزمني الأخير عن . يوصى بأن تحتوي الفترات على القيم الأولية للمتغير العشوائي وأن يتم فصلها عنها 5 إلى 20فترات.

6. قم بتدوين البيانات الأولية على فترات التجميع، أي. استخدم الجدول المصدر لحساب عدد قيم المتغيرات العشوائية التي تقع ضمن الفواصل الزمنية المحددة. إذا تزامنت بعض القيم مع حدود الفترات، ثم تُنسب إما إلى الفترة السابقة فقط أو إلى الفترة اللاحقة فقط.

ملاحظة 1.لا يجب أن تكون الفترات متساوية في الطول. في المناطق التي تكون فيها القيم أكثر كثافة، يكون من الملائم أكثر أخذ فترات زمنية أصغر وقصيرة، وحيث توجد فترات زمنية أقل تكرارًا، يتم استخدام فترات أكبر.

ملاحظة 2إذا تم الحصول على قيم "صفر" أو قيم ترددية صغيرة لبعض القيم، فمن الضروري إعادة تجميع البيانات، وتوسيع الفواصل الزمنية (زيادة الخطوة).

وجود بيانات المراقبة الإحصائية المتاحة التي تميز ظاهرة معينة، أولا وقبل كل شيء، من الضروري تنظيمها، أي. إعطاء طابع منهجي

إحصائي إنجليزي. قال UJReichman مجازيًا عن المجموعات المضطربة أن مواجهة كتلة من البيانات غير المعممة تعادل الموقف الذي يتم فيه إلقاء شخص في غابة بدون بوصلة. ما هو تنظيم البيانات الإحصائية في شكل سلسلة التوزيع؟

يتم ترتيب سلسلة التوزيعات الإحصائية المجاميع الإحصائية (الجدول 17). أبسط نوع من سلسلة التوزيع الإحصائي هو سلسلة مرتبة، أي. سلسلة من الأرقام بترتيب تصاعدي أو تنازلي، مع اختلاف خصائصها. مثل هذه السلسلة لا تسمح للمرء بالحكم على الأنماط المتأصلة في البيانات الموزعة: ما هي القيمة التي تم تجميع غالبية المؤشرات فيها، وما هي الانحرافات الموجودة عن هذه القيمة؛ وكذلك صورة التوزيع العام. لهذا الغرض، يتم تجميع البيانات، مما يوضح عدد مرات حدوث الملاحظات الفردية في العدد الإجمالي (المخطط 1 أ 1).

. الجدول 17

. منظر عام لسلسلة التوزيع الإحصائي

. المخطط 1. المخطط الإحصائيسلسلة التوزيع

يسمى توزيع الوحدات السكانية حسب الخصائص التي ليس لها تعبير كمي سلسلة منسوبة(على سبيل المثال، توزيع المؤسسات حسب منطقة إنتاجها)

تسمى سلسلة توزيع الوحدات السكانية حسب الخصائص بتعبير كمي سلسلة الاختلاف. وفي مثل هذه المتسلسلة تكون قيمة الخاصية (الخيارات) بترتيب تصاعدي أو تنازلي

في سلسلة التوزيع المتغير، يتم التمييز بين عنصرين: المتغير والتردد . خيار- هذا معنى منفصل لخصائص التجميع تكرار- رقم يوضح عدد مرات حدوث كل خيار

في الإحصاء الرياضي، يتم حساب عنصر آخر من سلسلة التباين - جزئيا. يتم تعريف الأخير على أنه نسبة تكرار الحالات في فترة زمنية معينة إلى المجموع الكلي للترددات؛ يتم تحديد الجزء في كسور الوحدة، النسبة المئوية (٪) في جزء في المليون (٪ o)

وبالتالي، فإن سلسلة توزيع التباين هي سلسلة يتم فيها ترتيب الخيارات بترتيب تصاعدي أو تنازلي، مع الإشارة إلى تردداتها أو تردداتها. سلسلة التباين منفصلة (فواصل) وفترات أخرى (مستمرة).

. سلسلة الاختلاف المنفصلة- هذه هي سلاسل التوزيع التي يمكن أن يأخذ فيها المتغير كقيمة خاصية كمية قيمة معينة فقط. تختلف الخيارات عن بعضها البعض بوحدة واحدة أو أكثر

وبالتالي، لا يمكن التعبير عن عدد الأجزاء التي ينتجها عامل معين في كل نوبة عمل إلا برقم واحد محدد (6، 10، 12، إلخ). مثال على سلسلة التباين المنفصلة يمكن أن يكون توزيع العمال حسب عدد الأجزاء المنتجة (الجدول 18 18).

. الجدول 18

. توزيع سلسلة منفصلة _

. سلسلة التباين الفاصلة (المستمرة).- سلسلة التوزيع هذه التي يتم فيها إعطاء قيمة الخيارات في شكل فترات، أي. يمكن أن تختلف قيم الميزات عن بعضها البعض بمقدار صغير بشكل تعسفي. عند إنشاء سلسلة تباين لخصائص المتغير NEP، من المستحيل الإشارة إلى كل قيمة للمتغير، لذلك يتم توزيع السكان على فترات زمنية. هذا الأخير يمكن أن يكون متساويا أو غير متساو. يشار إلى الترددات أو الترددات لكل منها (الجدول 1 9 19).

في سلسلة التوزيع الفاصلة ذات الفترات غير المتساوية، يتم حساب الخصائص الرياضية مثل كثافة التوزيع وكثافة التوزيع النسبية على فترة زمنية معينة. يتم تحديد الخاصية الأولى بنسبة التردد إلى قيمة نفس الفاصل الزمني، والثانية - بنسبة التردد إلى قيمة نفس الفاصل الزمني. في المثال أعلاه، كثافة التوزيع في الفترة الأولى ستكون 3: 5 = 0.6، والكثافة النسبية في هذه الفترة هي 7.5: 5 = 1.55%.

. الجدول 19

. سلسلة التوزيع الفاصلة _

إحصائيات الرياضيات- فرع من الرياضيات مخصص للأساليب الرياضية لمعالجة وتنظيم واستخدام البيانات الإحصائية للاستنتاجات العلمية والعملية.

3.1. المفاهيم الأساسية للإحصاء الرياضي

في المشاكل الطبية والبيولوجية، غالبا ما يكون من الضروري دراسة توزيع خاصية معينة لعدد كبير جدا من الأفراد. هذه السمة لها معاني مختلفة لمختلف الأفراد، لذلك فهي متغير عشوائي. على سبيل المثال، أي دواء علاجي له فعالية مختلفة عند تطبيقه على مرضى مختلفين. ومع ذلك، من أجل الحصول على فكرة عن فعالية هذا الدواء، ليست هناك حاجة لتطبيقه الجميعمريض. من الممكن تتبع نتائج استخدام الدواء لمجموعة صغيرة نسبيًا من المرضى، واستنادًا إلى البيانات التي تم الحصول عليها، تحديد السمات الأساسية (الفعالية، وموانع الاستعمال) لعملية العلاج.

سكان- مجموعة من العناصر المتجانسة تتميز ببعض الصفات المراد دراستها. هذه العلامة مستمرمتغير عشوائي مع كثافة التوزيع و (خ).

على سبيل المثال، إذا كنا مهتمين بانتشار مرض ما في منطقة معينة، فإن إجمالي عدد السكان هو إجمالي سكان المنطقة. إذا أردنا معرفة مدى قابلية الرجال والنساء للإصابة بهذا المرض بشكل منفصل، فيجب علينا أن نأخذ بعين الاعتبار مجموعتين عامتين من السكان.

لدراسة خصائص عامة السكان، يتم اختيار جزء معين من عناصره.

عينة- جزء من عامة السكان المختارين للفحص (العلاج).

إذا لم يسبب هذا أي ارتباك، فسيتم استدعاء العينة باسم مجموعة من الكائنات،المختارة للمسح، و مجمل

قيمالخاصية المدروسة التي تم الحصول عليها أثناء الفحص. يمكن تمثيل هذه القيم بعدة طرق.

سلسلة إحصائية بسيطة -قيم الخاصية محل الدراسة، مسجلة بالترتيب الذي تم الحصول عليها به.

ويرد في الجدول مثال لسلسلة إحصائية بسيطة تم الحصول عليها عن طريق قياس سرعة الموجة السطحية (م/ث) في جلد الجبهة لدى 20 مريضًا. 3.1.

الجدول 3.1.سلسلة إحصائية بسيطة

تعتبر السلسلة الإحصائية البسيطة هي الطريقة الرئيسية والأكثر اكتمالا لتسجيل نتائج الاستطلاع. يمكن أن تحتوي على مئات العناصر. من الصعب جدًا إلقاء نظرة على مثل هذا المجمل بنظرة واحدة. ولذلك، عادة ما يتم تقسيم العينات الكبيرة إلى مجموعات. وللقيام بذلك يتم تقسيم مساحة التغير في الخاصية إلى عدة (N) فتراتعرض متساوٍ وحساب التكرارات النسبية (n/n) للسمة التي تقع ضمن هذه الفواصل الزمنية. عرض كل فاصل هو:

الحدود الفاصلة لها المعاني التالية:

إذا كان أي عنصر عينة هو الحد بين فترتين متجاورتين، فسيتم تصنيفه على أنه غادرفاصلة. تسمى البيانات المجمعة بهذه الطريقة سلسلة إحصائية الفاصلة.

هو جدول يوضح فترات قيم السمات والتكرارات النسبية لحدوث السمة خلال هذه الفواصل الزمنية.

في حالتنا، يمكننا تكوين، على سبيل المثال، السلسلة الإحصائية الفاصلة التالية (N = 5، د= 4)، الجدول. 3.2.

الجدول 3.2.السلسلة الإحصائية الفاصلة

وهنا تتضمن الفترة 28-32 قيمتين تساوي 28 (الجدول 3.1)، وتتضمن الفترة 32-36 القيم 32 و33 و34 و35.

يمكن تصوير سلسلة إحصائية فاصلة بيانيا. للقيام بذلك، يتم رسم فترات من قيم السمات على طول محور الإحداثي السيني وعلى كل منها، كما هو الحال على القاعدة، يتم بناء مستطيل بارتفاع يساوي التردد النسبي. يسمى الرسم البياني الشريطي الناتج الرسم البياني.

أرز. 3.1.شريط الرسم البياني

في الرسم البياني، تظهر الأنماط الإحصائية لتوزيع الخاصية بوضوح تام.

مع حجم عينة كبير (عدة آلاف) وعرض أعمدة صغير، يكون شكل الرسم البياني قريبًا من شكل الرسم البياني كثافة التوزيعلافتة.

يمكن تحديد عدد أعمدة الرسم البياني باستخدام الصيغة التالية:

يعد إنشاء الرسم البياني يدويًا عملية طويلة. ولذلك، تم تطوير برامج الكمبيوتر لبنائها تلقائيا.

3.2. الخصائص الرقمية للسلاسل الإحصائية

تستخدم العديد من الإجراءات الإحصائية تقديرات العينات لتوقعات السكان وتباينهم (أو MSE).

متوسط ​​العينة(X) هو الوسط الحسابي لجميع عناصر السلسلة الإحصائية البسيطة:

على سبيل المثال لدينا X= 37.05 (م/ث).

متوسط ​​العينة هوالأفضلتقدير المتوسط ​​العامم.

تباين العينة 2يساوي مجموع مربعات انحرافات العناصر عن متوسط ​​العينة مقسومًا على ن- 1:

في مثالنا، s 2 = 25.2 (م/ث) 2.

يرجى ملاحظة أنه عند حساب تباين العينة، فإن مقام الصيغة ليس حجم العينة n، بل n-1. ويرجع ذلك إلى أنه عند حساب الانحرافات في الصيغة (3.3)، بدلاً من التوقع الرياضي المجهول، يتم استخدام تقديرها - متوسط ​​العينة.

تباين العينة هو الأفضلتقدير التباين العام (σ 2).

الانحراف المعياري للعينة(ق) هو الجذر التربيعي لتباين العينة:

على سبيل المثال لدينا س= 5.02 (م/ث).

انتقائي معدل الجذر التربيعيالانحراف هو أفضل تقدير للانحراف المعياري العام (σ).

مع زيادة غير محدودة في حجم العينة، تميل جميع خصائص العينة إلى الخصائص المقابلة لعامة السكان.

تُستخدم صيغ الكمبيوتر لحساب خصائص العينة. في Excel، تؤدي هذه الحسابات الدالات الإحصائية AVERAGE وVARIANCE. الانحراف المعياري

3.3. التقييم الفاصل

جميع خصائص العينة المتغيرات العشوائية.وهذا يعني أنه بالنسبة لعينة أخرى من نفس الحجم، فإن قيم خصائص العينة ستكون مختلفة. وبالتالي انتقائية

الخصائص هي فقط التقديراتالخصائص ذات الصلة للسكان.

يتم تعويض عيوب التقييم الانتقائي من خلال تقدير الفاصل الزمني،يمثل الفاصل الرقميداخلها مع احتمال معين بحث وتطويرتم العثور على القيمة الحقيقية للمعلمة المقدرة.

يترك U r - بعض معلمات المجتمع العام (المتوسط ​​العام، التباين العام، وما إلى ذلك).

تقدير الفاصل الزمنيالمعلمة U r تسمى الفاصل الزمني (ش 1، ش 2)،استيفاء الشرط:

ف (ش < Ur < U2) = Рд. (3.5)

احتمالا بحث وتطويرمُسَمًّى احتمال الثقة.

احتمال الثقة Pد - احتمال أن تكون القيمة الحقيقية للكمية المقدرة داخلالفاصل الزمني المحدد.

في هذه الحالة، الفاصل الزمني (ش 1، ش 2)مُسَمًّى فاصل الثقةللمعلمة التي يتم تقديرها.

في كثير من الأحيان، بدلا من احتمال الثقة، يتم استخدام القيمة المرتبطة α = 1 - Р d، وهو ما يسمى مستوى الدلالة او الاهميه.

مستوى الأهميةهو احتمال أن تكون القيمة الحقيقية للمعلمة المقدرة الخارجفاصل الثقة.

في بعض الأحيان يتم التعبير عن α وP d كنسب مئوية، على سبيل المثال، 5% بدلاً من 0.05 و95% بدلاً من 0.95.

في تقدير الفاصل الزمني، حدد أولاً ما هو مناسب احتمال الثقة(عادةً 0.95 أو 0.99)، ثم ابحث عن نطاق القيم المناسب للمعلمة التي يتم تقديرها.

دعونا نلاحظ بعض الخصائص العامة لتقديرات الفاصل الزمني.

1. كلما انخفض مستوى الأهمية (كلما زادت بحث وتطوير)،كلما كان تقدير الفاصل الزمني أوسع. لذلك، إذا كان مستوى دلالة 0.05 فإن التقدير الفاصل للمتوسط ​​العام هو 34.7< م< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < م< 40,25.

2. كلما كان حجم العينة أكبر ن،كلما كان تقدير الفاصل الزمني أضيق مع مستوى الأهمية المحدد. لنفترض مثلا أن 5 هي النسبة المئوية المقدرة للمتوسط ​​العام (β = 0.05) الذي تم الحصول عليه من عينة مكونة من 20 عنصرا، ثم 34.7< م< 39,4.

وبزيادة حجم العينة إلى 80، نحصل على تقدير أكثر دقة عند نفس مستوى الأهمية: 35.5< م< 38,6.

بشكل عام، يتطلب بناء تقديرات الثقة الموثوقة معرفة القانون الذي يتم بموجبه توزيع الخاصية العشوائية المقدرة على السكان. دعونا نلقي نظرة على كيفية إنشاء تقدير الفاصل الزمني المتوسط ​​العامالخصائص التي يتم توزيعها بين السكان حسب طبيعيقانون.

3.4. التقدير الفتري للمتوسط ​​العام لقانون التوزيع الطبيعي

يعتمد إنشاء تقدير فاصل للمتوسط ​​العام M للسكان الذين لديهم قانون التوزيع الطبيعي على الخاصية التالية. لحجم العينات نسلوك

يطيع توزيع الطالب بعدد درجات الحرية ν = ن- 1.

هنا X- متوسط ​​العينة، و س- الانحراف المعياري الانتقائي.

باستخدام جداول توزيع الطلاب أو ما يعادلها على الكمبيوتر، يمكنك العثور على قيمة حدية بحيث تحمل عدم المساواة التالية، مع احتمالية ثقة معينة:

يتوافق هذا عدم المساواة مع عدم المساواة لـ M:

أين ε - نصف عرض فاصل الثقة.

وبالتالي، يتم بناء فاصل الثقة لـ M بالتسلسل التالي.

1. حدد احتمالية الثقة Р d (عادةً 0.95 أو 0.99) ومن أجلها، باستخدام جدول توزيع الطلاب، ابحث عن المعلمة t

2. احسب نصف عرض فاصل الثقة ε:

3. احصل على تقدير فاصل للمتوسط ​​العام مع احتمالية الثقة المحددة:

باختصار هو مكتوب مثل هذا:

وقد تم تطوير إجراءات الكمبيوتر للعثور على تقديرات الفاصل الزمني.

دعونا نشرح كيفية استخدام جدول توزيع الطلاب. يحتوي هذا الجدول على "مدخلين": العمود الأيسر، ويسمى عدد درجات الحرية ν = ن- 1، والخط العلوي هو مستوى الأهمية α. عند تقاطع الصف والعمود المقابلين، ابحث عن معامل الطالب ر.

دعونا نطبق هذه الطريقة على عينتنا. يتم عرض جزء من جدول توزيع الطلاب أدناه.

الجدول 3.3. جزء من جدول توزيع الطلاب

سلسلة إحصائية بسيطة لعينة مكونة من 20 شخصا = 20، ν = 19) معروضة في الجدول. 3.1. بالنسبة لهذه السلسلة، تعطي الحسابات باستخدام الصيغ (3.1-3.3) ما يلي: X= 37,05; س= 5,02.

دعنا نختار α = 0.05 (Р d = 0.95). عند تقاطع الصف "19" والعمود "0.05" نجد ر= 2,09.

دعونا نحسب دقة التقدير باستخدام الصيغة (3.6): ε = 2.09?5.02/l /20 = 2.34.

دعونا ننشئ تقديرًا بفاصل زمني: مع احتمال 95%، فإن المتوسط ​​العام المجهول يحقق المتباينة:

37,05 - 2,34 < م< 37,05 + 2,34, или م= 37.05 ± 2.34 (م/ث)، ر د = 0.95.

3.5. طرق اختبار الفرضيات الإحصائية

الفرضيات الإحصائية

قبل صياغة ما هي الفرضية الإحصائية، فكر في المثال التالي.

لمقارنة طريقتين لعلاج مرض معين، تم اختيار مجموعتين من المرضى تضم كل منهما 20 شخصًا وعلاجهم باستخدام هاتين الطريقتين. لكل مريض تم تسجيله عدد الإجراءات،وبعد ذلك تم تحقيق تأثير إيجابي. وبناء على هذه البيانات، تم العثور على متوسط ​​العينة (X)، وتباينات العينة لكل مجموعة (ق 2)وعينة الانحرافات المعيارية (س).

النتائج معروضة في الجدول. 3.4.

الجدول 3.4

عدد الإجراءات المطلوبة للحصول على تأثير إيجابي هو متغير عشوائي، وجميع المعلومات عنه موجودة حاليًا في العينة المعطاة.

من الطاولة ويبين الشكل 4.3 أن متوسط ​​العينة في المجموعة الأولى أقل منه في المجموعة الثانية. هل هذا يعني أن نفس العلاقة تنطبق على المتوسطات العامة: M1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает الاختبار الإحصائي للفرضيات.

الفرضية الإحصائية- إنه افتراض حول خصائص السكان.

سننظر في الفرضيات حول الخصائص اثنينعامة السكان.

إذا كان لدى السكان مشهورة ومتطابقةتوزيع القيمة التي يتم تقديرها، والافتراضات تتعلق بالقيم بعض المعلمةمن هذا التوزيع، ثم يتم استدعاء الفرضيات حدودي.على سبيل المثال، يتم أخذ عينات من السكان مع القانون العاديالتوزيع والتباين المتساوي. بحاجة لمعرفة ذلك هل هم نفس الشيءالمتوسط ​​العام لهؤلاء السكان.

إذا لم يكن هناك شيء معروف عن قوانين توزيع عموم السكان، فسيتم استدعاء الفرضيات حول خصائصهم غير معلمية.على سبيل المثال، هل هم نفس الشيءقوانين توزيع عموم السكان التي تم سحب العينات منها.

الفرضيات الصفرية والبديلة.

مهمة اختبار الفرضيات. مستوى الأهمية

دعونا نتعرف على المصطلحات المستخدمة عند اختبار الفرضيات.

ح0 - فرضية العدم (فرضية المتشككين) هي فرضية حول عدم وجود اختلافاتبين العينات المقارنة ويعتقد المتشكك أن الاختلافات بين تقديرات العينة التي تم الحصول عليها من نتائج البحث عشوائية؛

ح 1- الفرضية البديلة (فرضية المتفائل) وهي فرضية حول وجود فروق بين العينات المقارنة. يعتقد المتفائل أن الاختلافات بين تقديرات العينة ناتجة عن أسباب موضوعية وتتوافق مع الاختلافات في عموم السكان.

لا يكون اختبار الفرضيات الإحصائية ممكنًا إلا عندما يكون من الممكن بناء بعضها مقاس(المعيار)، قانون التوزيع في حالة العدالة ح 0مشهور. ثم لهذه الكمية يمكننا تحديدها فاصل الثقة،حيث مع احتمال معين بحث وتطويرتنخفض قيمته. يسمى هذا الفاصل المجال الحيوي.إذا وقعت قيمة المحك ضمن المنطقة الحرجة فإن الفرضية مقبولة ن 0.وبخلاف ذلك يتم قبول الفرضية H1.

في الأبحاث الطبية، يتم استخدام P d = 0.95 أو P d = 0.99. تتوافق هذه القيم مستويات الأهميةα = 0.05 أو α = 0.01.

عند اختبار الفرضيات الإحصائيةمستوى الدلالة او الاهميه(α) هو احتمال رفض الفرضية الصفرية عندما تكون صحيحة.

يرجى ملاحظة أن إجراء اختبار الفرضيات يهدف في جوهره إلى تحقيق ذلك كشف الاختلافاتوعدم تأكيد غيابهم. عندما تتجاوز قيمة المعيار المنطقة الحرجة، يمكننا أن نقول بقلب نقي لـ”المتشكك” – حسنًا، ماذا تريد أيضًا؟! إذا لم تكن هناك فروق، فمع احتمال 95٪ (أو 99٪)، ستكون القيمة المحسوبة ضمن الحدود المحددة. لكن لا!..

حسنًا، إذا كانت قيمة المعيار تقع في المنطقة الحرجة، فلا يوجد سبب للاعتقاد بأن الفرضية H 0 صحيحة. يشير هذا على الأرجح إلى أحد السببين المحتملين.

1. أحجام العينات ليست كبيرة بما يكفي لاكتشاف الاختلافات. ومن المرجح أن التجارب المستمرة ستحقق النجاح.

2. هناك اختلافات. لكنها صغيرة جدًا لدرجة أنه ليس لها أي أهمية عملية. في هذه الحالة، الاستمرار في التجارب لا معنى له.

دعنا ننتقل إلى النظر في بعض الفرضيات الإحصائية المستخدمة في الأبحاث الطبية.

3.6. اختبار الفرضيات حول مساواة التباينات، معيار فيشر F

في بعض الدراسات السريرية، لم يتم إثبات التأثير الإيجابي كثيرًا ضخامةمن المعلمة قيد الدراسة، وكم منها الاستقرار،الحد من تقلباتها. وفي هذه الحالة يطرح السؤال حول مقارنة تباينين ​​عامين بناء على نتائج مسح العينة. يمكن حل هذه المشكلة باستخدام اختبار فيشر.

صياغة المشكلة

القانون العاديتوزيعات. أحجام العينات -

ن 1و ن2,أ فروق العينةمتساوي س1 و س22 الفروق العامة.

فرضيات قابلة للاختبار:

ح 0- الفروق العامة هي نفسها؛

ح 1- الفروق العامة مختلفة.

يظهر إذا تم استخلاص العينات من السكان القانون العاديالتوزيع، إذا كانت الفرضية صحيحة ح 0نسبة تباينات العينة تتبع توزيع فيشر. لذلك، كمعيار للتحقق من العدالة ح 0يتم أخذ القيمة تحسب بواسطة الصيغة:

أين s 1 و s 2 عبارة عن فروق عينة.

تخضع هذه النسبة لتوزيع فيشر مع عدد درجات حرية البسط ν 1 = ن 1- 1 وعدد درجات حرية المقام ν 2 = n 2 - 1. تم العثور على حدود المنطقة الحرجة باستخدام جداول توزيع فيشر أو باستخدام وظيفة الكمبيوتر BRASPOBR.

على سبيل المثال الموضح في الجدول. 3.4 نحصل على: ν 1 = ν 2 = 20 - 1 = 19؛ F= 2.16/4.05 = 0.53. عند α = 0.05، تكون حدود المنطقة الحرجة على التوالي: = 0.40، = 2.53.

وتقع قيمة المحك ضمن المنطقة الحرجة وبالتالي يتم قبول الفرضية ح 0:انحرافات العينة العامة هي نفسها.

3.7. اختبار الفرضيات المتعلقة بمساواة الوسائل، معيار الطالب

مهمة المقارنة متوسطتنشأ مجموعتان عامتان عندما تكون الأهمية العملية على وجه التحديد ضخامةالخاصية التي تتم دراستها. على سبيل المثال، عند مقارنة مدة العلاج بطريقتين مختلفتين أو عدد المضاعفات الناجمة عن استخدامها. في هذه الحالة، يمكنك استخدام اختبار الطالب.

صياغة المشكلة

تم الحصول على عينتين (X 1) و (X 2) تم استخلاصهما من عامة السكان القانون العاديالتوزيع و تباينات متطابقة.أحجام العينات - ن 1 و ن 2، وسائل العينةتساوي X 1 و X 2، و فروق العينة- ق 1 2 و ق 2 2على التوالى. بحاجة للمقارنة المتوسطات العامة.

فرضيات قابلة للاختبار:

ح 0- المتوسطات العامة هي نفسها؛

ح 1- المتوسطات العامة مختلفة.

وتبين أنه إذا كانت الفرضية صحيحة ح 0قيمة t المحسوبة بواسطة الصيغة:

موزعة حسب قانون الطالب بعدد درجات الحرية ν = ν 1 + + ν2 - 2.

هنا حيث ν 1 = ن 1 - 1 - عدد درجات الحرية للعينة الأولى؛ ن 2 = ن 2 – 1 – عدد درجات الحرية للعينة الثانية .

تم العثور على حدود المنطقة الحرجة باستخدام جداول التوزيع t أو باستخدام وظيفة الكمبيوتر STUDRIST. توزيع الطلاب متماثل حول الصفر، وبالتالي فإن الحدود اليسرى واليمنى للمنطقة الحرجة متطابقة في الحجم ومتعاكسة في الإشارة: - و

على سبيل المثال الموضح في الجدول. 3.4 نحصل على:

ν 1 = ν 2 = 20 - 1 = 19؛ ν = 38، ر= -2.51. عند α = 0.05 = 2.02.

تتجاوز قيمة المحك الحد الأيسر للمنطقة الحرجة لذلك نقبل الفرضية ح 1:المتوسطات العامة مختلفة.وفي الوقت نفسه متوسط ​​عدد السكان العينة الأولىأقل.

إمكانية تطبيق اختبار الطالب

اختبار الطالب لا ينطبق إلا على عينات من طبيعيالمجمعات مع الفروق العامة متطابقة.إذا تم انتهاك أحد الشروط على الأقل، فإن قابلية تطبيق المعيار تكون موضع شك. عادة ما يتم تجاهل متطلبات الحياة الطبيعية لعامة السكان، نقلاً عن نظرية الحد المركزي.في الواقع، يمكن اعتبار الفرق بين متوسطات العينة في البسط (3.10) موزعًا بشكل طبيعي لـ ν > 30. لكن لا يمكن التحقق من مسألة مساواة التباينات، ولا يمكن الاعتماد على الإشارات إلى حقيقة أن اختبار فيشر لم يكشف عن الاختلافات داخل الحساب. ومع ذلك، يُستخدم اختبار t على نطاق واسع للكشف عن الاختلافات في متوسطات السكان، على الرغم من عدم وجود أدلة كافية.

أدناه تمت مناقشته معيار غير بارامتري,والتي يتم استخدامها بنجاح لنفس الأغراض والتي لا تتطلب أي شيء الحياة الطبيعية,لا المساواة في الفروق.

3.8. مقارنة غير بارامترية لعينتين: معيار مان ويتني

تم تصميم الاختبارات اللامعلمية للكشف عن الاختلافات في قوانين التوزيع بين مجموعتين من السكان. المعايير الحساسة للاختلافات بشكل عام متوسط،تسمى المعايير يحولالمعايير الحساسة للاختلافات بشكل عام التشتت,تسمى المعايير حجم.يشير اختبار مان ويتني إلى المعايير يحولويستخدم للكشف عن الاختلافات في متوسطات مجموعتين من السكان، والتي يتم تقديم عينات منها مقياس الترتيب.وتوضع الخصائص المقاسة على هذا المقياس بترتيب تصاعدي، ثم يتم ترقيمها بالأعداد الصحيحة 1، 2... وتسمى هذه الأرقام صفوف.يتم تعيين كميات متساوية مراتب متساوية. ليست قيمة السمة نفسها هي التي تهم، بل فقط مكان ترتيبيوالتي تصنف ضمن الكميات الأخرى.

في الجدول 3.5. يتم عرض المجموعة الأولى من الجدول 3.4 بشكل موسع (السطر 1)، ومرتبة (السطر 2)، ثم يتم استبدال مراتب القيم المتطابقة بالمتوسطات الحسابية. على سبيل المثال، تم إعطاء العنصرين 4 و4 في الصف الأول الرتبتين 2 و3، ثم تم استبدالهما بنفس القيم 2.5.

الجدول 3.5

صياغة المشكلة

عينات مستقلة (× 1)و (× 2)المستخرجة من عامة السكان مع قوانين التوزيع غير معروفة. أحجام العينات ن 1و ن 2على التوالى. يتم عرض قيم عناصر العينة في مقياس الترتيب.ومن الضروري التحقق مما إذا كانت هذه المجموعات العامة تختلف عن بعضها البعض؟

فرضيات قابلة للاختبار:

ح 0- العينات تنتمي إلى نفس عامة السكان؛ ح 1- العينات تنتمي إلى مجموعات سكانية مختلفة.

ولاختبار مثل هذه الفرضيات تم استخدام اختبار (/- مان-ويتني).

أولاً يتم تجميع عينة مجمعة (X) من العينتين وترتيب عناصرها. ثم يتم إيجاد مجموع الرتب المقابلة لعناصر العينة الأولى. وهذا المبلغ هو المعيار لاختبار الفرضيات.

ش= مجموع مراتب العينة الأولى. (3.11)

بالنسبة للعينات المستقلة التي يزيد حجمها عن 20، تكون القيمة شيطيع التوزيع الطبيعي الذي يساوي التوقع الرياضي والانحراف المعياري له:

ولذلك، تم العثور على حدود المنطقة الحرجة وفقا لجداول التوزيع الطبيعي.

على سبيل المثال الموضح في الجدول. 3.4 نحصل على: ν 1 = ν 2 = 20 - 1 = 19، ش= 339، μ = 410، σ = 37. بالنسبة لـ α = 0.05 نحصل على: اليسار = 338 واليمين = 482.

تتجاوز قيمة المعيار الحد الأيسر للمنطقة الحرجة، وبالتالي يتم قبول الفرضية H 1: لدى عامة السكان قوانين توزيع مختلفة. وفي الوقت نفسه متوسط ​​عدد السكان العينة الأولىأقل.

عند معالجة كميات كبيرة من المعلومات، وهو أمر مهم بشكل خاص عند تنفيذ التطورات العلمية الحديثة، يواجه الباحث مهمة خطيرة تتمثل في تجميع البيانات المصدر بشكل صحيح. إذا كانت البيانات منفصلة بطبيعتها، فلن تنشأ أي مشاكل، كما رأينا، - ما عليك سوى حساب تكرار كل ميزة. إذا كانت الصفة قيد الدراسة موجودة مستمرالطبيعة (وهي أكثر شيوعًا في الممارسة العملية)، فإن اختيار العدد الأمثل لفترات تجميع الميزات ليس مهمة تافهة بأي حال من الأحوال.

لتجميع المتغيرات العشوائية المستمرة، يتم تقسيم النطاق المتغير الكامل للخاصية إلى عدد معين من الفواصل الزمنية ل.

الفاصل الزمني المجمع (مستمر) سلسلة الاختلافتسمى الفواصل الزمنية مرتبة حسب قيمة السمة ()، حيث تتم الإشارة إلى أعداد الملاحظات التي تقع في الفاصل الزمني r، أو الترددات النسبية ()، مع الترددات المقابلة ():

فترات القيمة المميزة

تردد مي

شريط الرسم البيانيو تتراكم (ogiva) ،التي تمت مناقشتها بالفعل بالتفصيل من قبلنا، هي وسيلة ممتازة لتصور البيانات، مما يسمح لك بالحصول على فكرة أولية عن بنية البيانات. يتم إنشاء هذه الرسوم البيانية (الشكل 1.15) للبيانات المستمرة بنفس طريقة البيانات المنفصلة، ​​مع الأخذ في الاعتبار فقط حقيقة أن البيانات المستمرة تملأ المنطقة بالكامل بقيمها المحتملة، مع الأخذ في الاعتبار أي قيم.

أرز. 1.15.

لهذا يجب أن تلامس الأعمدة الموجودة في الرسم البياني والتراكمي بعضها البعض ولا تحتوي على مناطق لا تقع فيها قيم السمات ضمن كل ما هو ممكن(أي يجب ألا يحتوي الرسم البياني والتراكمات على "ثقوب" على طول محور الإحداثي السيني، والتي لا تحتوي على قيم المتغير قيد الدراسة، كما في الشكل 1.16). ويتوافق ارتفاع الشريط مع التردد – عدد الملاحظات التي تقع ضمن فترة زمنية معينة، أو التردد النسبي – نسبة الملاحظات. فترات يجب ألا تتقاطعوعادة ما تكون بنفس العرض.

أرز. 1.16.

الرسم البياني والمضلع عبارة عن تقديرات تقريبية لمنحنى كثافة الاحتمال (وظيفة تفاضلية) و (خ)التوزيع النظري، الذي تم النظر فيه في سياق نظرية الاحتمالات. لذلك، فإن بنائها مهم جدًا في المعالجة الإحصائية الأولية للبيانات الكمية المستمرة - من خلال مظهرها، يمكن الحكم على قانون التوزيع الافتراضي.

التراكم - منحنى الترددات المتراكمة (الترددات) لسلسلة تباين الفاصل الزمني. تتم مقارنة الرسم البياني لوظيفة التوزيع التراكمي مع التراكم و(خ)، تمت مناقشته أيضًا في دورة نظرية الاحتمالات.

في الأساس، يرتبط مفهوما الرسم البياني والتراكم بشكل خاص بالبيانات المستمرة وسلسلة تباين الفواصل الزمنية الخاصة بها، نظرًا لأن الرسوم البيانية الخاصة بها عبارة عن تقديرات تجريبية لوظيفة كثافة الاحتمال ووظيفة التوزيع، على التوالي.

يبدأ إنشاء سلسلة تباين الفاصل الزمني بتحديد عدد الفواصل الزمنية ك.ولعل هذه المهمة هي الأصعب والأهم والأكثر إثارة للجدل في القضية قيد الدراسة.

يجب ألا يكون عدد الفواصل الزمنية صغيرًا جدًا، لأن ذلك سيجعل الرسم البياني سلسًا للغاية ( مفرط)،يفقد جميع ميزات تباين البيانات الأصلية - في الشكل 1. 1.17 يمكنك أن ترى كيف أن نفس البيانات التي تعتمد عليها الرسوم البيانية في الشكل. 1.15، يستخدم لإنشاء رسم بياني بعدد أقل من الفواصل الزمنية (الرسم البياني الأيسر).

في الوقت نفسه، لا ينبغي أن يكون عدد الفواصل الزمنية كبيرًا جدًا - وإلا فلن نتمكن من تقدير كثافة توزيع البيانات المدروسة على طول المحور الرقمي: سيكون الرسم البياني أقل سلاسة (مخفف)،مع فترات فارغة، غير متساوية (انظر الشكل 1.17، الرسم البياني الأيمن).

أرز. 1.17.

كيفية تحديد العدد الأكثر تفضيلا من الفترات؟

في عام 1926، اقترح هربرت ستورجيس صيغة لحساب عدد الفواصل الزمنية التي من الضروري تقسيم مجموعة القيم الأصلية للخاصية قيد الدراسة. لقد أصبحت هذه الصيغة شائعة للغاية - حيث توفرها معظم الكتب المدرسية الإحصائية، وتستخدمها العديد من الحزم الإحصائية بشكل افتراضي. ما مدى مبرر ذلك وفي جميع الحالات هو سؤال خطير للغاية.

إذًا، على ماذا تعتمد صيغة ستورجيس؟

النظر في التوزيع ذي الحدين)