بناء سلسلة التوزيع الفاصلة. بناء سلسلة التباين الفاصل للبيانات الكمية المستمرة

حالة:

توجد بيانات عن التركيبة العمرية للعاملين (بالسنوات): 18، 38، 28، 29، 26، 38، 34، 22، 28، 30، 22، 23، 35، 33، 27، 24، 30، 32، 28 ، 25، 29، 26، 31، 24، 29، 27، 32، 25، 29، 29.

    1. بناء سلسلة التوزيع الفاصلة.
    2. بناء تمثيل رسومي للسلسلة.
    3. تحديد الوضع والوسيط بيانيا.

حل:

1) وفقًا لصيغة Sturgess، يجب تقسيم السكان إلى 1 + 3.322 lg 30 = 6 مجموعات.

الحد الأقصى للعمر - 38، والحد الأدنى - 18.

عرض الفاصل الزمني نظرًا لأن نهايات الفترات يجب أن تكون أعدادًا صحيحة، فإننا نقسم السكان إلى 5 مجموعات. عرض الفاصل الزمني - 4.

لتسهيل العمليات الحسابية، سنرتب البيانات ترتيبًا تصاعديًا: 18، 22، 22، 23، 24، 24، 25، 25، 26، 26، 27، 27، 28، 28، 28، 29، 29، 29، 29, 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

التوزيع العمري للعمال

بيانياً، يمكن تصوير السلسلة على شكل رسم بياني أو مضلع. الرسم البياني - الرسم البياني الشريطي. قاعدة العمود هي عرض الفاصل الزمني. ارتفاع العمود يساوي التردد.

المضلع (أو مضلع التوزيع) - الرسم البياني للتردد. لإنشائه باستخدام الرسم البياني، نقوم بتوصيل نقاط المنتصف للجوانب العلوية للمستطيلات. نغلق المضلع على محور الثور على مسافات تساوي نصف الفاصل الزمني من القيم القصوى لـ x.

الوضع (Mo) هو قيمة الخاصية التي تتم دراستها، والتي تحدث بشكل متكرر في مجموعة سكانية معينة.

لتحديد الوضع من الرسم البياني، تحتاج إلى تحديد المستطيل الأعلى، ورسم خط من الرأس الأيمن لهذا المستطيل إلى الزاوية اليمنى العليا للمستطيل السابق، ومن الرأس الأيسر للمستطيل المشروط، ارسم خطًا إلى الرأس الأيسر للمستطيل اللاحق. من تقاطع هذه الخطوط، ارسم عموديًا على المحور السيني. سيكون الإحداثي هو الموضة. مو ≈ 27.5. وهذا يعني أن العمر الأكثر شيوعًا بين هؤلاء السكان هو 27-28 عامًا.

الوسيط (Me) هو قيمة الخاصية التي تتم دراستها، والتي تقع في منتصف سلسلة التباين المرتبة.

نجد الوسيط باستخدام التراكم. يتراكم - رسم بياني للترددات المتراكمة. الإحداثيات هي أشكال مختلفة من السلسلة. الإحداثيات هي الترددات المتراكمة.

لتحديد الوسيط على التراكمي نجد نقطة على طول المحور الإحداثي تقابل 50% من التكرارات المتراكمة (في حالتنا 15)، نرسم خطًا مستقيمًا من خلالها، موازيًا لمحور الثور، ومن نقطة عند تقاطعه مع الركام، ارسم خطًا عموديًا على المحور x. الإحداثي السيني هو الوسيط. أنا ≈ 25.9. وهذا يعني أن نصف العاملين في هذه الفئة السكانية تقل أعمارهم عن 26 عامًا.

عند معالجة كميات كبيرة من المعلومات، وهو أمر مهم بشكل خاص عند تنفيذ التطورات العلمية الحديثة، يواجه الباحث مهمة خطيرة تتمثل في تجميع البيانات المصدر بشكل صحيح. إذا كانت البيانات منفصلة بطبيعتها، فلن تنشأ أي مشاكل، كما رأينا، - ما عليك سوى حساب تكرار كل ميزة. إذا كانت الصفة قيد الدراسة موجودة مستمرالطبيعة (وهي أكثر شيوعًا في الممارسة العملية)، فإن اختيار العدد الأمثل لفترات تجميع الميزات ليس مهمة تافهة بأي حال من الأحوال.

لتجميع المتغيرات العشوائية المستمرة، يتم تقسيم النطاق المتغير الكامل للخاصية إلى عدد معين من الفواصل الزمنية ل.

الفاصل الزمني المجمع (مستمر) سلسلة الاختلافتسمى الفواصل الزمنية مرتبة حسب قيمة السمة ()، حيث تتم الإشارة إلى أعداد الملاحظات التي تقع في الفاصل الزمني r، أو الترددات النسبية ()، مع الترددات المقابلة ():

فترات القيمة المميزة

تردد مي

شريط الرسم البيانيو تتراكم (ogiva) ،التي تمت مناقشتها بالفعل بالتفصيل من قبلنا، هي وسيلة ممتازة لتصور البيانات، مما يسمح لك بالحصول على فكرة أولية عن بنية البيانات. يتم إنشاء هذه الرسوم البيانية (الشكل 1.15) للبيانات المستمرة بنفس طريقة البيانات المنفصلة، ​​مع الأخذ في الاعتبار فقط حقيقة أن البيانات المستمرة تملأ المنطقة بالكامل بقيمها المحتملة، مع الأخذ في الاعتبار أي قيم.

أرز. 1.15.

لهذا يجب أن تلامس الأعمدة الموجودة في الرسم البياني والتراكمي بعضها البعض ولا تحتوي على مناطق لا تقع فيها قيم السمات ضمن كل ما هو ممكن(أي يجب ألا يحتوي الرسم البياني والتراكمات على "ثقوب" على طول محور الإحداثي السيني، والتي لا تحتوي على قيم المتغير قيد الدراسة، كما في الشكل 1.16). ويتوافق ارتفاع الشريط مع التردد – عدد الملاحظات التي تقع ضمن فترة زمنية معينة، أو التردد النسبي – نسبة الملاحظات. فترات يجب ألا تتقاطعوعادة ما تكون بنفس العرض.

أرز. 1.16.

الرسم البياني والمضلع عبارة عن تقديرات تقريبية لمنحنى كثافة الاحتمال (وظيفة تفاضلية) و (خ)التوزيع النظري، الذي تم النظر فيه في سياق نظرية الاحتمالات. لذلك، فإن بنائها مهم جدًا في المعالجة الإحصائية الأولية للبيانات الكمية المستمرة - من خلال مظهرها، يمكن الحكم على قانون التوزيع الافتراضي.

التراكم - منحنى الترددات المتراكمة (الترددات) لسلسلة تباين الفاصل الزمني. تتم مقارنة الرسم البياني لوظيفة التوزيع التراكمي مع التراكم و(خ)، تمت مناقشته أيضًا في دورة نظرية الاحتمالات.

في الأساس، يرتبط مفهوما الرسم البياني والتراكم بشكل خاص بالبيانات المستمرة وسلسلة تباين الفواصل الزمنية الخاصة بها، نظرًا لأن الرسوم البيانية الخاصة بها عبارة عن تقديرات تجريبية لوظيفة كثافة الاحتمال ووظيفة التوزيع، على التوالي.

يبدأ إنشاء سلسلة تباين الفاصل الزمني بتحديد عدد الفواصل الزمنية ك.ولعل هذه المهمة هي الأصعب والأهم والأكثر إثارة للجدل في القضية قيد الدراسة.

يجب ألا يكون عدد الفواصل الزمنية صغيرًا جدًا، لأن ذلك سيجعل الرسم البياني سلسًا للغاية ( مفرط)،يفقد جميع ميزات تباين البيانات الأصلية - في الشكل 1. 1.17 يمكنك أن ترى كيف أن نفس البيانات التي تعتمد عليها الرسوم البيانية في الشكل. 1.15، يستخدم لإنشاء رسم بياني بعدد أقل من الفواصل الزمنية (الرسم البياني الأيسر).

في الوقت نفسه، لا ينبغي أن يكون عدد الفواصل الزمنية كبيرًا جدًا - وإلا فلن نتمكن من تقدير كثافة توزيع البيانات المدروسة على طول المحور الرقمي: سيكون الرسم البياني أقل سلاسة (مخفف)،مع فترات فارغة، غير متساوية (انظر الشكل 1.17، الرسم البياني الأيمن).

أرز. 1.17.

كيفية تحديد العدد الأكثر تفضيلا من الفترات؟

في عام 1926، اقترح هربرت ستورجيس صيغة لحساب عدد الفواصل الزمنية التي من الضروري تقسيم مجموعة القيم الأصلية للخاصية قيد الدراسة. لقد أصبحت هذه الصيغة شائعة جدًا حقًا - حيث توفرها معظم الكتب المدرسية الإحصائية، وتستخدمها العديد من الحزم الإحصائية بشكل افتراضي. ما مدى مبرر ذلك وفي جميع الحالات هو سؤال خطير للغاية.

إذًا، على ماذا تعتمد صيغة ستورجيس؟

النظر في التوزيع ذي الحدين)