الغرض من تحليل الانحدار. طرق الإحصاء الرياضي

الغرض الرئيسي من تحليل الانحداريتكون من تحديد الشكل التحليلي للاتصال الذي يكون فيه التغير في الخاصية الفعالة نتيجة لتأثير واحدة أو أكثر من الخصائص العاملية، ويتم أخذ مجموعة جميع العوامل الأخرى التي تؤثر أيضًا على الخاصية الفعالة كقيم ثابتة ومتوسطة.
مشاكل تحليل الانحدار:
أ) تحديد شكل الاعتماد. فيما يتعلق بطبيعة وشكل العلاقة بين الظواهر، يتم التمييز بين الانحدار الخطي وغير الخطي الإيجابي والسلبي الخطي وغير الخطي.
ب) تحديد دالة الانحدار على شكل معادلة رياضية من نوع أو آخر وتحديد تأثير المتغيرات التفسيرية على المتغير التابع.
ج) تقدير القيم المجهولة للمتغير التابع. باستخدام دالة الانحدار، يمكنك إعادة إنتاج قيم المتغير التابع ضمن الفاصل الزمني للقيم المحددة للمتغيرات التوضيحية (أي حل مشكلة الاستيفاء) أو تقييم مسار العملية خارج الفاصل الزمني المحدد (أي، حل مشكلة الاستقراء). والنتيجة هي تقدير لقيمة المتغير التابع.

الانحدار المقترن هو معادلة للعلاقة بين متغيرين y وx: حيث y هو المتغير التابع (السمة الناتجة)؛ x هو متغير توضيحي مستقل (عامل الميزة).

هناك انحدارات خطية وغير خطية.
الانحدار الخطي: y = a + bx + ε
تنقسم الانحدارات غير الخطية إلى فئتين: الانحدارات غير الخطية فيما يتعلق بالمتغيرات التوضيحية المضمنة في التحليل، ولكنها خطية فيما يتعلق بالمعلمات المقدرة، والانحدارات غير الخطية فيما يتعلق بالمعلمات المقدرة.
الانحدارات غير الخطية في المتغيرات التوضيحية:

الانحدارات غير الخطية فيما يتعلق بالمعلمات المقدرة: إن بناء معادلة الانحدار يتعلق بتقدير معلماتها. لتقدير معلمات الانحدارات الخطية في المعلمات، يتم استخدام طريقة المربعات الصغرى (OLS). تتيح طريقة المربعات الصغرى الحصول على تقديرات المعلمات التي يكون فيها مجموع الانحرافات التربيعية للقيم الفعلية للخاصية الناتجة y عن القيم النظرية ضئيلًا، أي.
.
بالنسبة للمعادلات الخطية وغير الخطية القابلة للاختزال إلى معادلات خطية، يتم حل النظام التالي بالنسبة إلى a وb:

يمكنك استخدام الصيغ الجاهزة التي تتبع هذا النظام:

يتم تقييم قرب العلاقة بين الظواهر قيد الدراسة من خلال المعامل الخطي لارتباط الزوج للانحدار الخطي:

ومؤشر الارتباط - للانحدار غير الخطي:

سيتم تقييم جودة النموذج المبني من خلال معامل (مؤشر) التحديد، بالإضافة إلى متوسط ​​خطأ التقريب.
متوسط ​​خطأ التقريب - متوسط ​​انحراف القيم المحسوبة عن القيم الفعلية:
.
الحد المسموح به من القيم لا يزيد عن 8-10%.
يوضح متوسط ​​معامل المرونة النسبة المئوية في المتوسط ​​التي ستتغير فيها النتيجة y من متوسط ​​قيمتها عندما يتغير العامل x بنسبة 1% من متوسط ​​قيمته:
.

الغرض من تحليل التباين هو تحليل تباين المتغير التابع:
,
أين هو مجموع الانحرافات التربيعية؛
- مجموع الانحرافات التربيعية بسبب الانحدار ("موضح" أو "مضروب")؛
- المبلغ المتبقي من الانحرافات التربيعية.
تتميز حصة التباين الموضحة بالانحدار في التباين الكلي للخاصية الناتجة y بمعامل (مؤشر) التحديد R2:

ومعامل التحديد هو مربع المعامل أو مؤشر الارتباط.

اختبار F - تقييم جودة معادلة الانحدار - يتكون من اختبار الفرضية رقم حول الدلالة الإحصائية لمعادلة الانحدار ومؤشر تقارب العلاقة. للقيام بذلك، يتم إجراء مقارنة بين حقيقة F الفعلية وقيم جدول F الحرجة (الجدولية) لمعيار فيشر F. يتم تحديد حقيقة F من نسبة قيم العامل والتباينات المتبقية المحسوبة لكل درجة من الحرية:
,
حيث n هو عدد الوحدات السكانية؛ m هو عدد المعلمات للمتغيرات x.
جدول F هو أقصى قيمة ممكنة للمعيار تحت تأثير العوامل العشوائية عند درجات معينة من الحرية ومستوى الأهمية أ. مستوى الأهمية أ هو احتمال رفض الفرضية الصحيحة بشرط صحتها. عادةً ما يتم أخذ a يساوي 0.05 أو 0.01.
إذا كان الجدول F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >والحقيقة أنه لم يتم رفض الفرضية H o وتم التعرف على الدلالة الإحصائية وعدم موثوقية معادلة الانحدار.
لتقييم الأهمية الإحصائية لمعاملات الانحدار والارتباط، يتم حساب اختبار الطالب وفترات الثقة لكل مؤشر. تم طرح فرضية حول الطبيعة العشوائية للمؤشرات، أي. حول اختلافهم الضئيل عن الصفر. يتم تقييم أهمية معاملات الانحدار والارتباط باستخدام اختبار الطالب من خلال مقارنة قيمها مع حجم الخطأ العشوائي:
; ; .
يتم تحديد الأخطاء العشوائية لمعلمات الانحدار الخطي ومعامل الارتباط بواسطة الصيغ:



مقارنة القيم الفعلية والحرجة (الجدولية) لإحصائيات t - جدول t وحقيقة t - نقبل أو نرفض الفرضية H o.
يتم التعبير عن العلاقة بين اختبار Fisher F وإحصائية الطالب بالمساواة

إذا ر الجدول< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t حقيقة أن الفرضية H o لم يتم رفضها ويتم التعرف على الطبيعة العشوائية لتكوين a أو b أو.
لحساب فاصل الثقة، نحدد الحد الأقصى للخطأ D لكل مؤشر:
, .
الصيغ لحساب فترات الثقة هي كما يلي:
; ;
; ;
إذا كان الصفر يقع ضمن فترة الثقة، أي. إذا كان الحد الأدنى سالبًا والحد الأعلى موجبًا، فسيتم اعتبار المعلمة المقدرة صفرًا، نظرًا لأنه لا يمكن أن تأخذ القيم الموجبة والسالبة في نفس الوقت.
يتم تحديد قيمة التنبؤ عن طريق استبدال القيمة (التنبؤية) المقابلة في معادلة الانحدار. يتم حساب متوسط ​​الخطأ المعياري للتنبؤ:
,
أين
ويتم إنشاء فاصل الثقة للتنبؤ:
; ;
أين .

الحل المثال

المهمة رقم 1. بالنسبة لسبع مناطق في منطقة الأورال في عام 199X، فإن قيم الخاصيتين معروفة.
الجدول 1.
مطلوب: 1. لتوصيف اعتماد y على x، احسب معلمات الوظائف التالية:
أ) خطي؛
ب) الطاقة (يجب عليك أولاً إجراء عملية خطية للمتغيرات عن طريق أخذ لوغاريتم كلا الجزأين)؛
ج) توضيحي.
د) القطع الزائد متساوي الأضلاع (تحتاج أيضًا إلى معرفة كيفية جعل هذا النموذج خطيًا مسبقًا).
2. قم بتقييم كل نموذج باستخدام متوسط ​​خطأ التقريب واختبار فيشر F.

الحل (الخيار رقم 1)

لحساب المعلمات a وb للانحدار الخطي (يمكن إجراء الحساب باستخدام الآلة الحاسبة).
حل نظام المعادلات العادية ل أو ب:
بناء على البيانات الأولية، نحسب :
ذ س yx × 2 ذ 2 أ
ل 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
المجموع 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
تزوج. معنى (المجموع/ن) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
س 5,74 5,86 X X X X X X
ق 2 32,92 34,34 X X X X X X


معادلة الانحدار: ص = 76,88 - 0,35X.مع زيادة متوسط ​​​​الأجر اليومي بمقدار 1 فرك. وتنخفض حصة نفقات شراء المنتجات الغذائية بمتوسط ​​0.35 نقطة مئوية.
لنحسب معامل ارتباط الزوج الخطي:

الاتصال معتدل، معكوس.
لنحدد معامل التحديد:

يتم تفسير التباين بنسبة 12.7% في النتيجة من خلال التباين في العامل x. استبدال القيم الفعلية في معادلة الانحدار دعونا نحدد القيم النظرية (المحسوبة). . لنجد قيمة متوسط ​​خطأ التقريب:

في المتوسط، تنحرف القيم المحسوبة عن القيم الفعلية بنسبة 8.1%.
دعونا نحسب المعيار F:

منذ 1< F < ¥ ، وينبغي النظر في F -1 .
تشير القيمة الناتجة إلى ضرورة قبول الفرضية لكن اهالطبيعة العشوائية للاعتماد المحدد والأهمية الإحصائية لمعلمات المعادلة ومؤشر قرب الاتصال.
1 ب.يسبق بناء نموذج الطاقة إجراء خطية المتغيرات. في المثال، يتم إجراء الخطية عن طريق أخذ اللوغاريتمات لطرفي المعادلة:


أينY=lg(y)، X=lg(x)، C=lg(a).

لإجراء الحسابات نستخدم البيانات في الجدول. 1.3.

الجدول 1.3

ي X YX Y2 × 2 أ
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
المجموع 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
متوسط ​​القيمة 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

دعونا نحسب C و b:


نحصل على معادلة خطية: .
بعد إجراء التقوية نحصل على:

استبدال القيم الفعلية في هذه المعادلة نحصل على القيم النظرية للنتيجة. باستخدامها، سنقوم بحساب المؤشرات: ضيق الاتصال - مؤشر الارتباط ومتوسط ​​خطأ التقريب

تشير خصائص نموذج قانون القوى إلى أنه يصف العلاقة بشكل أفضل إلى حد ما من الدالة الخطية.

1 ج. بناء معادلة المنحنى الأسي

يسبقه إجراء خطي للمتغيرات عن طريق أخذ لوغاريتمات طرفي المعادلة:

للحسابات نستخدم بيانات الجدول.

ي س ص.س Y2 × 2 أ
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
المجموع 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
تزوج. الزنك. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

قيم معلمات الانحدار A و فيبلغت:


المعادلة الخطية الناتجة هي: . دعونا نعزز المعادلة الناتجة ونكتبها بالشكل المعتاد:

سنقوم بتقييم مدى قرب الاتصال من خلال مؤشر الارتباط:

الغرض من تحليل الانحدار هو قياس العلاقة بين متغير تابع وواحد (تحليل الانحدار الزوجي) أو أكثر (متعددة) من المتغيرات المستقلة. وتسمى المتغيرات المستقلة أيضًا متغيرات العامل والتوضيحية والمحددة والتراجعية والمتوقعة.

يُطلق على المتغير التابع أحيانًا اسم المتغير المحدد أو الموضح أو "الاستجابة". إن الاستخدام الواسع النطاق لتحليل الانحدار في البحث التجريبي لا يرجع فقط إلى حقيقة أنه أداة ملائمة لاختبار الفرضيات. يعد الانحدار، وخاصة الانحدار المتعدد، وسيلة فعالة للنمذجة والتنبؤ.

لنبدأ في شرح مبادئ العمل مع تحليل الانحدار بطريقة أبسط - الطريقة الزوجية.

تحليل الانحدار المقترن

ستكون الخطوات الأولى عند استخدام تحليل الانحدار مطابقة تقريبًا لتلك التي اتخذناها في حساب معامل الارتباط. الشروط الثلاثة الرئيسية لفعالية تحليل الارتباط باستخدام طريقة بيرسون - التوزيع الطبيعي للمتغيرات، قياس الفاصل الزمني للمتغيرات، العلاقة الخطية بين المتغيرات - هي أيضًا ذات صلة بالانحدار المتعدد. وبناء على ذلك، في المرحلة الأولى، تم إنشاء مخططات التبعثر، وإجراء التحليل الإحصائي والوصفي للمتغيرات، وحساب خط الانحدار. كما هو الحال في إطار تحليل الارتباط، يتم إنشاء خطوط الانحدار باستخدام طريقة المربعات الصغرى.

لتوضيح الاختلافات بين طريقتي تحليل البيانات بشكل أكثر وضوحًا، دعونا ننتقل إلى المثال الذي تمت مناقشته بالفعل مع المتغيرات "دعم الصحة والصحة النباتية" و"حصة سكان الريف". البيانات المصدر متطابقة. سيكون الاختلاف في مخططات التشتت هو أنه في تحليل الانحدار يكون من الصحيح رسم المتغير التابع - في حالتنا، "دعم SPS" على المحور Y، في حين أن هذا لا يهم في تحليل الارتباط. بعد تنظيف القيم المتطرفة، يبدو مخطط التشتت كما يلي:

الفكرة الأساسية لتحليل الانحدار هي أنه بوجود اتجاه عام للمتغيرات - على شكل خط انحدار - فإنه من الممكن التنبؤ بقيمة المتغير التابع، بالنظر إلى قيم المتغير المستقل.

لنتخيل دالة خطية رياضية عادية. يمكن وصف أي خط مستقيم في الفضاء الإقليدي بالصيغة:

حيث a ثابت يحدد الإزاحة على طول المحور الإحداثي؛ ب هو المعامل الذي يحدد زاوية ميل الخط.

بمعرفة الميل والثابت، يمكنك حساب (التنبؤ) بقيمة y لأي x.

شكلت هذه الوظيفة الأبسط أساس نموذج تحليل الانحدار مع التحذير من أننا لن نتنبأ بقيمة y بالضبط، ولكن ضمن فترة ثقة معينة، أي. تقريبًا.

الثابت هو نقطة تقاطع خط الانحدار والمحور y (التقاطع F، يُشار إليه عادةً بـ "المعترض" في الحزم الإحصائية). في مثالنا الخاص بالتصويت لاتحاد قوى اليمين، ستكون قيمته المقربة 10.55. سيكون المعامل الزاوي b تقريبًا -0.1 (كما هو الحال في تحليل الارتباط، توضح العلامة نوع الاتصال - مباشر أو معكوس). وبالتالي، فإن النموذج الناتج سيكون له الشكل SP C = -0.1 x Sel. نحن. + 10.55.

ATP = -0.10 × 47 + 10.55 = 5.63.

يُطلق على الفرق بين القيم الأصلية والمتوقعة اسم الباقي (لقد واجهنا بالفعل هذا المصطلح، وهو أمر أساسي للإحصاءات، عند تحليل جداول الطوارئ). لذا، بالنسبة لحالة "جمهورية أديغيا" فإن الباقي سيكون 3.92 - 5.63 = -1.71. كلما كانت القيمة المعيارية للباقي أكبر، قل نجاح القيمة المتوقعة.

نقوم بحساب القيم والبقايا المتوقعة لجميع الحالات:
يحدث جلس. نحن. شكرًا

(إبداعي)

شكرًا

(وتوقع)

بقايا الطعام
جمهورية أديغيا 47 3,92 5,63 -1,71 -
جمهورية التاي 76 5,4 2,59 2,81
جمهورية باشكورتوستان 36 6,04 6,78 -0,74
جمهورية بورياتيا 41 8,36 6,25 2,11
جمهورية داغستان 59 1,22 4,37 -3,15
جمهورية إنغوشيا 59 0,38 4,37 3,99
إلخ.

يعمل تحليل نسبة القيم الأولية والمتوقعة على تقييم جودة النموذج الناتج وقدرته التنبؤية. أحد المؤشرات الرئيسية لإحصائيات الانحدار هو معامل الارتباط المتعدد R - معامل الارتباط بين القيم الأصلية والمتوقعة للمتغير التابع. في تحليل الانحدار المقترن، يساوي معامل ارتباط بيرسون المعتاد بين المتغيرات التابعة والمستقلة، في حالتنا - 0.63. لتفسير متعدد R بشكل مفيد، يجب تحويله إلى معامل تحديد. ويتم ذلك بنفس الطريقة كما في تحليل الارتباط - عن طريق التربيع. يوضح معامل التحديد R-squared (R 2) نسبة التباين في المتغير التابع الذي يفسره المتغير (المتغيرات) المستقلة.

في حالتنا، R 2 = 0.39 (0.63 2)؛ وهذا يعني أن متغير "حصة سكان الريف" يفسر حوالي 40% من التباين في متغير "دعم الصحة والصحة النباتية". كلما زاد معامل التحديد، زادت جودة النموذج.

مؤشر آخر لجودة النموذج هو الخطأ المعياري في التقدير. وهذا مقياس لمدى "تشتت" النقاط حول خط الانحدار. مقياس الانتشار للمتغيرات الفاصلة هو الانحراف المعياري. وعليه فإن الخطأ المعياري للتقدير هو الانحراف المعياري لتوزيع البقايا. كلما زادت قيمته، زاد التشتت وأصبح النموذج أسوأ. في حالتنا، الخطأ القياسي هو 2.18. وبهذا المقدار فإن نموذجنا سوف "يخطئ في المتوسط" عند التنبؤ بقيمة متغير "دعم SPS".

تتضمن إحصائيات الانحدار أيضًا تحليل التباين. وبمساعدتها نكتشف: 1) ما هي نسبة التباين (التشتت) للمتغير التابع الذي يفسره المتغير المستقل؛ 2) ما هي نسبة تباين المتغير التابع الذي يتم حسابه بواسطة البقايا (الجزء غير المفسر)؛ 3) ما هي نسبة هاتين الكميتين (/"-نسبة). تعتبر إحصائيات التشتت ذات أهمية خاصة لدراسات العينات - فهي توضح مدى احتمالية وجود علاقة بين المتغيرات المستقلة والتابعة في المجتمع. ومع ذلك، بالنسبة الدراسات المستمرة (كما في مثالنا) نتائج دراسة تحليل التباين ليست مفيدة. يتم تحديد موقع السكان الذين يتم فحصهم، أي أنه ثبت أن النتيجة التي تم الحصول عليها ليست صحيحة بالنسبة لبعض المجاميع العامة الأوسع، ولكن درجة انتظامها، والتحرر من التأثيرات العشوائية.

في حالتنا، إحصائيات ANOVA هي كما يلي:

سس df آنسة F معنى
التراجع. 258,77 1,00 258,77 54,29 0.000000001
بقية 395,59 83,00 ل،11
المجموع 654,36

تعتبر نسبة F البالغة 54.29 مهمة عند مستوى 0.0000000001. وبناء على ذلك، يمكننا أن نرفض بثقة الفرضية الصفرية (أن العلاقة التي اكتشفناها هي نتيجة للصدفة).

يؤدي المعيار t وظيفة مماثلة، ولكن فيما يتعلق بمعاملات الانحدار (التقاطع الزاوي وF). باستخدام المعيار /، نقوم باختبار الفرضية القائلة بأن معاملات الانحدار في عموم السكان تساوي الصفر. في حالتنا، يمكننا مرة أخرى أن نرفض فرضية العدم بثقة.

تحليل الانحدار المتعدد

نموذج الانحدار المتعدد مطابق تقريبًا لنموذج الانحدار المقترن؛ والفرق الوحيد هو أن العديد من المتغيرات المستقلة يتم تضمينها بالتسلسل في الدالة الخطية:

ص = b1X1 + b2X2 + …+ bpXp + أ.

إذا كان هناك أكثر من متغيرين مستقلين، فلن نتمكن من الحصول على فكرة مرئية عن العلاقة بينهما؛ وفي هذا الصدد، يعتبر الانحدار المتعدد أقل "بصريًا" من الانحدار الزوجي. عندما يكون لديك متغيرين مستقلين، قد يكون من المفيد عرض البيانات في مخطط تبعثر ثلاثي الأبعاد. في حزم البرامج الإحصائية الاحترافية (على سبيل المثال، Statistica) يوجد خيار لتدوير مخطط ثلاثي الأبعاد، مما يسمح لك بتمثيل بنية البيانات بشكل مرئي بشكل جيد.

عند العمل مع الانحدار المتعدد، بدلا من الانحدار الزوجي، من الضروري تحديد خوارزمية التحليل. تتضمن الخوارزمية القياسية جميع المتنبئين المتاحين في نموذج الانحدار النهائي. تتضمن الخوارزمية خطوة بخطوة التضمين (الاستبعاد) المتسلسل للمتغيرات المستقلة بناءً على "وزنها" التوضيحي. تعتبر الطريقة المتدرجة جيدة عندما يكون هناك العديد من المتغيرات المستقلة؛ إنه "ينظف" النموذج من المتنبئات الضعيفة بصراحة، مما يجعله أكثر إحكاما وإيجازا.

الشرط الإضافي لصحة الانحدار المتعدد (جنبًا إلى جنب مع الفاصل الزمني والحياة الطبيعية والخطية) هو غياب العلاقة الخطية المتعددة - وجود ارتباطات قوية بين المتغيرات المستقلة.

يتضمن تفسير إحصائيات الانحدار المتعدد جميع العناصر التي أخذناها في الاعتبار في حالة الانحدار الزوجي. بالإضافة إلى ذلك، هناك مكونات مهمة أخرى لإحصائيات تحليل الانحدار المتعدد.

سنوضح العمل بالانحدار المتعدد باستخدام مثال اختبار الفرضيات التي تشرح الاختلافات في مستوى النشاط الانتخابي عبر المناطق الروسية. أشارت دراسات تجريبية محددة إلى أن مستويات إقبال الناخبين تتأثر بما يلي:

العامل الوطني (متغير "السكان الروس"؛ يتم تفعيله كنسبة السكان الروس في الكيانات المكونة للاتحاد الروسي). ومن المفترض أن تؤدي الزيادة في نسبة السكان الروس إلى انخفاض نسبة إقبال الناخبين؛

عامل التحضر (متغير "سكان الحضر"؛ يتم تشغيله كنسبة سكان الحضر في الكيانات المكونة للاتحاد الروسي؛ لقد عملنا بالفعل مع هذا العامل كجزء من تحليل الارتباط). ومن المفترض أن تؤدي الزيادة في نسبة سكان الحضر أيضًا إلى انخفاض نسبة إقبال الناخبين.

يتم تفعيل المتغير التابع - "كثافة النشاط الانتخابي" ("النشط") من خلال متوسط ​​بيانات المشاركة حسب المنطقة في الانتخابات الفيدرالية من عام 1995 إلى عام 2003. وسيكون جدول البيانات الأولي لمتغيرين مستقلين ومتغير تابع واحد كما يلي:

يحدث المتغيرات
أصول. جور. نحن. روس. نحن.
جمهورية أديغيا 64,92 53 68
جمهورية التاي 68,60 24 60
جمهورية بورياتيا 60,75 59 70
جمهورية داغستان 79,92 41 9
جمهورية إنغوشيا 75,05 41 23
جمهورية كالميكيا 68,52 39 37
جمهورية قراتشاي- شركيسيا 66,68 44 42
جمهورية كاريليا 61,70 73 73
جمهورية كومي 59,60 74 57
جمهورية ماري ال 65,19 62 47

إلخ. (بعد إزالة الانبعاثات، تبقى 83 حالة من أصل 88)

إحصائيات تصف جودة النموذج:

1. مضاعف R = 0.62؛ L-مربع = 0.38. وبالتالي فإن العامل الوطني وعامل التحضر يفسران معاً حوالي 38% من التباين في متغير “النشاط الانتخابي”.

2. متوسط ​​الخطأ 3.38. وهذا هو بالضبط مدى "خطأ النموذج الذي تم إنشاؤه في المتوسط" عند التنبؤ بمستوى الإقبال.

3. /l نسبة التباين المفسر وغير المفسر هي 25.2 عند المستوى 0.000000003. تم رفض الفرضية الصفرية حول عشوائية العلاقات المحددة.

4. إن المعيار / لمعاملات الثابت والانحدار لمتغيري "سكان الحضر" و"سكان روسيا" له دلالة معنوية عند مستوى 0.0000001؛ 0.00005 و 0.007 على التوالي. تم رفض الفرضية الصفرية القائلة بأن المعاملات عشوائية.

إحصائيات إضافية مفيدة في تحليل العلاقة بين القيم الأصلية والمتوقعة للمتغير التابع هي مسافة ماهالانوبيس ومسافة كوك. الأول هو مقياس لتفرد الحالة (يوضح مدى انحراف مجموعة قيم جميع المتغيرات المستقلة لحالة معينة عن القيمة المتوسطة لجميع المتغيرات المستقلة في وقت واحد). والثاني هو مقياس تأثير القضية. الملاحظات المختلفة لها تأثيرات مختلفة على ميل خط الانحدار، ويمكن استخدام مسافة كوك لمقارنتها على هذا المؤشر. يمكن أن يكون هذا مفيدًا عند تنظيف القيم المتطرفة (يمكن اعتبار الحالة المتطرفة حالة مؤثرة بشكل مفرط).

وفي مثالنا، تشمل الحالات الفريدة والمؤثرة داغستان.

يحدث إبداعي

قيم

بريدسكا

قيم

بقايا الطعام مسافة

ماهالانوبيس

مسافة
أديغيا 64,92 66,33 -1,40 0,69 0,00
جمهورية التاي 68,60 69.91 -1,31 6,80 0,01
جمهورية بورياتيا 60,75 65,56 -4,81 0,23 0,01
جمهورية داغستان 79,92 71,01 8,91 10,57 0,44
جمهورية إنغوشيا 75,05 70,21 4,84 6,73 0,08
جمهورية كالميكيا 68,52 69,59 -1,07 4,20 0,00

يحتوي نموذج الانحدار نفسه على المعلمات التالية: تقاطع Y (ثابت) = 75.99؛ ب (أفقي) = -0.1؛ كوميرسانت (ناس روسية) = -0.06. الصيغة النهائية.

الميزة الرئيسية لتحليل الانحدار: بمساعدته، يمكنك الحصول على معلومات محددة حول شكل وطبيعة العلاقة بين المتغيرات قيد الدراسة.

تسلسل مراحل تحليل الانحدار

دعونا ننظر بإيجاز في مراحل تحليل الانحدار.

    صياغة المشكلة. في هذه المرحلة يتم تشكيل فرضيات أولية حول اعتماد الظواهر قيد الدراسة.

    تعريف المتغيرات التابعة والمستقلة (التوضيحية).

    جمع البيانات الإحصائية. يجب جمع البيانات لكل من المتغيرات المدرجة في نموذج الانحدار.

    صياغة فرضية حول شكل الارتباط (بسيط أو متعدد، خطي أو غير خطي).

    تعريف وظائف الانحدار (يتكون من حساب القيم العددية لمعلمات معادلة الانحدار)

    تقييم دقة تحليل الانحدار.

    تفسير النتائج التي تم الحصول عليها. وتمت مقارنة النتائج التي تم الحصول عليها من تحليل الانحدار مع الفرضيات الأولية. ويتم تقييم صحة ومصداقية النتائج التي تم الحصول عليها.

    التنبؤ بالقيم المجهولة للمتغير التابع.

باستخدام تحليل الانحدار، من الممكن حل مشكلة التنبؤ والتصنيف. يتم حساب القيم المتوقعة عن طريق استبدال قيم المتغيرات التوضيحية في معادلة الانحدار. يتم حل مشكلة التصنيف بهذه الطريقة: يقسم خط الانحدار مجموعة الكائنات بأكملها إلى فئتين، وجزء المجموعة الذي تكون فيه قيمة الدالة أكبر من الصفر ينتمي إلى فئة واحدة، والجزء الذي تكون فيه قيمة الدالة أقل من الصفر ينتمي إلى فئة أخرى.

مشاكل تحليل الانحدار

دعونا نفكر في المهام الرئيسية لتحليل الانحدار: تحديد شكل التبعية وتحديده وظائف الانحدار، تقدير القيم المجهولة للمتغير التابع.

تحديد شكل الاعتماد.

يمكن لطبيعة وشكل العلاقة بين المتغيرات أن تشكل الأنواع التالية من الانحدار:

    الانحدار الخطي الإيجابي (معبراً عنه بالنمو الموحد للدالة)؛

    الانحدار الإيجابي المتزايد بشكل موحد.

    الانحدار الإيجابي المتزايد بشكل موحد.

    الانحدار الخطي السلبي (يعبر عنه بانخفاض موحد في الوظيفة)؛

    الانحدار السلبي المتناقص المتسارع بشكل موحد ؛

    الانحدار السلبي المتناقص بشكل موحد.

ومع ذلك، فإن الأصناف الموصوفة عادة لا توجد في شكل نقي، ولكن بالاشتراك مع بعضها البعض. في هذه الحالة، نتحدث عن أشكال الانحدار مجتمعة.

تعريف وظيفة الانحدار.

وتتلخص المهمة الثانية في تحديد التأثير على المتغير التابع للعوامل أو الأسباب الرئيسية، مع تساوي باقي الأشياء، مع مراعاة استبعاد تأثير العناصر العشوائية على المتغير التابع. وظيفة الانحداريتم تعريفها في شكل معادلة رياضية من نوع أو آخر.

تقدير القيم المجهولة للمتغير التابع.

ويتلخص حل هذه المشكلة في حل مشكلة من أحد الأنواع التالية:

    تقدير قيم المتغير التابع ضمن الفترة المدروسة من البيانات الأولية، أي. قيم مفقودة؛ وفي هذه الحالة يتم حل مشكلة الاستيفاء.

    تقدير القيم المستقبلية للمتغير التابع أي العثور على قيم خارج الفاصل الزمني المحدد للبيانات المصدر؛ وفي هذه الحالة يتم حل مشكلة الاستقراء.

يتم حل كلتا المشكلتين عن طريق استبدال تقديرات المعلمات الموجودة بقيم المتغيرات المستقلة في معادلة الانحدار. نتيجة حل المعادلة هي تقدير قيمة المتغير المستهدف (التابع).

دعونا نلقي نظرة على بعض الافتراضات التي يعتمد عليها تحليل الانحدار.

افتراض الخطية، أي. من المفترض أن تكون العلاقة بين المتغيرات قيد النظر خطية. لذلك، في هذا المثال، قمنا برسم مخطط مبعثر وتمكنا من رؤية علاقة خطية واضحة. إذا رأينا، في المخطط المبعثر للمتغيرات، غيابًا واضحًا للعلاقة الخطية، أي. إذا كانت هناك علاقة غير خطية، فيجب استخدام طرق التحليل غير الخطية.

افتراض الحالة الطبيعية بقايا الطعام. ويفترض أن توزيع الفرق بين القيم المتوقعة والمرصودة طبيعي. لتحديد طبيعة التوزيع بشكل مرئي، يمكنك استخدام الرسوم البيانية بقايا الطعام.

عند استخدام تحليل الانحدار، ينبغي النظر في القيد الرئيسي. وهو يتألف من حقيقة أن تحليل الانحدار يسمح لنا باكتشاف التبعيات فقط، وليس الاتصالات الكامنة وراء هذه التبعيات.

يتيح لك تحليل الانحدار تقدير قوة العلاقة بين المتغيرات عن طريق حساب القيمة المقدرة للمتغير بناءً على عدة قيم معروفة.

معادلة الانحدار.

تبدو معادلة الانحدار كما يلي: Y=a+b*X

باستخدام هذه المعادلة، يتم التعبير عن المتغير Y بدلالة الثابت a وميل الخط (أو الميل) b، مضروبًا في قيمة المتغير X. ويسمى الثابت a أيضًا حد التقاطع، والميل هو معامل الانحدار أو معامل B.

في معظم الحالات (إن لم يكن دائمًا) يوجد تشتت معين من الملاحظات بالنسبة لخط الانحدار.

بقية هو انحراف نقطة واحدة (الملاحظة) عن خط الانحدار (القيمة المتوقعة).

لحل مشكلة تحليل الانحدار في MS Excel، اختر من القائمة خدمة"حزمة التحليل"وأداة تحليل الانحدار. قمنا بتعيين فترات الإدخال X و Y. الفاصل الزمني للإدخال Y هو نطاق البيانات التابعة التي تم تحليلها، ويجب أن يتضمن عمودًا واحدًا. الفاصل الزمني للإدخال X هو نطاق البيانات المستقلة التي تحتاج إلى تحليل. يجب ألا يتجاوز عدد نطاقات الإدخال 16.

عند إخراج الإجراء في نطاق الإخراج نحصل على التقرير الوارد في الجدول 8.3أ-8.3 فولت.

استنتاج النتائج

الجدول 8.3أ. إحصائيات الانحدار

إحصائيات الانحدار

الجمع ر

R-مربع

تطبيع مربع R

خطأ تقليدي

الملاحظات

دعونا نلقي نظرة أولاً على الجزء العلوي من الحسابات المقدمة في الجدول 8.3أ- إحصائيات الانحدار.

ضخامة R-مربع، ويسمى أيضًا مقياس اليقين، وهو ما يميز جودة خط الانحدار الناتج. يتم التعبير عن هذه الجودة من خلال درجة المراسلات بين البيانات المصدر ونموذج الانحدار (البيانات المحسوبة). ومقياس اليقين يكون دائمًا ضمن الفترة.

في معظم الحالات القيمة R-مربعومن بين هذه القيم يسمى المتطرف، أي. بين الصفر والواحد.

إذا كانت القيمة R-مربعقريب من الوحدة، وهذا يعني أن النموذج المبني يفسر تقريبًا كل التباين في المتغيرات المقابلة. وعلى العكس من ذلك المعنى R-مربع، بالقرب من الصفر، يعني سوء نوعية النموذج الذي تم إنشاؤه.

في مثالنا، مقياس اليقين هو 0.99673، مما يشير إلى توافق جيد جدًا لخط الانحدار مع البيانات الأصلية.

الجمع ر - معامل الارتباط المتعدد R - يعبر عن درجة اعتماد المتغيرين المستقلين (X) والمتغير التابع (Y).

الجمع ريساوي الجذر التربيعي لمعامل التحديد، وتأخذ هذه الكمية قيمًا في المدى من صفر إلى واحد.

في تحليل الانحدار الخطي البسيط الجمع ريساوي معامل ارتباط بيرسون. حقًا، الجمع روهو في حالتنا يساوي معامل ارتباط بيرسون من المثال السابق (0.998364).

الجدول 8.3ب. معاملات الانحدار

احتمال

خطأ تقليدي

t-إحصائية

تقاطع Y

المتغير × 1

* يتم توفير نسخة مبتورة من الحسابات

الآن فكر في الجزء الأوسط من الحسابات المقدمة في الجدول 8.3ب. هنا يتم إعطاء معامل الانحدار ب (2.305454545) والإزاحة على طول المحور الإحداثي، أي. ثابت أ (2.694545455).

وبناء على الحسابات يمكننا كتابة معادلة الانحدار على النحو التالي:

ص= س*2.305454545+2.694545455

يتم تحديد اتجاه العلاقة بين المتغيرات بناء على الإشارات (سلبية أو إيجابية) لمعاملات الانحدار (معامل ب).

وإذا كانت إشارة معامل الانحدار موجبة فإن العلاقة بين المتغير التابع والمتغير المستقل تكون موجبة. في حالتنا، إشارة معامل الانحدار موجبة، وبالتالي فإن العلاقة موجبة أيضًا.

وإذا كانت إشارة معامل الانحدار سالبة، فإن العلاقة بين المتغير التابع والمتغير المستقل تكون سالبة (معكوسة).

في الجدول 8.3ج. يتم عرض نتائج الإخراج بقايا الطعام. لكي تظهر هذه النتائج في التقرير، يجب عليك تفعيل خانة الاختيار "البقايا" عند تشغيل أداة "الانحدار".

انسحاب الباقي

الجدول 8.3ج. بقايا الطعام

ملاحظة

توقع ي

بقايا الطعام

الموازين القياسية

باستخدام هذا الجزء من التقرير، يمكننا رؤية انحرافات كل نقطة عن خط الانحدار الذي تم إنشاؤه. أكبر قيمة مطلقة بقيةفي حالتنا - 0.778، الأصغر - 0.043. لتفسير هذه البيانات بشكل أفضل، سوف نستخدم الرسم البياني للبيانات الأصلية وخط الانحدار المبني المعروض في أرز. 8.3. كما ترون، فإن خط الانحدار "ملائم" بدقة لقيم البيانات الأصلية.

يجب أن يؤخذ في الاعتبار أن المثال قيد النظر بسيط للغاية وليس من الممكن دائمًا إنشاء خط انحدار خطي نوعيًا.

أرز. 8.3.بيانات المصدر وخط الانحدار

إن مشكلة تقدير القيم المستقبلية المجهولة للمتغير التابع على أساس القيم المعروفة للمتغير المستقل ظلت غير مدروسة، أي: مشكلة التنبؤ.

بوجود معادلة الانحدار، تنحصر مشكلة التنبؤ في حل المعادلة Y=x*2.305454545+2.694545455 ذات القيم المعروفة لـ x. يتم عرض نتائج التنبؤ بالمتغير التابع Y بست خطوات للأمام في الجدول 8.4.

الجدول 8.4. Y نتائج التنبؤ المتغيرة

ص (متوقع)

وبالتالي، نتيجة لاستخدام تحليل الانحدار في Microsoft Excel، قمنا بما يلي:

    بنيت معادلة الانحدار.

    تحديد شكل الاعتماد واتجاه الاتصال بين المتغيرات - الانحدار الخطي الإيجابي، والذي يتم التعبير عنه في النمو الموحد للوظيفة؛

    تحديد اتجاه العلاقة بين المتغيرات.

    تقييم جودة خط الانحدار الناتج؛

    تمكنوا من رؤية انحرافات البيانات المحسوبة عن بيانات المجموعة الأصلية؛

    القيم المستقبلية المتوقعة للمتغير التابع.

لو وظيفة الانحدارتم تحديدها وتفسيرها وتبريرها، وتقييم دقة تحليل الانحدار يفي بالمتطلبات، ويمكن اعتبار النموذج المبني والقيم المتوقعة تتمتع بموثوقية كافية.

القيم المتوقعة التي تم الحصول عليها بهذه الطريقة هي متوسط ​​القيم التي يمكن توقعها.

في هذا العمل استعرضنا الخصائص الرئيسية الإحصاء الوصفيومن بينها مفاهيم مثل متوسط ​​القيمة,الوسيط,أقصى,الحد الأدنىوغيرها من خصائص تباين البيانات.

كما تمت مناقشة هذا المفهوم لفترة وجيزة الانبعاثات. وتتعلق الخصائص التي تم النظر فيها بما يسمى تحليل البيانات الاستكشافية؛ وقد لا تنطبق استنتاجاتها على عامة السكان، ولكن فقط على عينة من البيانات. يتم استخدام تحليل البيانات الاستكشافية للحصول على استنتاجات أولية وتكوين فرضيات حول السكان.

كما تمت مناقشة أساسيات تحليل الارتباط والانحدار ومهامها وإمكانيات استخدامها العملي.

ترتبط مفاهيم الارتباط والانحدار بشكل مباشر. هناك العديد من التقنيات الحسابية الشائعة في تحليل الارتباط والانحدار. يتم استخدامها لتحديد علاقات السبب والنتيجة بين الظواهر والعمليات. ومع ذلك، إذا تحليل الارتباطيتيح لنا تقدير قوة واتجاه الاتصال العشوائي تحليل الانحدار- أيضا شكل من أشكال الاعتماد.

الانحدار يمكن أن يكون:

أ) اعتمادًا على عدد الظواهر (المتغيرات):

بسيط (الانحدار بين متغيرين)؛

متعدد (الانحدار بين المتغير التابع (y) والعديد من المتغيرات التوضيحية (x1، x2...xn)؛

ب) حسب النموذج:

خطي (يتم عرضه بواسطة دالة خطية، وتوجد علاقات خطية بين المتغيرات محل الدراسة)؛

غير خطية (يتم عرضها بواسطة دالة غير خطية؛ العلاقة بين المتغيرات قيد الدراسة غير خطية)؛

ج) حسب طبيعة العلاقة بين المتغيرات المتضمنة في المقابل:

موجب (زيادة قيمة المتغير التفسيري تؤدي إلى زيادة قيمة المتغير التابع والعكس صحيح)؛

سالب (كلما زادت قيمة المتغير التوضيحي، انخفضت قيمة المتغير الموضح)؛

د) حسب النوع:

مباشر (في هذه الحالة، يكون للسبب تأثير مباشر على التأثير، أي أن المتغيرات التابعة والتفسيرية ترتبط ارتباطًا مباشرًا ببعضها البعض)؛

غير مباشر (المتغير التوضيحي له تأثير غير مباشر من خلال ثلث أو عدد من المتغيرات الأخرى على المتغير التابع)؛

خطأ (انحدار هراء) - يمكن أن ينشأ من خلال اتباع نهج سطحي ورسمي للعمليات والظواهر التي تتم دراستها. مثال على ذلك غير المنطقي هو الانحدار الذي يثبت العلاقة بين انخفاض كمية الكحول المستهلكة في بلادنا وانخفاض بيع مسحوق الغسيل.

عند إجراء تحليل الانحدار، يتم حل المهام الرئيسية التالية:

1. تحديد شكل الاعتماد.

2. تعريف دالة الانحدار. للقيام بذلك، يتم استخدام معادلة رياضية من نوع أو آخر، والتي تسمح، أولاً، بتحديد الاتجاه العام للتغير في المتغير التابع، وثانياً، حساب تأثير المتغير التوضيحي (أو عدة متغيرات) على المتغير التابع.

3. تقدير القيم المجهولة للمتغير التابع. تتيح لك العلاقة الرياضية الناتجة (معادلة الانحدار) تحديد قيمة المتغير التابع ضمن فاصل القيم المحددة للمتغيرات التوضيحية وخارجها. وفي الحالة الأخيرة، يعمل تحليل الانحدار كأداة مفيدة في التنبؤ بالتغيرات في العمليات والظواهر الاجتماعية والاقتصادية (شريطة الحفاظ على الاتجاهات والعلاقات القائمة). عادة، يتم تحديد طول الفترة الزمنية التي يتم خلالها تنفيذ التنبؤ بحيث لا تزيد عن نصف الفترة الزمنية التي تم خلالها تنفيذ ملاحظات المؤشرات الأولية. من الممكن تنفيذ كل من التنبؤ السلبي، وحل مشكلة الاستقراء، والتنبؤ النشط، والتفكير وفقًا لمخطط "إذا...، إذن" المعروف واستبدال القيم المختلفة في واحد أو أكثر من متغيرات الانحدار التوضيحية .



ل بناء الانحدارطريقة خاصة تسمى طريقة المربعات الصغرى. تتمتع هذه الطريقة بمزايا مقارنة بطرق التجانس الأخرى: تحديد رياضي بسيط نسبيًا للمعلمات المطلوبة ومبرر نظري جيد من وجهة نظر احتمالية.

عند اختيار نموذج الانحدار، فإن أحد المتطلبات الأساسية له هو ضمان أكبر قدر ممكن من البساطة، مما يسمح لك بالحصول على حل بدقة كافية. لذلك، لإنشاء علاقات إحصائية، أولاً، كقاعدة عامة، نعتبر نموذجًا من فئة الوظائف الخطية (باعتبارها أبسط فئات الوظائف الممكنة):

حيث bi، b2...bj هي معاملات تحدد تأثير المتغيرات المستقلة xij على القيمة yi؛ منظمة العفو الدولية - عضو مجاني؛ ei - الانحراف العشوائي الذي يعكس تأثير العوامل غير المحسوبة على المتغير التابع؛ ن - عدد المتغيرات المستقلة؛ N هو عدد المشاهدات ويجب استيفاء الشرط (N . n+1).

نموذج خطييمكن وصف فئة واسعة جدًا من المهام المختلفة. ومع ذلك، من الناحية العملية، ولا سيما في النظم الاجتماعية والاقتصادية، يصعب أحيانًا استخدام النماذج الخطية بسبب الأخطاء التقريبية الكبيرة. لذلك، غالبًا ما يتم استخدام وظائف الانحدار المتعددة غير الخطية التي يمكن أن تكون خطية. وتشمل هذه، على سبيل المثال، وظيفة الإنتاج (وظيفة الطاقة كوب-دوغلاس)، والتي وجدت تطبيقًا في العديد من الدراسات الاجتماعية والاقتصادية. يبدو مثل:

حيث b 0 هو عامل التسوية، b 1 ...b j معاملات غير معروفة، e i هو انحراف عشوائي.

باستخدام اللوغاريتمات الطبيعية، يمكنك تحويل هذه المعادلة إلى شكل خطي:

يسمح النموذج الناتج باستخدام إجراءات الانحدار الخطي القياسية الموضحة أعلاه. من خلال إنشاء نماذج من نوعين (مضاف ومضاعف)، يمكنك اختيار الأفضل وإجراء المزيد من البحث مع وجود أخطاء تقريبية أصغر.

يوجد نظام متطور لاختيار الوظائف التقريبية - طريقة المحاسبة الجماعية للحجج(مغوا).

يمكن الحكم على صحة النموذج المختار من خلال نتائج دراسة البقايا وهي الاختلافات بين القيم المرصودة y i والقيم المقابلة y i المتوقعة باستخدام معادلة الانحدار. في هذه الحالة للتحقق من كفاية النموذجمحسوب متوسط ​​خطأ التقريب:

يعتبر النموذج ملائمًا إذا كانت e ضمن حدود لا تزيد عن 15%.

ونؤكد بشكل خاص أنه فيما يتعلق بالنظم الاجتماعية والاقتصادية، فإن الشروط الأساسية لملاءمة نموذج الانحدار الكلاسيكي لا يتم استيفاؤها دائمًا.

ودون الخوض في جميع أسباب النقص الذي ينشأ، سنكتفي بتسمية هذه الأسباب متعددة الخطية- المشكلة الأصعب في التطبيق الفعال لإجراءات تحليل الانحدار في دراسة التبعيات الإحصائية. تحت متعددة الخطيةومن المفهوم أن هناك علاقة خطية بين المتغيرات التوضيحية.

هذه الظاهرة :

أ) يشوه معنى معاملات الانحدار عند تفسيرها بشكل مفيد؛

ب) يقلل من دقة التقييم (يزيد تشتت التقييمات)؛

ج) يزيد من حساسية تقديرات المعامل لبيانات العينة (زيادة حجم العينة يمكن أن يؤثر بشكل كبير على التقديرات).

هناك تقنيات مختلفة لتقليل التعددية الخطية. الطريقة الأكثر سهولة هي حذف أحد المتغيرين إذا كان معامل الارتباط بينهما يتجاوز قيمة تساوي القيمة المطلقة 0.8. يتم تحديد أي من المتغيرات التي يجب الاحتفاظ بها بناءً على اعتبارات جوهرية. ثم يتم حساب معاملات الانحدار مرة أخرى.

يسمح لك استخدام خوارزمية الانحدار التدريجي بتضمين متغير مستقل واحد بشكل تسلسلي في النموذج وتحليل أهمية معاملات الانحدار والعلاقة الخطية المتعددة للمتغيرات. وأخيرا، تبقى فقط تلك المتغيرات في العلاقة قيد الدراسة والتي توفر الأهمية اللازمة لمعاملات الانحدار والحد الأدنى من تأثير العلاقة الخطية المتعددة.

في المنشورات السابقة، ركز التحليل غالبًا على متغير رقمي واحد، مثل عوائد صناديق الاستثمار المشتركة، أو أوقات تحميل صفحة الويب، أو استهلاك المشروبات الغازية. في هذه الملاحظات والملاحظات اللاحقة، سنتناول طرق التنبؤ بقيم متغير رقمي اعتمادًا على قيم واحد أو أكثر من المتغيرات الرقمية الأخرى.

سيتم توضيح المادة بمثال شامل. التنبؤ بحجم المبيعات في متجر لبيع الملابس.تتوسع سلسلة متاجر الملابس المخفضة Sunflowers باستمرار منذ 25 عامًا. ومع ذلك، فإن الشركة حاليًا ليس لديها نهج منظم لاختيار منافذ البيع الجديدة. يتم تحديد الموقع الذي تنوي الشركة افتتاح متجر جديد فيه بناءً على اعتبارات ذاتية. معايير الاختيار هي شروط الإيجار المواتية أو فكرة المدير عن موقع المتجر المثالي. تخيل أنك رئيس قسم المشاريع الخاصة والتخطيط. لقد تم تكليفك بوضع خطة استراتيجية لفتح متاجر جديدة. يجب أن تتضمن هذه الخطة توقعات المبيعات السنوية للمتاجر المفتوحة حديثًا. أنت تعتقد أن مساحة البيع بالتجزئة ترتبط ارتباطًا مباشرًا بالإيرادات وتريد أن تأخذ ذلك في الاعتبار في عملية اتخاذ القرار. كيف يمكنك تطوير نموذج إحصائي للتنبؤ بالمبيعات السنوية بناءً على حجم المتجر الجديد؟

عادة، يتم استخدام تحليل الانحدار للتنبؤ بقيم المتغير. هدفها هو تطوير نموذج إحصائي يمكنه التنبؤ بقيم المتغير التابع، أو الاستجابة، من قيم متغير مستقل، أو توضيحي واحد على الأقل. في هذه المذكرة، سنلقي نظرة على الانحدار الخطي البسيط - وهي طريقة إحصائية تسمح لك بالتنبؤ بقيم المتغير التابع يبواسطة قيم متغيرة مستقلة X. سوف تصف الملاحظات اللاحقة نموذج الانحدار المتعدد المصمم للتنبؤ بقيم المتغير المستقل يبناءً على قيم عدة متغيرات تابعة ( × 1، × 2، …، × ك).

قم بتنزيل المذكرة بالتنسيق أو بالأمثلة بالتنسيق

أنواع نماذج الانحدار

أين ρ 1 - معامل الارتباط الذاتي؛ لو ρ 1 = 0 (لا يوجد ارتباط تلقائي)، د≈ 2؛ لو ρ 1 ≈ 1 (ارتباط تلقائي إيجابي)، د≈ 0; لو ρ 1 = -1 (الارتباط الذاتي السلبي)، د ≈ 4.

ومن الناحية العملية، يعتمد تطبيق معيار دوربين-واتسون على مقارنة القيمة دمع القيم النظرية الحرجة د لو دولعدد معين من الملاحظات نعدد المتغيرات المستقلة للنموذج ك(للانحدار الخطي البسيط ك= 1) ومستوى الأهمية α. لو د< d L تم رفض الفرضية الخاصة باستقلال الانحرافات العشوائية (وبالتالي يوجد ارتباط ذاتي إيجابي)؛ لو د> دو، لم يتم رفض الفرضية (أي أنه لا يوجد ارتباط ذاتي)؛ لو د ل< D < d U ، لا توجد أسباب كافية لاتخاذ القرار. عندما القيمة المحسوبة ديتجاوز 2، ثم مع د لو دووليس المعامل نفسه هو الذي تتم مقارنته دوالتعبير (4 – د).

لحساب إحصائيات Durbin-Watson في Excel، دعنا ننتقل إلى الجدول السفلي في الشكل. 14 سحب الرصيد. يتم حساب البسط في التعبير (10) باستخدام الدالة =SUMMAR(array1;array2) والمقام =SUMMAR(array) (الشكل 16).

أرز. 16. صيغ لحساب إحصائيات دوربين واتسون

في مثالنا د= 0.883. والسؤال الرئيسي هو: ما هي قيمة إحصائية دوربين-واتسون التي ينبغي اعتبارها صغيرة بما يكفي لاستنتاج وجود ارتباط ذاتي إيجابي؟ من الضروري ربط قيمة D بالقيم الحرجة ( د لو دو)، اعتمادا على عدد الملاحظات نومستوى الأهمية α (الشكل 17).

أرز. 17. القيم الحرجة لإحصائيات دوربين واتسون (جزء من الجدول)

وبالتالي، في مشكلة حجم المبيعات في متجر يقوم بتوصيل البضائع إلى المنزل، يوجد متغير مستقل واحد ( ك= 1)، 15 ملاحظة ( ن= 15) ومستوى الأهمية α = 0.05. لذلك، د ل= 1.08 و دش= 1.36. بسبب ال د = 0,883 < د ل= 1.08، يوجد ارتباط ذاتي موجب بين القيم المتبقية، ولا يمكن استخدام طريقة المربعات الصغرى.

اختبار الفرضيات حول الميل ومعامل الارتباط

أعلاه، تم استخدام الانحدار فقط للتنبؤ. تحديد معاملات الانحدار والتنبؤ بقيمة المتغير يلقيمة متغيرة معينة Xتم استخدام طريقة المربعات الصغرى . بالإضافة إلى ذلك، قمنا بفحص جذر متوسط ​​مربع الخطأ للتقدير ومعامل الارتباط المختلط. إذا أكد تحليل المتبقيات عدم الإخلال بشروط تطبيق طريقة المربعات الصغرى، وأن نموذج الانحدار الخطي البسيط كافي، استنادا إلى بيانات العينة، فيمكن القول بوجود علاقة خطية بين المتغيرات في سكان.

طلبر -معايير المنحدر.باختبار ما إذا كان المنحدر السكاني β 1 يساوي صفرًا، يمكنك تحديد ما إذا كانت هناك علاقة ذات دلالة إحصائية بين المتغيرات Xو ي. وإذا تم رفض هذه الفرضية فيمكن القول بأنه بين المتغيرات Xو يهناك علاقة خطية. تمت صياغة الفرضيات الصفرية والبديلة على النحو التالي: H 0: β 1 = 0 (لا يوجد اعتماد خطي)، H1: β 1 ≠ 0 (يوجد اعتماد خطي). أ-بريوري ر- الإحصائية تساوي الفرق بين ميل العينة والقيمة الافتراضية لمنحدر السكان مقسومة على جذر متوسط ​​مربع الخطأ لتقدير الميل:

(11) ر = (ب 1 β 1 ) / س ب 1

أين ب 1 - ميل الانحدار المباشر على بيانات العينة، β1 - المنحدر الافتراضي للسكان المباشرين، ، وإحصائيات الاختبار رلقد ر-التوزيع مع ن - 2درجات الحرية.

دعونا نتحقق مما إذا كانت هناك علاقة ذات دلالة إحصائية بين حجم المتجر والمبيعات السنوية عند α = 0.05. ر-يتم عرض المعيار مع المعلمات الأخرى عند استخدامه حزمة التحليل(خيار تراجع). تظهر النتائج الكاملة لحزمة التحليل في الشكل 1. 4، الجزء المتعلق بإحصائيات t - في الشكل. 18.

أرز. 18. نتائج التطبيق ر

منذ عدد المتاجر ن= 14 (انظر الشكل 3)، القيمة الحرجة ر-يمكن العثور على الإحصائيات عند مستوى دلالة α = 0.05 باستخدام الصيغة: ر ل=STUDENT.ARV(0.025,12) = –2.1788، حيث 0.025 هو نصف مستوى الأهمية، و12 = ن – 2; تي يو=STUDENT.OBR(0.975,12) = +2.1788.

بسبب ال ر-الإحصائيات = 10.64> تي يو= 2.1788 (الشكل 19)، فرضية العدم ح 0مرفوض. على الجانب الآخر، ر-قيمة ل X= 10.6411، محسوبة بالصيغة =1-STUDENT.DIST(D3,12,TRUE)، تساوي تقريبًا الصفر، وبالتالي فإن الفرضية ح 0تم رفضه مرة أخرى. حقيقة ان ر-القيمة صفر تقريبًا تعني أنه إذا لم تكن هناك علاقة خطية حقيقية بين أحجام المتاجر والمبيعات السنوية، فسيكون من المستحيل فعليًا اكتشافها باستخدام الانحدار الخطي. ولذلك توجد علاقة خطية ذات دلالة إحصائية بين متوسط ​​مبيعات المتجر السنوية وحجم المتجر.

أرز. 19. اختبار الفرضيات حول المنحدر السكاني عند مستوى دلالة 0.05 و12 درجة حرية

طلبF -معايير المنحدر.هناك طريقة بديلة لاختبار الفرضيات حول ميل الانحدار الخطي البسيط وهي الاستخدام F-معايير. دعونا نذكركم بذلك F-يستخدم الاختبار لاختبار العلاقة بين تباينين ​​(لمزيد من التفاصيل، راجع). عند اختبار فرضية الميل، يكون مقياس الأخطاء العشوائية هو تباين الخطأ (مجموع مربعات الأخطاء مقسومًا على عدد درجات الحرية)، لذلك F- يستخدم المعيار نسبة التباين الموضح بالانحدار (أي القيمة إصلاحية القطاع الخاص، مقسوما على عدد المتغيرات المستقلة ك) ، إلى تباين الخطأ ( MSE = SYX 2 ).

أ-بريوري F-الإحصائيات تساوي متوسط ​​مربع الانحدار (MSR) مقسومًا على تباين الخطأ (MSE): F = إم إس آر/ MSE، أين مسر=إصلاحية القطاع الخاص / ك، MSE =SSE/(ن– ك – 1)، ك- عدد المتغيرات المستقلة في نموذج الانحدار. إحصائيات الاختبار Fلقد F-التوزيع مع كو ن– ك – 1درجات الحرية.

بالنسبة لمستوى أهمية معين α، يتم صياغة قاعدة القرار على النحو التالي: إذا و>وش، تم رفض الفرضية الصفرية؛ وإلا فلا يتم رفضه. وتظهر النتائج، المعروضة في شكل جدول ملخص لتحليل التباين، في الشكل 1. 20.

أرز. 20. تحليل جدول التباين لاختبار الفرضية حول الأهمية الإحصائية لمعامل الانحدار

على نفس المنوال ر-معيار F-يتم عرض المعيار في الجدول عند استخدامه حزمة التحليل(خيار تراجع). النتائج الكاملة للعمل حزمة التحليلتظهر في الشكل. 4، جزء المتعلقة F– الإحصائيات – في الشكل. 21.

أرز. 21. نتائج التطبيق F-المعايير التي تم الحصول عليها باستخدام حزمة تحليل Excel

إحصائيات F هي 113.23 و ر- القيمة قريبة من الصفر (cell دلالةF). إذا كان مستوى الأهمية α هو 0.05، حدد القيمة الحرجة F-يمكن الحصول على التوزيعات بدرجة حرية واحدة و12 باستخدام الصيغة ف يو=F.OBR(1-0.05;1;12) = 4.7472 (الشكل 22). بسبب ال F = 113,23 > ف يو= 4.7472، و ر- القيمة قريبة من 0< 0,05, нулевая гипотеза ح 0مرفوض، أي. يرتبط حجم المتجر ارتباطًا وثيقًا بمبيعاته السنوية.

أرز. 22. اختبار فرضية المنحدر السكاني عند مستوى دلالة 0.05 وبدرجة حرية واحدة و12 درجة

فاصل الثقة الذي يحتوي على الميل β 1 .لاختبار فرضية وجود علاقة خطية بين المتغيرات، يمكنك إنشاء فاصل ثقة يحتوي على الميل β 1 والتحقق من أن القيمة الافتراضية β 1 = 0 تنتمي إلى هذا الفاصل. مركز فاصل الثقة الذي يحتوي على الميل β 1 هو ميل العينة ب 1 ، وحدودها هي الكميات ب 1 ±تينيسي –2 س ب 1

كما يظهر في الشكل. 18, ب 1 = +1,670, ن = 14, س ب 1 = 0,157. ر 12 =STUDENT.ARV(0.975,12) = 2.1788. لذلك، ب 1 ±تينيسي –2 س ب 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342، أو + 1.328 ≥ β 1 ≥ +2.012. وبالتالي، هناك احتمال قدره 0.95 أن يقع المنحدر السكاني بين +1.328 و+2.012 (أي 1,328,000 دولار إلى 2,012,000 دولار). وبما أن هذه القيم أكبر من الصفر، فإن هناك علاقة خطية ذات دلالة إحصائية بين المبيعات السنوية ومساحة المتجر. إذا كانت فترة الثقة تحتوي على صفر، فلن تكون هناك علاقة بين المتغيرات. بالإضافة إلى ذلك، يعني فاصل الثقة أن كل زيادة في مساحة المتجر بمقدار 1000 متر مربع. قدم يؤدي إلى زيادة في متوسط ​​حجم المبيعات من 1,328,000 دولار إلى 2,012,000 دولار.

الاستخدامر -معايير معامل الارتباط.تم تقديم معامل الارتباط صوهو مقياس للعلاقة بين متغيرين رقميين. ويمكن استخدامه لتحديد ما إذا كانت هناك علاقة ذات دلالة إحصائية بين متغيرين. دعونا نشير إلى معامل الارتباط بين مجتمعات كلا المتغيرين بالرمز ρ. وتتم صياغة الفرضيتين الصفرية والبديلة على النحو التالي: ح 0: ρ = 0 (لا يوجد ارتباط)، ح 1: ρ ≠ 0 (هناك ارتباط). التحقق من وجود الارتباط:

أين ص = + ، لو ب 1 > 0, ص = – ، لو ب 1 < 0. Тестовая статистика رلقد ر-التوزيع مع ن - 2درجات الحرية.

في مشكلة سلسلة متاجر Sunflowers ص 2= 0.904، أ ب 1- +1.670 (انظر الشكل 4). بسبب ال ب 1> 0، معامل الارتباط بين المبيعات السنوية وحجم المتجر هو ص= +√0.904 = +0.951. دعونا نختبر الفرضية الصفرية القائلة بعدم وجود علاقة ارتباطية بين هذه المتغيرات باستخدام ر-إحصائيات:

عند مستوى دلالة α = 0.05، يجب رفض فرضية العدم بسبب ر= 10.64 > 2.1788. وبالتالي يمكن القول بأن هناك علاقة ذات دلالة إحصائية بين المبيعات السنوية وحجم المتجر.

عند مناقشة الاستنتاجات المتعلقة بالانحدار السكاني، يتم استخدام فترات الثقة واختبارات الفرضيات بالتبادل. ومع ذلك، تبين أن حساب فاصل الثقة الذي يحتوي على معامل الارتباط هو أكثر صعوبة، لأن نوع توزيع المعاينة للإحصائية صيعتمد على معامل الارتباط الحقيقي.

تقدير التوقعات الرياضية والتنبؤ بالقيم الفردية

يناقش هذا القسم طرق تقدير التوقع الرياضي للاستجابة يوالتنبؤات بالقيم الفردية يلقيم معينة للمتغير X.

بناء فاصل الثقة.في المثال 2 (انظر القسم أعلاه طريقة المربع الأصغر) مكنت معادلة الانحدار من التنبؤ بقيمة المتغير ي X. في مشكلة اختيار موقع لمنفذ البيع بالتجزئة، يبلغ متوسط ​​حجم المبيعات السنوية في متجر بمساحة 4000 متر مربع. قدم يساوي 7.644 مليون دولار، ومع ذلك، فإن هذا التقدير للتوقعات الرياضية لعامة السكان هو نقطة من الحكمة. لتقدير التوقعات الرياضية للسكان، تم اقتراح مفهوم فترة الثقة. وبالمثل، يمكننا تقديم هذا المفهوم فترة الثقة للتوقع الرياضي للاستجابةلقيمة متغيرة معينة X:

أين , = ب 0 + ب 1 العاشر ط- القيمة المتوقعة متغيرة يفي X = العاشر ط, S YX- جذر متوسط ​​مربع الخطأ، ن- حجم العينة، Xأنا- القيمة المحددة للمتغير X, µ ي|X = Xأنا– التوقع الرياضي للمتغير يفي X = شي، اس اس اكس =

يوضح تحليل الصيغة (13) أن عرض فاصل الثقة يعتمد على عدة عوامل. عند مستوى أهمية معين، تؤدي الزيادة في سعة التقلبات حول خط الانحدار، والتي يتم قياسها باستخدام جذر متوسط ​​مربع الخطأ، إلى زيادة في عرض الفاصل الزمني. ومن ناحية أخرى، وكما هو متوقع، فإن الزيادة في حجم العينة تكون مصحوبة بتضييق الفاصل الزمني. بالإضافة إلى ذلك، يتغير عرض الفاصل الزمني اعتمادًا على القيم Xأنا. إذا كانت القيمة المتغيرة يالمتوقعة للكميات X، قريبة من القيمة المتوسطة ، تبين أن فاصل الثقة أضيق مما كان عليه عند توقع الاستجابة لقيم بعيدة عن المتوسط.

لنفترض أنه عند اختيار موقع متجر، نريد إنشاء فاصل ثقة بنسبة 95% لمتوسط ​​المبيعات السنوية لجميع المتاجر التي تبلغ مساحتها 4000 متر مربع. قدم:

ولذلك فإن متوسط ​​حجم المبيعات السنوية في جميع المتاجر التي تبلغ مساحتها 4000 متر مربع. قدم، مع احتمال 95٪ يكمن في النطاق من 6.971 إلى 8.317 مليون دولار.

احسب فاصل الثقة للقيمة المتوقعة.بالإضافة إلى فترة الثقة للتوقع الرياضي للاستجابة لقيمة معينة للمتغير Xغالبًا ما يكون من الضروري معرفة فترة الثقة للقيمة المتوقعة. على الرغم من أن صيغة حساب فاصل الثقة هذا تشبه إلى حد كبير الصيغة (13)، إلا أن هذا الفاصل الزمني يحتوي على القيمة المتوقعة بدلاً من تقدير المعلمة. الفاصل الزمني للاستجابة المتوقعة يX = شيلقيمة متغيرة محددة Xأناتحددها الصيغة:

لنفترض أنه عند اختيار موقع لمنفذ بيع بالتجزئة، نريد إنشاء فاصل ثقة بنسبة 95% لحجم المبيعات السنوية المتوقعة لمتجر تبلغ مساحته 4000 متر مربع. قدم:

وبالتالي فإن حجم المبيعات السنوية المتوقعة لمتجر بمساحة 4000 متر مربع. قدم، مع احتمال 95٪ يقع في النطاق من 5.433 إلى 9.854 مليون دولار، وكما نرى، فإن فاصل الثقة لقيمة الاستجابة المتوقعة أوسع بكثير من فاصل الثقة لتوقعها الرياضي. وذلك لأن التباين في التنبؤ بالقيم الفردية أكبر بكثير منه في تقدير التوقع الرياضي.

المزالق والقضايا الأخلاقية المرتبطة باستخدام الانحدار

الصعوبات المرتبطة بتحليل الانحدار:

  • تجاهل شروط تطبيق طريقة المربعات الصغرى.
  • التقييم الخاطئ لشروط تطبيق طريقة المربعات الصغرى.
  • الاختيار غير الصحيح للطرق البديلة عند انتهاك شروط تطبيق طريقة المربعات الصغرى.
  • تطبيق تحليل الانحدار دون معرفة عميقة بموضوع البحث.
  • استقراء الانحدار خارج نطاق المتغير التوضيحي.
  • الخلط بين العلاقات الإحصائية والسببية.

أدى الاستخدام الواسع النطاق لجداول البيانات والبرامج الإحصائية إلى القضاء على المشاكل الحسابية التي أعاقت استخدام تحليل الانحدار. ومع ذلك، أدى ذلك إلى حقيقة أن تحليل الانحدار تم استخدامه من قبل المستخدمين الذين ليس لديهم المؤهلات والمعرفة الكافية. كيف يمكن للمستخدمين معرفة الطرق البديلة إذا كان الكثير منهم ليس لديهم أي فكرة على الإطلاق عن شروط تطبيق طريقة المربعات الصغرى ولا يعرفون كيفية التحقق من تنفيذها؟

لا ينبغي للباحث أن ينجرف في معالجة الأرقام - حساب معامل التحول والانحدار ومعامل الارتباط المختلط. فهو يحتاج إلى معرفة أعمق. دعونا نوضح ذلك بمثال كلاسيكي مأخوذ من الكتب المدرسية. أظهر أنسكومب أن جميع مجموعات البيانات الأربع الموضحة في الشكل 1. 23، لها نفس معلمات الانحدار (الشكل 24).

أرز. 23. أربع مجموعات بيانات مصطنعة

أرز. 24. تحليل الانحدار لأربع مجموعات بيانات مصطنعة؛ فعلت مع حزمة التحليل(اضغط على الصورة لتكبير الصورة)

لذا، من وجهة نظر تحليل الانحدار، فإن جميع مجموعات البيانات هذه متطابقة تمامًا. إذا انتهى التحليل هناك، فسنفقد الكثير من المعلومات المفيدة. ويتجلى ذلك من خلال المخططات المبعثرة (الشكل 25) والمؤامرات المتبقية (الشكل 26) التي تم إنشاؤها لمجموعات البيانات هذه.

أرز. 25. مخططات مبعثرة لأربع مجموعات بيانات

تشير المخططات المبعثرة والمؤامرات المتبقية إلى أن هذه البيانات تختلف عن بعضها البعض. المجموعة الوحيدة الموزعة على طول خط مستقيم هي المجموعة A. ولا يحتوي مخطط البقايا المحسوب من المجموعة A على أي نمط. لا يمكن قول هذا عن المجموعات B وC وD. فالمخطط المبعثر المرسوم للمجموعة B يُظهر نمطًا تربيعيًا واضحًا. يتم تأكيد هذا الاستنتاج من خلال المؤامرة المتبقية، والتي لها شكل مكافئ. يُظهر المخطط المبعثر والمؤامرة المتبقية أن مجموعة البيانات B تحتوي على قيمة خارجية. في هذه الحالة، من الضروري استبعاد القيم المتطرفة من مجموعة البيانات وتكرار التحليل. تسمى طريقة اكتشاف القيم المتطرفة والقضاء عليها في الملاحظات تحليل التأثير. وبعد إزالة القيمة المتطرفة، قد تكون نتيجة إعادة تقدير النموذج مختلفة تمامًا. يوضح مخطط التشتت المرسوم من بيانات من المجموعة G موقفًا غير عادي يعتمد فيه النموذج التجريبي بشكل كبير على الاستجابة الفردية ( × 8 = 19, ي 8 = 12.5). ويجب حساب نماذج الانحدار هذه بعناية خاصة. لذلك، تعد المخططات المبعثرة والمتبقية أداة أساسية لتحليل الانحدار ويجب أن تكون جزءًا لا يتجزأ منها. وبدونها، لا يكون تحليل الانحدار ذا مصداقية.

أرز. 26. قطع الأراضي المتبقية لأربع مجموعات من البيانات

كيفية تجنب المزالق في تحليل الانحدار:

  • تحليل العلاقات المحتملة بين المتغيرات Xو يابدأ دائمًا برسم مخطط مبعثر.
  • قبل تفسير نتائج تحليل الانحدار، تحقق من شروط قابليتها للتطبيق.
  • ارسم القيم المتبقية مقابل المتغير المستقل. وهذا سيجعل من الممكن تحديد مدى مطابقة النموذج التجريبي لنتائج المراقبة واكتشاف انتهاك ثبات التباين.
  • استخدم الرسوم البيانية، ومخططات الجذع والأوراق، ومخططات الصندوق، ومخططات التوزيع الطبيعي لاختبار افتراض توزيع الخطأ الطبيعي.
  • إذا لم يتم استيفاء شروط تطبيق طريقة المربعات الصغرى، استخدم طرق بديلة (على سبيل المثال، نماذج الانحدار التربيعية أو المتعددة).
  • في حالة استيفاء شروط تطبيق طريقة المربعات الصغرى، فمن الضروري اختبار الفرضية حول الأهمية الإحصائية لمعاملات الانحدار وبناء فترات ثقة تحتوي على التوقع الرياضي وقيمة الاستجابة المتوقعة.
  • تجنب التنبؤ بقيم المتغير التابع خارج نطاق المتغير المستقل.
  • ضع في اعتبارك أن العلاقات الإحصائية ليست دائمًا سببًا ونتيجة. تذكر أن الارتباط بين المتغيرات لا يعني وجود علاقة سبب ونتيجة بينهما.

ملخص.وكما هو موضح في الرسم التخطيطي (الشكل 27)، تصف الملاحظة نموذج الانحدار الخطي البسيط، وشروط إمكانية تطبيقه، وكيفية اختبار هذه الشروط. يعتبر ر-معيار لاختبار الدلالة الإحصائية لمنحدر الانحدار. تم استخدام نموذج الانحدار للتنبؤ بقيم المتغير التابع. يعتبر أحد الأمثلة المتعلقة باختيار الموقع لمنفذ البيع بالتجزئة، حيث يتم فحص اعتماد حجم المبيعات السنوية على مساحة المتجر. تتيح لك المعلومات التي تم الحصول عليها تحديد موقع المتجر بشكل أكثر دقة والتنبؤ بحجم مبيعاته السنوية. ستواصل الملاحظات التالية مناقشة تحليل الانحدار وستنظر أيضًا في نماذج الانحدار المتعددة.

أرز. 27. مخطط هيكل الملاحظة

يتم استخدام مواد من كتاب ليفين وآخرين إحصائيات المديرين. – م: ويليامز، 2004. – ص. 792-872

إذا كان المتغير التابع قاطعا، فيجب استخدام الانحدار اللوجستي.