Reqressiya tənliyi statistikası. Xətti reqressiya tənliyinin parametrlərini tapın və reqressiya əmsalının iqtisadi şərhini verin.

x - proqnozlaşdırıcı adlanır - müstəqil və ya izahedici dəyişən.

Verilmiş x kəmiyyəti üçün Y təxmin xəttində yerləşən y dəyişəninin (asılı, çıxış və ya cavab dəyişəni adlanır) dəyəridir. Bu, x-in dəyərini bildiyimiz halda y üçün gözlədiyimiz dəyərdir (orta hesabla) və buna “y-nin proqnozlaşdırılan dəyəri” deyilir (Şəkil 5).

a - qiymətləndirmə xəttinin sərbəst üzvü (keçid); x = 0 olduqda Y-nin qiymətidir.

b təxmin edilən xəttin mailliyi və ya qradiyenti; x-i bir vahid artırsaq, Y-nin orta hesabla artdığı məbləği ifadə edir (Şəkil 5). b əmsalı reqressiya əmsalı adlanır.

Məsələn: insan bədən istiliyinin 1 ° C artması ilə nəbz sürəti dəqiqədə orta hesabla 10 vuruş artır.

Şəkil 5. Əmsalı göstərən xətti reqressiya xətti a və yamac b(dəyəri artırın Y artması ilə X vahid başına)

Riyazi olaraq, xətti reqressiya tənliyinin həlli a və b parametrlərinin hesablanmasına qədər azaldılır ki, korrelyasiya sahəsinin ilkin məlumatlarının nöqtələri birbaşa reqressiyaya mümkün qədər yaxındır .

"Reqressiya" sözünün statistik istifadəsi Frensis Qaltona (1889) aid edilən orta səviyyəyə geriləmə kimi tanınan bir fenomendən irəli gəlir. O, göstərdi ki, hündür ataların hündürboy oğulları olur, oğulların orta boyu hündür atalarınınkından kiçikdir. Oğulların orta boyu əhalinin bütün atalarının orta boyuna doğru “geriləşdi” və ya “əksinə”. Beləliklə, orta hesabla, hündürboy ataların daha qısa (lakin hələ də hündür), qısaboy ataların isə daha uzun (lakin hələ də kifayət qədər qısa) oğulları olur.

Xəstələrin bir hissəsinin müalicə üçün seçilə biləcəyi skrininq və klinik sınaqlarda orta reqressiya görürük, çünki onların müəyyən bir dəyişən, məsələn, xolesterol səviyyələri olduqca yüksəkdir (və ya aşağı). Əgər bu ölçmə vaxt keçdikcə təkrarlanarsa, müalicədən asılı olmayaraq, alt qrup üçün ikinci oxunuşun orta göstəricisi adətən birinci oxunuşdan az olur, əhali arasında yaşa və cinsə uyğun orta göstəriciyə meyl edir (yəni geriləyir). almaq.. İlk gəlişlərində yüksək xolesterol əsasında klinik sınaqlara cəlb edilmiş xəstələr, beləliklə, bu müddət ərzində müalicə olunmasalar belə, ikinci gəlişlərində xolesterol səviyyələrində orta hesabla azalma göstərəcəklər.

Çox vaxt reqressiya təhlili metodu fiziki inkişafın normativ şkalalarını və standartlarını hazırlamaq üçün istifadə olunur.


Reqressiya xəttinin məlumatlara nə dərəcədə uyğun olduğunu, korrelyasiya əmsalının kvadratına (r 2) bərabər olan R əmsalını (adətən faizlə ifadə edilir və təyinetmə əmsalı adlanır) hesablamaqla mühakimə etmək olar. Bu, x ilə əlaqə ilə izah edilə bilən y dispersiyasının nisbətini və ya faizini təmsil edir, yəni. müstəqil əlamətin təsiri altında inkişaf etmiş əlamət-nəticənin variasiya nisbəti. 0-dan 1-ə qədər və ya müvafiq olaraq 0-dan 100% -ə qədər dəyərlər qəbul edə bilər. Fərq (100% - R) bu qarşılıqlı əlaqə ilə izah edilə bilməyən y-də dispersiya faizidir.

Misal

Uşaqlarda boy (sm ilə ölçülür) və sistolik qan təzyiqi (SBP, mmHg ilə ölçülür) arasında əlaqə. Biz hündürlüyə qarşı SBP-nin cüt xətti reqressiya təhlilini apardıq (Şəkil 6). Boy və SBP arasında əhəmiyyətli xətti əlaqə var.

Şəkil 6. Sistolik qan təzyiqi və boy arasındakı əlaqəni göstərən iki ölçülü qrafik. Təxmini reqressiya xətti, sistolik qan təzyiqi göstərilir.

Təxmini reqressiya xətti tənliyi aşağıdakı kimidir:

BAĞ \u003d 46.28 + 0.48 x hündürlük.

Bu nümunədə kəsişmə maraq doğurmur (sıfır artımı tədqiqatda müşahidə olunan diapazondan açıq şəkildə kənardadır). Bununla belə, yamacı şərh edə bilərik; Bu uşaqlarda SBP-nin orta hesabla 0,48 mm Hg artacağı proqnozlaşdırılır. hündürlüyün bir santimetr artması ilə

Verilmiş hündürlükdə bir uşaqda gözlədiyimiz SBP-ni proqnozlaşdırmaq üçün reqressiya tənliyini tətbiq edə bilərik. Məsələn, 115 sm uzunluğunda bir uşağın proqnozlaşdırılan SBP 46,28 + (0,48 x 115) = 101,48 mm Hg-dir. Art., 130 boyu olan bir uşağın proqnozlaşdırılan SBP, 46,28 + (0,48 x 130) = 108,68 mm Hg var. İncəsənət.

Korrelyasiya əmsalı hesablanarkən onun 0,55-ə bərabər olduğu müəyyən edilmişdir ki, bu da orta gücün birbaşa korrelyasiyasını göstərir. Bu halda təyin əmsalı r 2 \u003d 0,55 2 \u003d 0,3. Beləliklə, deyə bilərik ki, böyümənin uşaqlarda qan təzyiqi səviyyəsinə təsirinin payı müvafiq olaraq 30% -dən çox deyil, təsirin 70% -i digər amillərin payına düşür.

Xətti (sadə) reqressiya asılı dəyişən ilə yalnız bir müstəqil dəyişən arasındakı əlaqəni nəzərə almaqla məhdudlaşır. Əgər əlaqədə birdən çox müstəqil dəyişən varsa, onda çoxlu reqressiyaya müraciət etməliyik. Belə bir reqressiya üçün tənlik belə görünür:

y = a + bx 1 + b 2 x 2 +.... + b n x n

Bir neçə müstəqil dəyişənin x 1 , x 2 , .., x n cavab dəyişəninə y təsirinin nəticəsi maraqlı ola bilər. Əgər bu x-lərin bir-birindən asılı ola biləcəyini düşünürüksə, onda bir x-in dəyərinin y-yə dəyişdirilməsinin təsirinə ayrıca baxmamalı, eyni zamanda bütün digər x-lərin qiymətlərini nəzərə almalıyıq.

Misal

Uşağın boyu ilə bədən çəkisi arasında güclü əlaqə olduğundan düşünmək olar ki, uşağın bədən çəkisi və cinsi də nəzərə alındıqda boy və sistolik qan təzyiqi arasındakı əlaqə də dəyişirmi? Çox xətti reqressiya bu çoxsaylı müstəqil dəyişənlərin y-yə birgə təsirini araşdırır.

Bu vəziyyətdə çoxlu reqressiya tənliyi belə görünə bilər:

BAĞ \u003d 79,44 - (0,03 x boy) + (1,18 x çəki) + (4,23 x cins) *

* - (cins üçün, dəyərlər 0 - oğlan, 1 - qız)

Bu tənliyə görə, boyu 115 sm və çəkisi 37 kq olan bir qızın proqnozlaşdırılan SBP olacaq:

BAHÇE \u003d 79,44 - (0,03 x 115) + (1,18 x 37) + (4,23 x 1) \u003d 123,88 mm Hg.

Logistik reqressiya xətti reqressiyaya çox oxşardır; bizi maraqlandıran ikili nəticə (yəni, bir simptomun olması/yoxluğu və ya xəstəliyi olan/olmayan subyekt) və bir sıra proqnozlaşdırıcılar olduqda istifadə olunur. Logistik reqressiya tənliyindən hansı proqnozlaşdırıcıların nəticəyə təsir etdiyini müəyyən etmək və xəstənin proqnozlaşdırıcılarının dəyərlərindən istifadə edərək onun müəyyən bir nəticə əldə etmə ehtimalını qiymətləndirmək mümkündür. Məsələn: fəsadlar yaranacaq, ya olmayacaq, müalicə effektiv olacaq, ya olmayacaq.

İki nəticəni təmsil etmək üçün ikili dəyişən yaratmağa başlayın (məsələn, "xəstəliyi var" = 1, "xəstəliyi yoxdur" = 0). Bununla belə, bu iki dəyəri xətti reqressiya təhlilində asılı dəyişən kimi tətbiq edə bilmərik, çünki normallıq fərziyyəsi pozulur və sıfır və ya bir olmayan proqnozlaşdırılan dəyərləri şərh edə bilmirik.

Əslində, bunun əvəzinə, subyektin asılı dəyişənin ən yaxın kateqoriyasına (yəni "xəstəliyi var") təsnif olunma ehtimalını götürürük və riyazi çətinlikləri aradan qaldırmaq üçün reqressiya tənliyində logistik çevrilmə tətbiq edirik - təbii loqarifm "xəstəlik" ehtimalının (p) "xəstəliyin olmaması" ehtimalına nisbətinin (1-p).

Adi reqressiyadan daha çox, maksimum ehtimal metodu adlanan inteqrativ proses (biz xətti reqressiya prosedurunu tətbiq edə bilmədiyimiz üçün) nümunə verilənlərdən logistik reqressiya tənliyinin təxmini hesabını yaradır.

logit(p) = a + bx 1 + b 2 x 2 +.... + b n x n

logit (p) x 1 ... x n üçün fərdi dəyərlər dəsti olan bir xəstənin xəstə olmasının həqiqi ehtimalının dəyərinin təxminidir;

a - sabitin qiymətləndirilməsi (sərbəst müddət, kəsişmə);

b 1 , b 2 ,... ,b n — logistik reqressiya əmsallarının təxminləri.

1. Dərsin mövzusu ilə bağlı suallar:

1. Funksional və korrelyasiya tərifini verin.

2. Birbaşa və tərs korrelyasiyaya misallar gətirin.

3. Xüsusiyyətlər arasında zəif, orta və güclü əlaqələr üçün korrelyasiya əmsallarının ölçüsünü göstərin.

4. Korrelyasiya əmsalının hesablanması üçün dərəcə metodundan hansı hallarda istifadə olunur?

5.Pirson korrelyasiya əmsalının hesablanması hansı hallarda tətbiq edilir?

6. Korrelyasiya əmsalının rütbə üsulu ilə hesablanmasının əsas mərhələləri hansılardır?

7. “Reqressiya”nı müəyyənləşdirin. Reqressiya metodunun mahiyyəti nədir?

8. Sadə xətti reqressiya tənliyinin düsturunu təsvir edin.

9. Reqressiya əmsalını təyin edin.

10. Boy üçün çəkinin reqressiya əmsalı 0,26 kq/sm olarsa hansı nəticəyə gəlmək olar?

11. Reqressiya tənliyi düsturu nə üçün istifadə olunur?

12. Determinasiya əmsalı nədir?

13. Çoxsaylı reqressiya tənliyi hansı hallarda istifadə olunur.

14. Logistik reqressiya üsulu nə üçün istifadə olunur?

Bir tapşırıq.

Bölgənin yüngül sənaye müəssisələri üçün məhsulun həcminin (Y, milyon rubl) kapital qoyuluşlarının həcmindən (Y, milyon rubl) asılılığını xarakterizə edən məlumatlar əldə edilmişdir.

Cədvəl 1.

Məhsulun həcminin kapital qoyuluşlarının həcmindən asılılığı.

X
Y

Tələb olunur:

1. Xətti reqressiya tənliyinin parametrlərini tapın, reqressiya əmsalının iqtisadi şərhini verin.

2. Qalıqları hesablayın; kvadratların qalıq cəmini tapın; qalıqların dispersiyasını təxmin etmək; qalıqları tərtib edin.

3. LSM ilkin şərtlərinin yerinə yetirilməsini yoxlayın.

4. Student t-testindən istifadə edərək reqressiya tənliyinin parametrlərinin əhəmiyyətini yoxlayın (α = 0,05).

5. Determinasiya əmsalını hesablayın, Fişerin F - kriteriyasından (α = 0,05) istifadə edərək reqressiya tənliyinin əhəmiyyətini yoxlayın, orta nisbi yaxınlaşma xətasını tapın. Modelin keyfiyyəti haqqında qərar verin.

6. X amilinin proqnozlaşdırılan qiyməti onun maksimum dəyərinin 80%-i olarsa, Y göstəricisinin orta qiymətini α = 0,1 əhəmiyyət səviyyəsində proqnozlaşdırmaq.

7. Proqnoz nöqtəsinin faktiki və model Y dəyərlərini qrafik olaraq təqdim edin.

8. Qeyri-xətti reqressiya tənliklərini qurun və onların qrafiklərini qurun:

hiperbolik;

Güc;

Nümayişedici.

9. Bu modellər üçün təyin əmsallarını və orta nisbi yaxınlaşma xətalarını tapın. Bu xüsusiyyətlərə görə modelləri müqayisə edin və nəticə çıxarın.

Xətti reqressiya tənliyinin parametrlərini tapaq və reqressiya əmsalının iqtisadi şərhini verək.

Xətti reqressiya tənliyi belədir: ,

a və b parametrlərinin tapılması üçün hesablamalar Cədvəl 2-də verilmişdir.

Cədvəl 2.

Xətti reqressiya tənliyinin parametrlərini tapmaq üçün dəyərlərin hesablanması.

Reqressiya tənliyi: y = 13,8951 + 2,4016*x.

Kapital qoyuluşlarının (X) həcminin 1 milyon rubl artması ilə. məhsulun həcmi (Y) orta hesabla 2,4016 milyon rubl artacaq. Beləliklə, müəssisələrin səmərəliliyini və onların fəaliyyətinə qoyulan investisiyaların gəlirliliyini göstərən əlamətlər arasında müsbət əlaqə mövcuddur.

2. Qalıqları hesablayın; kvadratların qalıq cəmini tapın; qalıqların dispersiyasını qiymətləndirin və qalıqları tərtib edin.

Qalan düsturla hesablanır: e i = y i - y progn.

Kvadrat kənarlaşmaların qalıq cəmi: = 207,74.

Qalıq dispersiya: 25.97.

Hesablamalar Cədvəl 3-də göstərilmişdir.

Cədvəl 3

Y X Y=a+b*x i e i = y i - y proqnozlaşdırır. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
məbləğ 0,00 207,74
Orta 111,4 40,6

Balans cədvəli belə görünür:


Şəkil 1. Qalıq qrafiki

3. Elementləri ehtiva edən LSM-nin ilkin şərtlərinin yerinə yetirilməsini yoxlayaq:

- təsadüfi komponentin riyazi gözləntisinin sıfıra bərabərliyinin yoxlanılması;

- qalıqların təsadüfi təbiəti;

- müstəqillik yoxlanışı;

- bir sıra qalıqların normal paylanma qanununa uyğunluğu.

Bir sıra qalıqların səviyyələrinin riyazi gözləntisinin sıfıra bərabərliyinin yoxlanılması.

Müvafiq sıfır hipotezinin yoxlanılması zamanı həyata keçirilir H 0: . Bu məqsədlə t-statistika qurulur, burada .

beləliklə hipotez qəbul edilir.

Qalıqların təsadüfi təbiəti.

Dönüş nöqtələri meyarından istifadə edərək bir sıra qalıqların səviyyələrinin təsadüfiliyini yoxlayaq:

Dönüş nöqtələrinin sayı qalıqlar cədvəlindən müəyyən edilir:

e i = y i - y proqnozlaşdırır. Dönüş nöqtələri e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
məbləğ 0,00 207,74 354,62
Orta

= 6 > , buna görə də qalıqların təsadüfilik xassəsi ödənilir.

Qalıq Müstəqillik Durbin-Watson testi ilə təsdiqlənir:

=4 - 1,707 = 2,293.

d 2-dən 2-ə qədər intervala düşdüyündən, bu meyara görə müstəqillik xassəsinin təmin edildiyi qənaətinə gələ bilərik. Bu o deməkdir ki, dinamika silsiləsində avtokorrelyasiya yoxdur, ona görə də model bu meyara görə adekvatdır.

Bir sıra qalıqların normal paylanma qanununa uyğunluğu kritik səviyyələri olan R/S-meyarından istifadə etməklə müəyyən edilir (2.7-3.7);

RS dəyərini hesablayın:

RS = (e maks - e dəq) / S,

burada e max bir sıra qalıqların səviyyələrinin maksimum qiymətidir E(t) = 8,07;

e min - bir sıra qalıqların səviyyələrinin minimum qiyməti E(t) = -6,54.

S - standart sapma, = 4,8044.

RS \u003d (e maks - e min) / S \u003d (8.07 + 6.54) / 4.8044 \u003d 3.04.

2.7 ildən< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Beləliklə, LSM-nin ilkin şərtlərini yerinə yetirmək üçün müxtəlif meyarları nəzərdən keçirərək, LSM-nin ilkin şərtlərinin yerinə yetirildiyi qənaətinə gəlirik.

4. Reqressiya tənliyinin parametrlərinin əhəmiyyətini Student t-testindən istifadə edərək yoxlayaq α = 0,05.

Fərdi reqressiya əmsallarının əhəmiyyətinin yoxlanılması hesablanmış qiymətlərin müəyyən edilməsi ilə bağlıdır t-test (t-statistika) müvafiq reqressiya əmsalları üçün:

Sonra hesablanmış dəyərlər cədvəllə müqayisə edilir t masa= 2.3060. Kriteriyanın cədvəl dəyəri o zaman müəyyən edilir ( n- 2) sərbəstlik dərəcələri ( n- müşahidələrin sayı) və müvafiq əhəmiyyət səviyyəsi a (0,05)

Əgər t-testinin hesablanmış dəyəri ilə (n- 2) sərbəstlik dərəcələri verilmiş əhəmiyyətlilik səviyyəsində onun cədvəl dəyərini üstələyir, reqressiya əmsalı əhəmiyyətli hesab olunur.

Bizim vəziyyətimizdə reqressiya əmsalları 0 - əhəmiyyətsiz və 1 - əhəmiyyətli əmsallardır.

Reqressiya xətti hadisələr arasındakı əlaqənin qrafik əksidir. Excel-də asanlıqla reqressiya xətti qura bilərsiniz.

Bunun üçün sizə lazımdır:

1. Excel proqramını açın

2. Məlumatlarla sütunlar yaradın. Nümunəmizdə birinci sinif şagirdlərində aqressivlik və özünə şübhə arasında bir reqressiya xətti və ya əlaqə quracağıq. Təcrübədə 30 uşaq iştirak etdi, məlumatlar Excel cədvəlində təqdim olunur:

1 sütun - mövzunun nömrəsi

2 sütun - aqressivlik ballarda

3 sütun - özünə hörmətin olmaması ballarda

3. Sonra hər iki sütunu (sütun adı olmadan) seçməlisiniz, nişanı basın daxil edin , seçin nöqtə , və təklif olunan planlardan birincisini seçin markerlərlə nöqtə .

4. Beləliklə, reqressiya xətti üçün boşluq əldə etdik - sözdə - səpələnmə qrafiki. Reqressiya xəttinə keçmək üçün ortaya çıxan rəqəmə klikləməlisiniz, nişanı vurun konstruktor, paneldə tapın diaqram tərtibatları və seçin M a ket9 , o da deyir f(x)

5. Beləliklə, bir reqressiya xəttimiz var. Qrafikdə onun tənliyi və korrelyasiya əmsalının kvadratı da göstərilir

6. Qrafikin adını, oxların adını əlavə etmək qalır. Ayrıca, istəsəniz, əfsanəni silə, üfüqi şəbəkə xətlərinin sayını azalda bilərsiniz (tab layout , sonra şəbəkə ). Əsas dəyişikliklər və parametrlər tabda edilir Layout

Reqressiya xətti MS Excel-də qurulmuşdur. İndi onu əsərin mətninə əlavə etmək olar.

Əvvəlki qeydlərdə diqqət çox vaxt qarşılıqlı fond gəlirləri, Veb səhifənin yüklənmə müddəti və ya sərinləşdirici içki istehlakı kimi tək ədədi dəyişənə yönəlib. Bu və sonrakı qeydlərdə bir və ya bir neçə digər ədədi dəyişənin dəyərlərindən asılı olaraq ədədi dəyişənin dəyərlərinin proqnozlaşdırılması üsullarını nəzərdən keçirəcəyik.

Material bir nümunə ilə təsvir ediləcəkdir. Geyim mağazasında satış həcminin proqnozlaşdırılması. Sunflowers endirimli geyim mağazalar şəbəkəsi 25 ildir ki, daim genişlənir. Bununla belə, şirkətdə hazırda yeni satış məntəqələrinin seçilməsinə sistemli yanaşma yoxdur. Şirkətin yeni mağaza açmaq niyyətində olduğu yer subyektiv mülahizələrə əsasən müəyyən edilir. Seçim meyarları əlverişli kirayə şərtləri və ya menecerin mağazanın ideal yeri barədə fikirləridir. Təsəvvür edin ki, siz Xüsusi Layihələr və Planlaşdırma Departamentinin rəhbərisiniz. Sizə yeni mağazalar açmaq üçün strateji plan hazırlamaq tapşırılıb. Bu planda yeni açılan mağazalarda illik satış proqnozu olmalıdır. Siz yer satmağın birbaşa gəlirlə əlaqəli olduğuna inanırsınız və bu faktı qərar qəbul etmə prosesinizə daxil etmək istəyirsiniz. Yeni mağaza ölçüsü əsasında illik satışları proqnozlaşdıran statistik modeli necə inkişaf etdirirsiniz?

Tipik olaraq, reqressiya təhlili dəyişənin dəyərlərini proqnozlaşdırmaq üçün istifadə olunur. Onun məqsədi asılı dəyişənin və ya cavabın dəyərlərini ən azı bir müstəqil və ya izahedici dəyişənin dəyərlərindən proqnozlaşdıran statistik model hazırlamaqdır. Bu qeyddə sadə xətti reqressiyanı - asılı dəyişənin dəyərlərini proqnozlaşdırmağa imkan verən statistik metodu nəzərdən keçirəcəyik. Y müstəqil dəyişənin qiymətləri ilə X. Aşağıdakı qeydlər müstəqil dəyişənin dəyərlərini proqnozlaşdırmaq üçün hazırlanmış çoxlu reqressiya modelini təsvir edəcəkdir Y bir neçə asılı dəyişənin qiymətləri ilə ( X 1 , X 2 , …, X k).

Qeydi və ya formatda yükləyin, nümunələri formatda

Reqressiya modellərinin növləri

harada ρ 1 avtokorrelyasiya əmsalıdır; əgər ρ 1 = 0 (avtokorrelyasiya yoxdur), D≈ 2; əgər ρ 1 ≈ 1 (müsbət avtokorrelyasiya), D≈ 0; əgər ρ 1 = -1 (mənfi avtokorrelyasiya), D ≈ 4.

Praktikada Durbin-Vatson kriteriyasının tətbiqi dəyərin müqayisəsinə əsaslanır D tənqidi nəzəri dəyərlərlə dLd U müəyyən sayda müşahidələr üçün n, modelin müstəqil dəyişənlərinin sayı k(sadə xətti reqressiya üçün k= 1) və əhəmiyyət səviyyəsi α. Əgər a D< d L , təsadüfi kənarlaşmaların müstəqilliyi fərziyyəsi rədd edilir (deməli, müsbət avtokorrelyasiya mövcuddur); əgər D > d U, hipotez rədd edilmir (yəni avtokorrelyasiya yoxdur); əgər d L< D < d U qərar vermək üçün kifayət qədər əsas yoxdur. Hesablanmış dəyər olduqda D onda 2-ni keçir dLd U müqayisə olunan əmsalın özü deyil D, və ifadə (4 - D).

Excel-də Durbin-Watson statistikasını hesablamaq üçün Şəkil 1-də alt cədvələ müraciət edirik. on dörd Balansın çıxarılması. (10) ifadəsindəki pay = SUMMQDIFF(massiv1, massiv2), məxrəc isə = SUMMQ(massiv) funksiyasından istifadə etməklə hesablanır (şək. 16).

düyü. 16. Durbin-Vatson statistikasının hesablanması üçün düsturlar

Bizim nümunəmizdə D= 0,883. Əsas sual budur: Durbin-Vatson statistikasının hansı dəyəri müsbət avtokorrelyasiya olduğu qənaətinə gəlmək üçün kifayət qədər kiçik hesab edilməlidir? D dəyərini kritik dəyərlərlə əlaqələndirmək lazımdır ( dLd U) müşahidələrin sayından asılı olaraq n və əhəmiyyət səviyyəsi α (şək. 17).

düyü. 17. Durbin-Watson statistikasının kritik dəyərləri (cədvəl fraqmenti)

Beləliklə, evinizə mal çatdıran bir mağazada satış həcmi problemində bir müstəqil dəyişən var ( k= 1), 15 müşahidə ( n= 15) və əhəmiyyətlilik səviyyəsi α = 0,05. Nəticədə, dL= 1.08 və dU= 1.36. Çünki D = 0,883 < dL= 1.08, qalıqlar arasında müsbət avtokorrelyasiya var, ən kiçik kvadratlar metodu tətbiq edilə bilməz.

Yamac və korrelyasiya əmsalı haqqında fərziyyələrin yoxlanılması

Yuxarıdakı reqressiya yalnız proqnozlaşdırma üçün tətbiq edilmişdir. Reqressiya əmsallarını təyin etmək və dəyişənin qiymətini proqnozlaşdırmaq Y verilmiş dəyişən dəyər üçün Xən kiçik kvadratlar üsulundan istifadə edilmişdir. Bundan əlavə, qiymətləndirmənin standart səhvini və qarışıq korrelyasiya əmsalını nəzərdən keçirdik. Əgər qalıq analizi ən kiçik kvadratlar metodunun tətbiqi şərtlərinin pozulmadığını və sadə xətti reqressiya modelinin adekvat olduğunu təsdiq edərsə, seçmə məlumatlarına əsasən, populyasiyada dəyişənlər arasında xətti əlaqənin olduğunu iddia etmək olar.

Ərizət - yamac üçün meyarlar.Əhali yamacının β 1 sıfıra bərabər olub olmadığını yoxlayaraq, dəyişənlər arasında statistik əhəmiyyətli əlaqənin olub olmadığını müəyyən etmək olar. XY. Bu fərziyyə rədd edilərsə, dəyişənlər arasında olduğu iddia edilə bilər XY xətti əlaqə mövcuddur. Sıfır və alternativ fərziyyələr aşağıdakı kimi tərtib edilmişdir: H 0: β 1 = 0 (xətti əlaqə yoxdur), H1: β 1 ≠ 0 (xətti əlaqə var). Tərifinə görə t-statistika nümunə yamacı ilə hipotetik əhali yamacı arasındakı fərqə bərabərdir və yamac qiymətləndirməsinin standart xətasına bölünür:

(11) t = (b 1 β 1 ) / Sb 1

harada b 1 nümunə məlumatlarına əsaslanan birbaşa reqressiyanın mailliyi, β1 birbaşa ümumi əhalinin hipotetik meylidir, , və test statistikası t Bu var t- ilə paylanması n - 2 sərbəstlik dərəcələri.

Mağazanın ölçüsü ilə illik satışlar arasında α = 0,05-də statistik əhəmiyyətli əlaqənin olub olmadığını yoxlayaq. t-kriteriyalar istifadə edərkən digər parametrlərlə birlikdə göstərilir Analiz paketi(seçim Reqressiya). Analiz Paketinin tam nəticələri Şəkildə göstərilmişdir. 4, t-statistika ilə əlaqəli bir fraqment - şək. on səkkiz.

düyü. 18. Müraciət nəticələri t

Çünki mağazaların sayı n= 14 (bax. Şəkil 3), kritik dəyər t- α = 0,05 əhəmiyyət səviyyəsində statistikanı aşağıdakı düsturla tapmaq olar: t L=STUDENT.INV(0.025;12) = -2.1788 burada 0.025 əhəmiyyət səviyyəsinin yarısıdır və 12 = n – 2; t U\u003d STUDENT.INV (0.975, 12) \u003d +2.1788.

Çünki t-statistika = 10,64 > t U= 2.1788 (Şəkil 19), sıfır hipotezi H 0 rədd edilir. Digər tərəfdən, R- üçün dəyər X\u003d 1-STUDENT.DIST (D3, 12, TRUE) düsturu ilə hesablanan 10.6411, təxminən sıfıra bərabərdir, buna görə də hipotez H 0 yenidən rədd edilir. Bu faktdır ki R-dəyər demək olar ki, sıfırdır, yəni mağaza ölçüsü ilə illik satışlar arasında real xətti əlaqə olmasaydı, xətti reqressiyadan istifadə edərək onu aşkar etmək demək olar ki, qeyri-mümkün olardı. Buna görə də, orta illik mağaza satışları ilə mağaza ölçüsü arasında statistik əhəmiyyətli xətti əlaqə var.

düyü. 19. Ümumi əhalinin mailliyi haqqında fərziyyənin 0,05 və 12 sərbəstlik dərəcəsi əhəmiyyətlilik səviyyəsində sınaqdan keçirilməsi

ƏrizəF - yamac üçün meyarlar. Sadə xətti reqressiyanın mailliyi haqqında fərziyyələri yoxlamaq üçün alternativ yanaşma istifadə etməkdir F-meyarlar. Bunu xatırlayın F-kriteriya iki variasiya arasındakı əlaqəni yoxlamaq üçün istifadə olunur (ətraflı məlumatlara baxın). Yamac fərziyyəsini sınaqdan keçirərkən, təsadüfi səhvlərin ölçüsü səhv dispersiyasıdır (sərbəstlik dərəcələrinin sayına bölünmüş kvadrat səhvlərin cəmi), buna görə də F-test reqressiya ilə izah edilən dispersiya nisbətindən istifadə edir (yəni, dəyərlər SSR müstəqil dəyişənlərin sayına bölünür k), səhv fərqinə ( MSE=SYX 2 ).

Tərifinə görə F-statistika reqressiya (MSR) səbəbindən orta kvadrat sapmaların səhv dispersiyasına (MSE) bölünməsinə bərabərdir: F = MSR/ MSE, harada MSR =SSR / k, MSE =SSE/(n– k – 1), k reqressiya modelində müstəqil dəyişənlərin sayıdır. Test statistikası F Bu var F- ilə paylanması kn– k – 1 sərbəstlik dərəcələri.

Verilmiş əhəmiyyət səviyyəsi α üçün qərar qaydası aşağıdakı kimi tərtib edilir: əgər F > FU, sıfır hipotezi rədd edilir; əks halda rədd edilmir. Dispersiya təhlilinin xülasə cədvəli şəklində təqdim olunan nəticələr Şek. iyirmi.

düyü. 20. Reqressiya əmsalının statistik əhəmiyyəti fərziyyəsini yoxlamaq üçün dispersiya təhlili cədvəli

oxşar t-meyar F-istifadə edilərkən meyarlar cədvəldə göstərilir Analiz paketi(seçim Reqressiya). İşin tam nəticələri Analiz paketiŞəkildə göstərilmişdir. 4 ilə əlaqəli fraqment F-statistika - şək. 21.

düyü. 21. Müraciət nəticələri F- Excel Analysis ToolPack istifadə edərək əldə edilən meyarlar

F-statistik 113.23 və R-qiymət sıfıra yaxın (xana ƏhəmiyyətiF). Əhəmiyyət səviyyəsi α 0,05 olarsa, kritik dəyəri təyin edin F-düsturdan bir və 12 sərbəstlik dərəcəsi olan paylamalar əldə edilə bilər F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Şəkil 22). Çünki F = 113,23 > F U= 4.7472 və R- 0-a yaxın dəyər< 0,05, нулевая гипотеза H 0 sapır, yəni. Mağazanın ölçüsü onun illik satış həcmi ilə sıx bağlıdır.

düyü. 22. Ümumi əhalinin mailliyi haqqında fərziyyənin 0,05 əhəmiyyətlilik səviyyəsində, bir və 12 sərbəstlik dərəcəsi ilə sınaqdan keçirilməsi

Yamac β 1 olan etibarlılıq intervalı. Dəyişənlər arasında xətti əlaqənin olması haqqında fərziyyəni yoxlamaq üçün β 1 yamacını ehtiva edən inam intervalı qura və β 1 = 0 hipotetik dəyərinin bu intervala aid olduğuna əmin ola bilərsiniz. β 1 yamacını ehtiva edən inam intervalının mərkəzi nümunənin yamacıdır b 1 , və onun sərhədləri kəmiyyətlərdir b 1 ±t n –2 Sb 1

Şəkildə göstərildiyi kimi. on səkkiz, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d TƏLƏBƏ.OBR (0.975, 12) \u003d 2.1788. Nəticədə, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 və ya + 1,328 ≤ β 1 ≤ +2,012. Beləliklə, 0,95 ehtimalı ilə əhalinin mailliyi +1,328 ilə +2,012 (yəni, 1,328,000 dollardan 2,012,000 ABŞ dolları) aralığındadır. Bu dəyərlər sıfırdan böyük olduğundan, illik satış və mağaza sahəsi arasında statistik əhəmiyyətli xətti əlaqə var. Etibar intervalı sıfırdan ibarət olsaydı, dəyişənlər arasında heç bir əlaqə olmazdı. Bundan əlavə, etimad intervalı o deməkdir ki, hər 1000 kv. fut orta satışların 1.328.000 dollardan 2.012.000 dollara qədər artması ilə nəticələnir.

İstifadəsit -korrelyasiya əmsalı üçün meyarlar. korrelyasiya əmsalı tətbiq edilmişdir r, iki ədədi dəyişən arasındakı əlaqənin ölçüsüdür. İki dəyişən arasında statistik əhəmiyyətli əlaqənin olub olmadığını müəyyən etmək üçün istifadə edilə bilər. Hər iki dəyişənin populyasiyaları arasındakı korrelyasiya əmsalını ρ simvolu ilə işarə edək. Sıfır və alternativ fərziyyələr aşağıdakı kimi formalaşdırılır: H 0: ρ = 0 (korrelyasiya yoxdur), H 1: ρ ≠ 0 (korrelyasiya var). Əlaqənin mövcudluğunun yoxlanılması:

harada r = + , əgər b 1 > 0, r = – , əgər b 1 < 0. Тестовая статистика t Bu var t- ilə paylanması n - 2 sərbəstlik dərəcələri.

Günəbaxan mağazalar şəbəkəsinin problemində r2= 0,904 və b 1- +1,670 (bax. Şəkil 4). Çünki b 1> 0, illik satış və mağaza ölçüsü arasında korrelyasiya əmsalı r= +√0,904 = +0,951. Bu dəyişənlər arasında korrelyasiya olmadığına dair sıfır fərziyyəni istifadə edərək yoxlayaq t- statistika:

α = 0.05 əhəmiyyətlilik səviyyəsində sıfır hipotezi rədd edilməlidir, çünki t= 10,64 > 2,1788. Beləliklə, illik satış və mağaza ölçüsü arasında statistik əhəmiyyətli əlaqənin olduğunu iddia etmək olar.

Əhali yamacları haqqında nəticələr müzakirə edilərkən, etimad intervalları və fərziyyələri yoxlamaq üçün meyarlar bir-birini əvəz edə bilən alətlərdir. Bununla birlikdə, korrelyasiya əmsalını ehtiva edən etimad intervalının hesablanması daha çətin olur, çünki statistik məlumatların seçmə paylanması forması r həqiqi korrelyasiya əmsalından asılıdır.

Riyazi gözləntilərin qiymətləndirilməsi və fərdi dəyərlərin proqnozlaşdırılması

Bu bölmədə gözlənilən cavabın qiymətləndirilməsi üsulları müzakirə olunur Y və fərdi dəyərlərin proqnozları Y dəyişənin verilmiş dəyərləri üçün X.

Etibar intervalının qurulması. 2-ci misalda (yuxarıdakı bölməyə baxın Ən kiçik kvadrat üsulu) reqressiya tənliyi dəyişənin qiymətini proqnozlaşdırmağa imkan verdi Y X. Pərakəndə satış nöqtəsi üçün yer seçmək problemində 4000 kv.m sahəsi olan bir mağazada orta illik satışlar. fut 7.644 milyon dollara bərabər idi.Ancaq bu ümumi əhalinin riyazi gözləməsi bir nöqtədir. ümumi əhalinin riyazi gözləntisini qiymətləndirmək üçün etimad intervalı konsepsiyası təklif edilmişdir. Eynilə, konsepsiyanı təqdim etmək olar cavabın riyazi gözləntisi üçün inam intervalı dəyişənin verilmiş dəyəri üçün X:

harada , = b 0 + b 1 X i– proqnozlaşdırılan dəyər dəyişəni Y saat X = X i, S YX orta kvadrat xətadır, n nümunə ölçüsüdür, Xi- dəyişənin verilmiş qiyməti X, µ Y|X = Xi– dəyişənin riyazi gözləntisi Y saat X = Х i,SSX=

Düsturun (13) təhlili göstərir ki, etimad intervalının eni bir neçə amildən asılıdır. Müəyyən bir əhəmiyyət səviyyəsində orta kvadrat xətadan istifadə etməklə ölçülən reqressiya xətti ətrafında dalğalanmaların amplitudasının artması intervalın eninin artmasına səbəb olur. Digər tərəfdən, gözlənildiyi kimi, nümunə ölçüsünün artması intervalın daralması ilə müşayiət olunur. Bundan əlavə, intervalın eni dəyərlərdən asılı olaraq dəyişir Xi. Əgər dəyişənin dəyəri Y miqdarlar üçün proqnozlaşdırılır X, orta qiymətə yaxındır , etimad intervalı ortadan uzaq olan dəyərlər üçün cavab proqnozlaşdırıldığından daha dar olur.

Deyək ki, bir mağaza üçün yer seçərkən, sahəsi 4000 kvadratmetr olan bütün mağazalarda orta illik satış üçün 95% etibarlılıq intervalı qurmaq istəyirik. ayaqları:

Buna görə, sahəsi 4000 kvadratmetr olan bütün mağazalarda orta illik satış həcmi. fut, 95% ehtimalı ilə 6,971 ilə 8,317 milyon dollar arasındadır.

Proqnozlaşdırılan dəyər üçün etibarlılıq intervalını hesablayın. Dəyişənin verilmiş dəyəri üçün cavabın riyazi gözləntiləri üçün inam intervalına əlavə olaraq X, tez-tez proqnozlaşdırılan dəyər üçün inam intervalını bilmək lazımdır. Belə bir güvən intervalının hesablanması düsturu (13) düsturu ilə çox oxşar olsa da, bu intervalda parametrin təxmini deyil, proqnozlaşdırılan dəyəri var. Proqnozlaşdırılan cavab üçün interval YX = Xi dəyişənin xüsusi dəyəri üçün Xi düsturla müəyyən edilir:

Fərz edək ki, pərakəndə satış məntəqəsi üçün yer seçərkən, 4000 kvadratmetr sahəsi olan bir mağazada proqnozlaşdırılan illik satış həcmi üçün 95% inam intervalı qurmaq istəyirik. ayaqları:

Beləliklə, 4000 kv.m üçün proqnozlaşdırılan illik satış həcmi. fut, 95% ehtimalı ilə 5,433 ilə 9,854 milyon dollar arasındadır.Gördüyünüz kimi, proqnozlaşdırılan cavab dəyəri üçün etimad intervalı onun riyazi gözləntisi üçün etimad intervalından xeyli genişdir. Bunun səbəbi, fərdi dəyərlərin proqnozlaşdırılmasında dəyişkənliyin gözlənilən dəyəri qiymətləndirməkdən daha çox olmasıdır.

Reqressiyanın istifadəsi ilə bağlı tələlər və etik məsələlər

Reqressiya təhlili ilə bağlı çətinliklər:

  • Ən kiçik kvadratlar metodunun tətbiqi şərtlərinin nəzərə alınmaması.
  • Ən kiçik kvadratlar metodunun tətbiqi şərtlərinin səhv qiymətləndirilməsi.
  • Ən kiçik kvadratlar metodunun tətbiqi şərtlərinin pozulması ilə alternativ üsulların səhv seçilməsi.
  • Tədqiqat mövzusunu dərindən bilmədən reqressiya təhlilinin tətbiqi.
  • Reqressiyanın izahedici dəyişənin diapazonundan kənara çıxarılması.
  • Statistik və səbəb əlaqələri arasında qarışıqlıq.

Elektron cədvəllərin və statistik proqram təminatının geniş yayılması reqressiya analizinin istifadəsinə mane olan hesablama problemlərini aradan qaldırdı. Lakin bu, reqressiya analizinin kifayət qədər ixtisas və biliyə malik olmayan istifadəçilər tərəfindən istifadə olunmağa başlamasına gətirib çıxardı. Əgər onların bir çoxunun ən kiçik kvadratlar metodunun tətbiqi şərtləri haqqında heç bir təsəvvürü yoxdursa və onların həyata keçirilməsini necə yoxlamaq lazım olduğunu bilmirlərsə, istifadəçilər alternativ metodlar haqqında necə bilirlər?

Tədqiqatçı rəqəmləri üyütməklə - sürüşmə, yamac və qarışıq korrelyasiya əmsalının hesablanması ilə aparılmamalıdır. Onun daha dərin biliyə ehtiyacı var. Bunu dərsliklərdən götürülmüş klassik nümunə ilə izah edək. Anscombe göstərdi ki, Şəkil 1-də göstərilən bütün dörd məlumat dəsti. 23 eyni reqressiya parametrlərinə malikdir (şək. 24).

düyü. 23. Dörd süni verilənlər toplusu

düyü. 24. Dörd süni məlumat dəstinin reqressiya təhlili; ilə edilir Analiz paketi(şəkili böyütmək üçün şəklin üzərinə klikləyin)

Beləliklə, reqressiya təhlili baxımından bütün bu məlumat dəstləri tamamilə eynidir. Təhlil orada bitsəydi, çox faydalı məlumatları itirərdik. Bunu bu məlumat dəstləri üçün qurulmuş səpələnmə qrafikləri (şək. 25) və qalıq qrafiklər (şək. 26) sübut edir.

düyü. 25. Dörd verilənlər dəsti üçün səpələnmə qrafikləri

Səpələnmə qrafikləri və qalıq qrafiklər bu məlumatların bir-birindən fərqli olduğunu göstərir. Düz xətt boyunca paylanmış yeganə çoxluq A çoxluğudur. A çoxluğundan hesablanan qalıqların qrafikində nümunə yoxdur. Eyni şeyi B, C və D çoxluqları üçün söyləmək olmaz. B çoxluğu üçün çəkilmiş səpilmə qrafası aydın kvadratik nümunəni göstərir. Bu nəticə parabolik formaya malik olan qalıqların süjeti ilə təsdiqlənir. Səpələnmə qrafiki və qalıq qrafiki göstərir ki, B verilənlər toplusunda kənar göstərici var. Bu vəziyyətdə, məlumat dəstindən kənar göstəricini çıxarmaq və təhlili təkrarlamaq lazımdır. Müşahidələrdən kənar göstəriciləri aşkar etmək və aradan qaldırmaq texnikasına təsir təhlili deyilir. Kənar olanı aradan qaldırdıqdan sonra modelin yenidən qiymətləndirilməsinin nəticəsi tamamilə fərqli ola bilər. D məlumat dəstindən tərtib edilmiş səpələnmə qrafiki empirik modelin tək cavabdan çox asılı olduğu qeyri-adi vəziyyəti təsvir edir ( X 8 = 19, Y 8 = 12.5). Belə reqressiya modellərini xüsusilə diqqətlə hesablamaq lazımdır. Beləliklə, səpilmə və qalıq qrafiklər reqressiya təhlili üçün vacib vasitədir və onun ayrılmaz hissəsi olmalıdır. Bunlar olmadan reqressiya təhlili etibarlı deyil.

düyü. 26. Dörd verilənlər dəsti üçün qalıqların planları

Reqressiya təhlilində tələlərdən necə qaçınmaq olar:

  • Dəyişənlər arasında mümkün əlaqənin təhlili XY həmişə səpələnmə qrafiki ilə başlayın.
  • Reqressiya təhlilinin nəticələrini şərh etməzdən əvvəl onun tətbiqi şərtlərini yoxlayın.
  • Müstəqil dəyişənə qarşı qalıqların qrafikini qurun. Bu, empirik modelin müşahidənin nəticələrinə nə dərəcədə uyğun olduğunu müəyyən etməyə və dispersiyanın sabitliyinin pozulmasını aşkar etməyə imkan verəcəkdir.
  • Səhvlərin normal paylanmasına dair fərziyyəni yoxlamaq üçün histoqramlardan, gövdə və yarpaq qrafiklərindən, qutu diaqramlarından və normal paylanma sxemlərindən istifadə edin.
  • Ən kiçik kvadratlar metodunun tətbiqi şərtləri yerinə yetirilmirsə, alternativ üsullardan istifadə edin (məsələn, kvadrat və ya çoxlu reqressiya modelləri).
  • Ən kiçik kvadratlar metodunun tətbiqi şərtləri yerinə yetirilərsə, reqressiya əmsallarının statistik əhəmiyyəti haqqında fərziyyəni yoxlamaq və riyazi gözləntiləri və proqnozlaşdırılan cavab dəyərini ehtiva edən etimad intervallarını qurmaq lazımdır.
  • Müstəqil dəyişənin diapazonundan kənarda asılı dəyişənin dəyərlərini proqnozlaşdırmaqdan çəkinin.
  • Nəzərə alın ki, statistik asılılıqlar həmişə səbəbli deyil. Unutmayın ki, dəyişənlər arasında korrelyasiya onlar arasında səbəb əlaqəsi olması demək deyil.

Xülasə. Blok diaqramda göstərildiyi kimi (şək. 27) qeyddə sadə xətti reqressiya modeli, onun tətbiqi şərtləri və bu şərtlərin sınaqdan keçirilməsi yolları təsvir edilmişdir. Hesab olunur t-reqressiyanın yamacının statistik əhəmiyyətinin yoxlanılması meyarı. Asılı dəyişənin dəyərlərini proqnozlaşdırmaq üçün reqressiya modelindən istifadə edilmişdir. İllik satış həcminin mağaza sahəsindən asılılığının öyrənildiyi pərakəndə satış məntəqəsi üçün yer seçimi ilə bağlı bir nümunə hesab olunur. Əldə edilən məlumatlar mağaza üçün yer seçmək və onun illik satışlarını proqnozlaşdırmaq üçün daha dəqiq imkan verir. Aşağıdakı qeydlərdə reqressiya təhlilinin müzakirəsi, həmçinin çoxsaylı reqressiya modelləri davam etdiriləcəkdir.

düyü. 27. Qeydin blok diaqramı

Levin və başqaları kitabının materiallarından menecerlər üçün statistika istifadə olunur. - M.: Williams, 2004. - s. 792–872

Əgər asılı dəyişən kateqoriyalıdırsa, logistik reqressiya tətbiq edilməlidir.