Cel analizy regresji. Metody statystyki matematycznej

Główny cel analizy regresji polega na określeniu analitycznej formy komunikacji, w której zmiana charakterystyki efektywnej wynika z wpływu jednej lub większej liczby cech czynnika, a zbiór wszystkich pozostałych czynników, które również wpływają na charakterystykę efektywną, przyjmuje się jako wartości stałe i średnie.
Problemy analizy regresji:
a) Ustalenie formy zależności. Jeśli chodzi o naturę i formę relacji między zjawiskami, rozróżnia się dodatnią regresję liniową i nieliniową oraz ujemną regresję liniową i nieliniową.
b) Wyznaczenie funkcji regresji w postaci równania matematycznego tego lub innego rodzaju i ustalenie wpływu zmiennych objaśniających na zmienną zależną.
c) Oszacowanie nieznanych wartości zmiennej zależnej. Za pomocą funkcji regresji można odtworzyć wartości zmiennej zależnej w przedziale określonych wartości zmiennych objaśniających (tj. rozwiązać problem interpolacji) lub ocenić przebieg procesu poza określonym przedziałem (tj. rozwiązać problem ekstrapolacji). Wynikiem jest oszacowanie wartości zmiennej zależnej.

Regresja sparowana to równanie zależności pomiędzy dwiema zmiennymi y i x: , gdzie y jest zmienną zależną (atrybut wynikowy); x jest niezależną zmienną objaśniającą (czynnikiem-cechą).

Istnieją regresje liniowe i nieliniowe.
Regresja liniowa: y = a + bx + ε
Regresje nieliniowe dzielą się na dwie klasy: regresje nieliniowe względem zmiennych objaśniających uwzględnionych w analizie, ale liniowe względem oszacowanych parametrów oraz regresje nieliniowe względem oszacowanych parametrów.
Regresje nieliniowe w zmiennych objaśniających:

Regresje nieliniowe względem oszacowanych parametrów: Konstrukcja równania regresji sprowadza się do oszacowania jego parametrów. Do estymacji parametrów regresji liniowych wykorzystuje się metodę najmniejszych kwadratów (OLS). Metoda najmniejszych kwadratów pozwala uzyskać takie oszacowania parametrów, przy których suma kwadratów odchyleń rzeczywistych wartości charakterystyki wypadkowej y od wartości teoretycznych jest minimalna, tj.
.
Dla równań liniowych i nieliniowych dających się sprowadzić do równań liniowych, dla a i b rozwiązuje się następujący układ:

Możesz skorzystać z gotowych formuł, które wynikają z tego systemu:

Bliskość powiązania między badanymi zjawiskami ocenia się za pomocą liniowego współczynnika korelacji par dla regresji liniowej:

oraz wskaźnik korelacji – dla regresji nieliniowej:

Jakość skonstruowanego modelu będzie oceniana za pomocą współczynnika (wskaźnika) determinacji, a także średniego błędu aproksymacji.
Średni błąd aproksymacji - średnie odchylenie obliczonych wartości od rzeczywistych:
.
Dopuszczalny limit wartości wynosi nie więcej niż 8-10%.
Średni współczynnik elastyczności pokazuje, o jaki procent średnio zmieni się wynik y od wartości średniej, gdy współczynnik x zmieni się o 1% od wartości średniej:
.

Celem analizy wariancji jest analiza wariancji zmiennej zależnej:
,
gdzie jest całkowitą sumą kwadratów odchyleń;
- suma kwadratów odchyleń wynikających z regresji („wyjaśnione” lub „silnia”);
- resztowa suma kwadratów odchyleń.
Udział wariancji wyjaśniony regresją w całkowitej wariancji wynikowej cechy y charakteryzuje się współczynnikiem (indeksem) determinacji R2:

Współczynnikiem determinacji jest kwadrat współczynnika lub wskaźnika korelacji.

Test F – oceniający jakość równania regresji – polega na sprawdzeniu hipotezy nr o nieistotności statystycznej równania regresji oraz wskaźniku bliskości zależności. W tym celu dokonuje się porównania rzeczywistego faktu F z krytycznymi (tabelarycznymi) wartościami tabeli F kryterium F Fishera. Fakt F określa się na podstawie stosunku wartości współczynnika i wariancji resztowych obliczonych na stopień swobody:
,
gdzie n jest liczbą jednostek populacji; m jest liczbą parametrów zmiennych x.
Tabela F to maksymalna możliwa wartość kryterium pod wpływem czynników losowych przy danych stopniach swobody i poziomie istotności a. Poziom istotności a to prawdopodobieństwo odrzucenia prawidłowej hipotezy, pod warunkiem, że jest ona prawdziwa. Zwykle przyjmuje się, że a jest równe 0,05 lub 0,01.
Jeśli tabela F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Faktem jest, że hipoteza Ho nie jest odrzucana i uznaje się statystyczną nieistotność i zawodność równania regresji.
Aby ocenić istotność statystyczną współczynników regresji i korelacji, dla każdego wskaźnika oblicza się test t-Studenta i przedziały ufności. Postawiono hipotezę o losowym charakterze wskaźników, tj. o ich nieistotnej różnicy od zera. Ocena istotności współczynników regresji i korelacji za pomocą testu t-Studenta odbywa się poprzez porównanie ich wartości z wielkością błędu losowego:
; ; .
Błędy losowe parametrów regresji liniowej i współczynnika korelacji wyznaczają wzory:



Porównując rzeczywiste i krytyczne (tabelaryczne) wartości statystyki t - tabela t i fakt t - akceptujemy lub odrzucamy hipotezę Ho.
Związek między testem F Fishera a statystyką t-Studenta wyraża się równością

Jeśli t stół< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t jest faktem, że hipoteza Ho nie jest odrzucana i uznaje się losowy charakter powstawania a, b lub.
Aby obliczyć przedział ufności, wyznaczamy maksymalny błąd D dla każdego wskaźnika:
, .
Wzory na obliczanie przedziałów ufności są następujące:
; ;
; ;
Jeśli zero mieści się w przedziale ufności, tj. Jeżeli dolna granica jest ujemna, a górna jest dodatnia, wówczas szacowany parametr przyjmuje się za zero, ponieważ nie może on jednocześnie przyjmować wartości dodatniej i ujemnej.
Wartość prognozowaną wyznacza się poprzez podstawienie odpowiedniej wartości (prognozy) do równania regresji. Obliczany jest średni błąd standardowy prognozy:
,
Gdzie
i konstruuje się przedział ufności dla prognozy:
; ;
Gdzie .

Przykładowe rozwiązanie

Zadanie nr 1. Dla siedmiu terytoriów Uralu w 199X roku znane są wartości dwóch cech.
Tabela 1.
Wymagany: 1. Aby scharakteryzować zależność y od x, oblicz parametry następujących funkcji:
a) liniowy;
b) potęga (należy najpierw wykonać procedurę linearyzacji zmiennych, biorąc logarytm obu części);
c) demonstracyjny;
d) hiperbola równoboczna (trzeba także dowiedzieć się, jak wstępnie zlinearyzować ten model).
2. Ocenić każdy model wykorzystując średni błąd aproksymacji i test F Fishera.

Rozwiązanie (opcja nr 1)

Aby obliczyć parametry a i b regresji liniowej (obliczenia można dokonać za pomocą kalkulatora).
rozwiązać układ równań normalnych dla A I B:
Na podstawie danych początkowych obliczamy :
y X yx x 2 y 2 A ja
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Całkowity 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Poślubić. oznaczający (Razem/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
S 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Równanie regresji: y = 76,88 - 0,35X. Wraz ze wzrostem przeciętnego dziennego wynagrodzenia o 1 rub. udział wydatków na zakup artykułów spożywczych spada średnio o 0,35 punktu procentowego.
Obliczmy współczynnik korelacji par liniowych:

Połączenie jest umiarkowane, odwrotne.
Wyznaczmy współczynnik determinacji:

Zmienność wyniku wynoszącą 12,7% można wytłumaczyć zmianą współczynnika x. Podstawienie rzeczywistych wartości do równania regresji X, ustalmy wartości teoretyczne (obliczone). . Znajdźmy wartość średniego błędu aproksymacji:

Obliczone wartości odbiegają średnio od rzeczywistych o 8,1%.
Obliczmy kryterium F:

od 1< F < ¥ , powinien być wzięty pod uwagę F -1 .
Otrzymana wartość wskazuje na konieczność przyjęcia hipotezy Ale och losowy charakter zidentyfikowanej zależności oraz statystyczna nieistotność parametrów równania i wskaźnika bliskości powiązania.
1b. Konstrukcję modelu potęgowego poprzedza procedura linearyzacji zmiennych. W przykładzie linearyzacja odbywa się poprzez logarytmy obu stron równania:


GdzieY=lg(y), X=lg(x), C=lg(a).

Do obliczeń wykorzystujemy dane zawarte w tabeli. 1.3.

Tabela 1.3

Y X YX Y2 X2 A ja
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Całkowity 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Średnia wartość 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Obliczmy C i b:


Otrzymujemy równanie liniowe: .
Po wykonaniu jego wzmocnienia otrzymujemy:

Podstawiając rzeczywiste wartości do tego równania X, otrzymujemy teoretyczne wartości wyniku. Wykorzystując je obliczymy wskaźniki: szczelności połączenia – wskaźnik korelacji oraz średni błąd aproksymacji

Charakterystyka modelu potęgowego wskazuje, że opisuje on zależność nieco lepiej niż funkcja liniowa.

1c. Konstruowanie równania krzywej wykładniczej

poprzedzone procedurą linearyzacji zmiennych poprzez logarytmy obu stron równania:

Do obliczeń wykorzystujemy dane tabelaryczne.

Y X Yx Y2 x 2 A ja
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Całkowity 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Poślubić. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Wartości parametrów regresji A i W wyniósł:


Wynikowe równanie liniowe to: . Wzmocnijmy powstałe równanie i zapiszmy je w zwykłej formie:

Bliskość połączenia ocenimy poprzez wskaźnik korelacji:

Celem analizy regresji jest pomiar związku pomiędzy zmienną zależną a jedną (analiza regresji parami) lub większą liczbą (wielu) zmiennych niezależnych. Zmienne niezależne nazywane są także zmiennymi czynnikowymi, objaśniającymi, determinantami, regresorami i predyktorami.

Zmienna zależna jest czasami nazywana zmienną ustaloną, wyjaśnioną lub zmienną „odpowiedzi”. Niezwykle powszechne zastosowanie analizy regresji w badaniach empirycznych wynika nie tylko z faktu, że jest ona wygodnym narzędziem do testowania hipotez. Regresja, zwłaszcza regresja wielokrotna, jest skuteczną metodą modelowania i prognozowania.

Wyjaśnienie zasad pracy z analizą regresji zacznijmy od prostszej metody – metody par.

Analiza regresji sparowanej

Pierwsze kroki przy zastosowaniu analizy regresji będą niemal identyczne z tymi, które wykonaliśmy przy obliczaniu współczynnika korelacji. Trzy główne warunki efektywności analizy korelacji metodą Pearsona – rozkład normalny zmiennych, pomiar przedziałowy zmiennych, liniowa zależność między zmiennymi – mają znaczenie również dla regresji wielokrotnej. W związku z tym w pierwszym etapie konstruowane są wykresy rozrzutu, przeprowadzana jest analiza statystyczna i opisowa zmiennych oraz obliczana jest linia regresji. Podobnie jak w przypadku analizy korelacji, linie regresji konstruowane są metodą najmniejszych kwadratów.

Aby jaśniej zobrazować różnice pomiędzy obydwoma metodami analizy danych, przejdźmy do omówionego już przykładu ze zmiennymi „wsparcie z SPJ” i „udział ludności wiejskiej”. Dane źródłowe są identyczne. Różnica w wykresach rozrzutu będzie taka, że ​​w analizie regresji prawidłowo będzie wykreślić zmienną zależną – w naszym przypadku „wsparcie SPS” na osi Y, podczas gdy w analizie korelacji nie ma to znaczenia. Po oczyszczeniu wartości odstających wykres rozrzutu wygląda następująco:

Podstawową ideą analizy regresji jest to, że mając ogólny trend dla zmiennych – w postaci linii regresji – można przewidzieć wartość zmiennej zależnej, biorąc pod uwagę wartości zmiennej niezależnej.

Wyobraźmy sobie zwykłą matematyczną funkcję liniową. Dowolną linię prostą w przestrzeni euklidesowej można opisać wzorem:

gdzie a jest stałą określającą przemieszczenie wzdłuż osi rzędnych; b jest współczynnikiem określającym kąt nachylenia linii.

Znając nachylenie i stałą, możesz obliczyć (przewidywać) wartość y dla dowolnego x.

Ta najprostsza funkcja stała się podstawą modelu analizy regresji, z zastrzeżeniem, że nie przewidzimy wartości y dokładnie, ale w określonym przedziale ufności, tj. około.

Stała jest punktem przecięcia linii regresji i osi y (przecięcie F, zwykle oznaczane w pakietach statystycznych jako „przechwytywacz”). W naszym przykładzie głosowania na Związek Sił Prawicy jego zaokrąglona wartość wyniesie 10,55. Współczynnik kątowy b będzie wynosić w przybliżeniu -0,1 (ponieważ w analizie korelacji znak wskazuje rodzaj połączenia - bezpośrednie lub odwrotne). Zatem powstały model będzie miał postać SP C = -0,1 x Sel. nas. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Różnicę pomiędzy wartościami pierwotnymi i przewidywanymi nazywamy resztą (z tym fundamentalnym dla statystyki terminem spotkaliśmy się już przy analizie tablic kontyngencji). Zatem dla przypadku „Republiki Adygei” reszta będzie wynosić 3,92 – 5,63 = -1,71. Im większa wartość modułowa reszty, tym mniej skutecznie przewidywana wartość.

Obliczamy przewidywane wartości i reszty dla wszystkich przypadków:
Wydarzenie Usiadł. nas. dzięki

(oryginalny)

dzięki

(przewidywany)

Resztki
Republika Adygei 47 3,92 5,63 -1,71 -
Republika Ałtaju 76 5,4 2,59 2,81
Republika Baszkortostanu 36 6,04 6,78 -0,74
Republika Buriacji 41 8,36 6,25 2,11
Republika Dagestanu 59 1,22 4,37 -3,15
Republika Inguszetii 59 0,38 4,37 3,99
Itp.

Analiza stosunku wartości początkowych i przewidywanych służy ocenie jakości otrzymanego modelu i jego zdolności predykcyjnej. Jednym z głównych wskaźników statystyki regresji jest współczynnik korelacji wielokrotnej R - współczynnik korelacji między pierwotnymi i przewidywanymi wartościami zmiennej zależnej. W analizie regresji parami jest on równy zwykłemu współczynnikowi korelacji Pearsona między zmiennymi zależnymi i niezależnymi, w naszym przypadku - 0,63. Aby sensownie zinterpretować wielokrotne R, należy je przekształcić w współczynnik determinacji. Odbywa się to analogicznie jak w analizie korelacji – poprzez podniesienie do kwadratu. Współczynnik determinacji R-kwadrat (R 2) pokazuje proporcję zmienności zmiennej zależnej, która jest wyjaśniona przez zmienną(-y) niezależną(-e).

W naszym przypadku R 2 = 0,39 (0,63 2); oznacza to, że zmienna „udział ludności wiejskiej” wyjaśnia około 40% zmienności zmiennej „wsparcie z SPJ”. Im większy współczynnik determinacji, tym wyższa jakość modelu.

Kolejnym wskaźnikiem jakości modelu jest błąd standardowy oszacowania. Jest to miara tego, jak szeroko punkty są „rozproszone” wokół linii regresji. Miarą rozrzutu zmiennych przedziałowych jest odchylenie standardowe. W związku z tym błąd standardowy oszacowania jest odchyleniem standardowym rozkładu reszt. Im wyższa jego wartość, tym większy rozrzut i gorszy model. W naszym przypadku błąd standardowy wynosi 2,18. To właśnie o tę kwotę nasz model będzie „średnio błądzić” przy przewidywaniu wartości zmiennej „wsparcie SPS”.

Statystyki regresji obejmują również analizę wariancji. Za jego pomocą dowiadujemy się: 1) jaka część zmienności (rozproszenia) zmiennej zależnej jest wyjaśniona przez zmienną niezależną; 2) jaką część wariancji zmiennej zależnej odpowiadają reszty (część niewyjaśniona); 3) jaki jest stosunek tych dwóch wielkości (stosunek /"). Statystyka rozproszenia jest szczególnie ważna w przypadku badań reprezentacyjnych - pokazuje, jak prawdopodobne jest, że istnieje związek pomiędzy zmiennymi niezależnymi i zależnymi w populacji. Natomiast dla badania ciągłe (jak w naszym przykładzie) nieprzydatne są wyniki badań analizy wariancji. W tym przypadku sprawdzają, czy zidentyfikowany wzór statystyczny jest spowodowany splotem losowych okoliczności, jak charakterystyczny jest dla zespołu warunków, w których występuje badana populacja jest zlokalizowana, tj. ustala się, że uzyskany wynik nie dotyczy jakiegoś szerszego agregatu ogólnego, ale stopnia jego regularności, braku wpływów przypadkowych.

W naszym przypadku statystyki ANOVA przedstawiają się następująco:

SS zm SM F oznaczający
Regres. 258,77 1,00 258,77 54,29 0.000000001
Reszta 395,59 83,00 L,11
Całkowity 654,36

Współczynnik F wynoszący 54,29 jest znaczący na poziomie 0,0000000001. W związku z tym możemy z całą pewnością odrzucić hipotezę zerową (że odkryta przez nas zależność jest dziełem przypadku).

Kryterium t pełni podobną funkcję, ale w odniesieniu do współczynników regresji (przecięcie kątowe i F). Stosując kryterium / testujemy hipotezę, że w populacji ogólnej współczynniki regresji są równe zeru. W naszym przypadku ponownie możemy z całą pewnością odrzucić hipotezę zerową.

Analiza regresji wielokrotnej

Model regresji wielokrotnej jest prawie identyczny z modelem regresji sparowanej; jedyna różnica polega na tym, że do funkcji liniowej włącza się kolejno kilka zmiennych niezależnych:

Y = b1X1 + b2X2 + …+ bpXp + a.

Jeśli istnieją więcej niż dwie zmienne niezależne, nie jesteśmy w stanie uzyskać wizualnego obrazu ich związku; pod tym względem regresja wielokrotna jest mniej „wizualna” niż regresja parami. Jeśli masz dwie niezależne zmienne, przydatne może być wyświetlenie danych na wykresie rozrzutu 3D. W profesjonalnych pakietach oprogramowania statystycznego (np. Statistica) istnieje możliwość obracania trójwymiarowego wykresu, co pozwala dobrze wizualnie przedstawić strukturę danych.

Podczas pracy z regresją wielokrotną, w przeciwieństwie do regresji parami, konieczne jest określenie algorytmu analizy. Standardowy algorytm uwzględnia wszystkie dostępne predyktory w ostatecznym modelu regresji. Algorytm krok po kroku polega na sekwencyjnym włączaniu (wykluczaniu) zmiennych niezależnych na podstawie ich „wagi wyjaśniającej”. Metoda krokowa jest dobra, gdy istnieje wiele zmiennych niezależnych; „oczyszcza” model ze szczerze mówiąc słabych predyktorów, czyniąc go bardziej zwartym i zwięzłym.

Dodatkowym warunkiem poprawności regresji wielokrotnej (wraz z przedziałem, normalnością i liniowością) jest brak wielowspółliniowości – występowanie silnych korelacji pomiędzy zmiennymi niezależnymi.

Interpretacja statystyk regresji wielokrotnej uwzględnia wszystkie elementy, które rozważaliśmy w przypadku regresji parami. Ponadto istnieją inne ważne elementy statystyki analizy regresji wielokrotnej.

Pracę z regresją wielokrotną zilustrujemy na przykładzie testowania hipotez wyjaśniających różnice w poziomie aktywności wyborczej pomiędzy regionami Rosji. Specyficzne badania empiryczne sugerują, że na poziom frekwencji wyborczej wpływają:

Czynnik narodowy (zmienna „ludność rosyjska”; operacjonalizowany jako udział ludności rosyjskiej w podmiotach Federacji Rosyjskiej). Zakłada się, że wzrost udziału ludności rosyjskiej prowadzi do spadku frekwencji wyborczej;

Czynnik urbanizacji (zmienna „ludność miejska”; operacjonalizowana jako udział ludności miejskiej w podmiotach Federacji Rosyjskiej; z tym czynnikiem pracowaliśmy już w ramach analizy korelacji). Zakłada się, że wzrost udziału ludności miejskiej prowadzi także do spadku frekwencji wyborczej.

Zmienną zależną „intensywność aktywności wyborczej” („aktywność”) operacjonalizuje się na podstawie danych dotyczących średniej frekwencji według regionów w wyborach federalnych w latach 1995–2003. Początkowa tabela danych dla dwóch zmiennych niezależnych i jednej zależnej będzie wyglądać następująco:

Wydarzenie Zmienne
Aktywa. Gor. nas. Rus. nas.
Republika Adygei 64,92 53 68
Republika Ałtaju 68,60 24 60
Republika Buriacji 60,75 59 70
Republika Dagestanu 79,92 41 9
Republika Inguszetii 75,05 41 23
Republika Kałmucji 68,52 39 37
Republika Karaczajo-Czerkieska 66,68 44 42
Republika Karelii 61,70 73 73
Republika Komi 59,60 74 57
Republika Mari El 65,19 62 47

Itp. (po oczyszczeniu emisji pozostają 83 z 88 przypadków)

Statystyki opisujące jakość modelu:

1. Wielokrotność R = 0,62; L-kwadrat = 0,38. W rezultacie czynnik narodowy i czynnik urbanizacji wyjaśniają łącznie około 38% zmienności zmiennej „aktywność wyborcza”.

2. Średni błąd wynosi 3,38. Dokładnie tak „przeciętnie błędny” jest skonstruowany model w przewidywaniu poziomu frekwencji.

3. Stosunek /l zmienności wyjaśnionej i niewyjaśnionej wynosi 25,2 na poziomie 0,000000003. Hipotezę zerową o losowości zidentyfikowanych zależności odrzuca się.

4. Kryterium / dla współczynników stałych i regresji zmiennych „ludność miejska” i „ludność rosyjska” jest istotne na poziomie 0,0000001; Odpowiednio 0,00005 i 0,007. Hipoteza zerowa mówiąca o losowości współczynników została odrzucona.

Dodatkowymi statystykami przydatnymi w analizie zależności pomiędzy pierwotnymi i przewidywanymi wartościami zmiennej zależnej są odległość Mahalanobisa i odległość Cooka. Pierwsza jest miarą jednoznaczności przypadku (pokazuje, jak bardzo kombinacja wartości wszystkich zmiennych niezależnych dla danego przypadku odbiega od wartości średniej dla wszystkich zmiennych niezależnych jednocześnie). Druga jest miarą wpływu sprawy. Różne obserwacje mają różny wpływ na nachylenie linii regresji, a odległość Cooka można wykorzystać do porównania ich w tym wskaźniku. Może to być przydatne podczas usuwania wartości odstających (wartość odstającą można uznać za przypadek o zbyt dużym wpływie).

W naszym przykładzie do wyjątkowych i wpływowych przypadków zalicza się Dagestan.

Wydarzenie Oryginalny

wartości

Predska

wartości

Resztki Dystans

Mahalanobisa

Dystans
Adygea 64,92 66,33 -1,40 0,69 0,00
Republika Ałtaju 68,60 69.91 -1,31 6,80 0,01
Republika Buriacji 60,75 65,56 -4,81 0,23 0,01
Republika Dagestanu 79,92 71,01 8,91 10,57 0,44
Republika Inguszetii 75,05 70,21 4,84 6,73 0,08
Republika Kałmucji 68,52 69,59 -1,07 4,20 0,00

Sam model regresji ma następujące parametry: Przecięcie Y (stała) = 75,99; b (poziomo) = -0,1; Kommersant (rosyjski nas.) = -0,06. Ostateczna formuła.

Główna cecha analizy regresji: za jej pomocą można uzyskać konkretną informację o tym, jaką formę i charakter ma związek pomiędzy badanymi zmiennymi.

Kolejność etapów analizy regresji

Przyjrzyjmy się pokrótce etapom analizy regresji.

    Sformułowanie problemu. Na tym etapie formułowane są wstępne hipotezy dotyczące zależności badanych zjawisk.

    Definicja zmiennych zależnych i niezależnych (objaśniających).

    Gromadzenie danych statystycznych. Dane należy zebrać dla każdej ze zmiennych uwzględnionych w modelu regresji.

    Formułowanie hipotezy o formie połączenia (prostego lub wielokrotnego, liniowego lub nieliniowego).

    Definicja funkcje regresji (polega na obliczeniu wartości liczbowych parametrów równania regresji)

    Ocena dokładności analizy regresji.

    Interpretacja uzyskanych wyników. Uzyskane wyniki analizy regresji porównuje się ze wstępnymi hipotezami. Oceniana jest poprawność i wiarygodność uzyskanych wyników.

    Przewidywanie nieznanych wartości zmiennej zależnej.

Stosując analizę regresji można rozwiązać problem prognozowania i klasyfikacji. Przewidywane wartości oblicza się poprzez podstawienie wartości zmiennych objaśniających do równania regresji. Problem klasyfikacji rozwiązuje się w ten sposób: linia regresji dzieli cały zbiór obiektów na dwie klasy, przy czym ta część zbioru, w której wartość funkcji jest większa od zera, należy do jednej klasy, a część, w której jest ona mniejsza od zera należy do innej klasy.

Problemy analizy regresji

Rozważmy główne zadania analizy regresji: ustalenie formy zależności, określenie funkcje regresji, oszacowanie nieznanych wartości zmiennej zależnej.

Ustalenie formy zależności.

Charakter i forma relacji między zmiennymi może tworzyć następujące typy regresji:

    dodatnia regresja liniowa (wyrażona równomiernym wzrostem funkcji);

    dodatnia regresja równomiernie rosnąca;

    dodatnia regresja równomiernie rosnąca;

    ujemna regresja liniowa (wyrażona jako równomierny spadek funkcji);

    ujemna, jednolicie przyspieszona regresja malejąca;

    ujemna regresja równomiernie malejąca.

Jednak opisane odmiany zwykle nie występują w czystej postaci, ale w połączeniu ze sobą. W tym przypadku mówimy o połączonych formach regresji.

Definicja funkcji regresji.

Drugie zadanie sprowadza się do określenia wpływu na zmienną zależną czynników głównych lub przyczyn, przy pozostałych czynnikach niezmiennych i z wyłączeniem wpływu elementów losowych na zmienną zależną. Funkcja regresji definiuje się w formie równania matematycznego tego czy innego rodzaju.

Oszacowanie nieznanych wartości zmiennej zależnej.

Rozwiązanie tego problemu sprowadza się do rozwiązania problemu jednego z następujących typów:

    Oszacowanie wartości zmiennej zależnej w rozpatrywanym przedziale danych początkowych, tj. brakujące wartości; w tym przypadku problem interpolacji został rozwiązany.

    Oszacowanie przyszłych wartości zmiennej zależnej, tj. znajdowanie wartości poza określonym przedziałem danych źródłowych; w tym przypadku problem ekstrapolacji został rozwiązany.

Obydwa problemy rozwiązuje się poprzez podstawienie znalezionych oszacowań parametrów dla wartości zmiennych niezależnych do równania regresji. Wynikiem rozwiązania równania jest oszacowanie wartości zmiennej docelowej (zależnej).

Przyjrzyjmy się niektórym założeniom, na których opiera się analiza regresji.

Założenie liniowości, tj. zakłada się, że związek pomiędzy rozpatrywanymi zmiennymi jest liniowy. Zatem w tym przykładzie wykreśliliśmy wykres rozrzutu i mogliśmy zobaczyć wyraźną zależność liniową. Jeśli na wykresie rozproszenia zmiennych widzimy wyraźny brak zależności liniowej, tj. Jeżeli istnieje zależność nieliniowa, należy zastosować metody analizy nieliniowej.

Założenie normalności resztki. Zakłada, że ​​rozkład różnicy pomiędzy wartościami przewidywanymi i obserwowanymi jest normalny. Aby wizualnie określić charakter rozkładu, możesz użyć histogramów resztki.

Korzystając z analizy regresji, należy wziąć pod uwagę jej główne ograniczenie. Polega ona na tym, że analiza regresji pozwala wykryć jedynie zależności, a nie powiązania leżące u podstaw tych zależności.

Analiza regresji pozwala oszacować siłę związku między zmiennymi poprzez obliczenie szacunkowej wartości zmiennej na podstawie kilku znanych wartości.

Równanie regresji.

Równanie regresji wygląda następująco: Y=a+b*X

Za pomocą tego równania zmienną Y wyraża się w postaci stałej a i nachylenia linii (lub nachylenia) b, pomnożonego przez wartość zmiennej X. Stała a nazywana jest również wyrazem wyrazu wolnego, a nachylenie wynosi współczynnik regresji lub współczynnik B.

W większości przypadków (jeśli nie zawsze) występuje pewien rozrzut obserwacji względem linii regresji.

Reszta jest odchyleniem pojedynczego punktu (obserwacji) od linii regresji (wartości przewidywanej).

Aby rozwiązać problem analizy regresji w programie MS Excel należy wybrać z menu Praca„Pakiet analityczny” oraz narzędzie do analizy regresji. Ustalamy przedziały wejściowe X i Y. Przedział wejściowy Y to zakres analizowanych danych zależnych, musi obejmować jedną kolumnę. Przedział wejściowy X to zakres niezależnych danych, które należy przeanalizować. Liczba zakresów wejściowych nie powinna przekraczać 16.

Na wyjściu procedury w zakresie wyjściowym otrzymujemy raport podany w tabela 8.3a-8,3 V.

PODSUMOWANIE WYNIKÓW

Tabela 8.3a. Statystyka regresji

Statystyka regresji

Liczba mnoga R

Plac R

Znormalizowany R-kwadrat

Standardowy błąd

Obserwacje

Przyjrzyjmy się najpierw górnej części obliczeń przedstawionych w tabela 8.3a, - statystyka regresji.

Ogrom Plac R, zwana także miarą pewności, charakteryzuje jakość otrzymanej linii regresji. Jakość ta wyraża się stopniem zgodności danych źródłowych z modelem regresji (danymi obliczonymi). Miara pewności zawsze mieści się w przedziale.

W większości przypadków wartość Plac R znajduje się pomiędzy tymi wartościami, zwane ekstremalnymi, tj. pomiędzy zerem a jeden.

Jeśli wartość Plac R bliski jedności, oznacza to, że skonstruowany model wyjaśnia prawie całą zmienność odpowiednich zmiennych. Odwrotnie, znaczenie Plac R, bliskie zeru, oznacza słabą jakość skonstruowanego modelu.

W naszym przykładzie miara pewności wynosi 0,99673, co wskazuje na bardzo dobre dopasowanie prostej regresji do danych pierwotnych.

liczba mnoga r - współczynnik korelacji wielokrotnej R - wyraża stopień zależności zmiennych niezależnych (X) i zmiennej zależnej (Y).

Liczba mnoga R jest równa pierwiastkowi kwadratowemu współczynnika determinacji; wielkość ta przyjmuje wartości z zakresu od zera do jednego.

W prostej analizie regresji liniowej liczba mnoga r równy współczynnikowi korelacji Pearsona. Naprawdę, liczba mnoga r w naszym przypadku jest on równy współczynnikowi korelacji Pearsona z poprzedniego przykładu (0,998364).

Tabela 8.3b. Współczynniki regresji

Szanse

Standardowy błąd

statystyka t

Przecięcie Y

Zmienna X 1

* Podano skróconą wersję obliczeń

Rozważmy teraz środkową część obliczeń przedstawionych w tabela 8.3b. Tutaj podany jest współczynnik regresji b (2,305454545) i przemieszczenie wzdłuż osi rzędnych, tj. stała a (2,694545455).

Na podstawie obliczeń możemy napisać równanie regresji w następujący sposób:

Y= x*2,305454545+2,694545455

Kierunek zależności między zmiennymi wyznacza się na podstawie znaków (ujemnych lub dodatnich) współczynników regresji (współczynnik b).

Jeżeli znak współczynnika regresji jest dodatni, związek między zmienną zależną a zmienną niezależną będzie dodatni. W naszym przypadku znak współczynnika regresji jest dodatni, zatem zależność również jest dodatnia.

Jeżeli znak współczynnika regresji jest ujemny, wówczas związek między zmienną zależną a zmienną niezależną jest ujemny (odwrotny).

W tabela 8.3c. prezentowane są wyniki wyjściowe resztki. Aby wyniki te pojawiły się w raporcie, należy podczas uruchamiania narzędzia „Regresja” aktywować pole wyboru „Reszty”.

WYCOFANIE RESZTY

Tabela 8.3c. Resztki

Obserwacja

Przewidywany Y

Resztki

Bilanse standardowe

Korzystając z tej części raportu, możemy zobaczyć odchylenia każdego punktu od skonstruowanej linii regresji. Największa wartość bezwzględna reszta w naszym przypadku - 0,778, najmniejszy - 0,043. Aby lepiej zinterpretować te dane, skorzystamy z wykresu danych oryginalnych i skonstruowanej linii regresji przedstawionej w Ryż. 8.3. Jak widać linia regresji jest dość dokładnie „dopasowana” do wartości danych wyjściowych.

Należy wziąć pod uwagę, że rozważany przykład jest dość prosty i nie zawsze możliwe jest jakościowe skonstruowanie linii regresji liniowej.

Ryż. 8.3. Dane źródłowe i linia regresji

Nierozpatrzony pozostał problem szacowania nieznanych przyszłych wartości zmiennej zależnej na podstawie znanych wartości zmiennej niezależnej, tj. problem prognozowania.

Mając równanie regresji, problem prognozowania sprowadza się do rozwiązania równania Y= x*2,305454545+2,694545455 ze znanymi wartościami x. Zaprezentowano wyniki przewidywania zmiennej zależnej Y o sześć kroków do przodu w tabeli 8.4.

Tabela 8.4. Wyniki prognozy zmiennej Y

T (przewidywany)

Zatem w wyniku zastosowania analizy regresji w programie Microsoft Excel:

    zbudował równanie regresji;

    ustalono formę zależności i kierunek powiązania między zmiennymi – dodatnią regresję liniową, która wyraża się równomiernym wzrostem funkcji;

    ustalił kierunek zależności między zmiennymi;

    ocenił jakość otrzymanej linii regresji;

    potrafili dostrzec odchylenia obliczonych danych od danych z pierwotnego zbioru;

    przewidywane przyszłe wartości zmiennej zależnej.

Jeśli funkcja regresji zdefiniowany, zinterpretowany i uzasadniony, a ocena dokładności analizy regresji spełnia wymagania, skonstruowany model i przewidywane wartości można uznać za posiadające wystarczającą wiarygodność.

Uzyskane w ten sposób wartości przewidywane są wartościami średnimi, jakich można się spodziewać.

W tej pracy dokonaliśmy przeglądu głównych cech opisowe statystyki a wśród nich takie pojęcia jak Średnia wartość,mediana,maksymalny,minimum i inne cechy zmienności danych.

Krótko omówiono także tę koncepcję emisje. Rozważane cechy odnoszą się do tzw. eksploracyjnej analizy danych, z której wnioski nie mogą dotyczyć populacji ogólnej, a jedynie próbki danych. Eksploracyjna analiza danych służy do uzyskania podstawowych wniosków i sformułowania hipotez na temat populacji.

Omówiono także podstawy analizy korelacji i regresji, ich zadania i możliwości praktycznego zastosowania.

Pojęcia korelacji i regresji są ze sobą bezpośrednio powiązane. Istnieje wiele powszechnych technik obliczeniowych w analizie korelacji i regresji. Służą do identyfikacji związków przyczynowo-skutkowych pomiędzy zjawiskami i procesami. Jeśli jednak analiza korelacji pozwala nam zatem oszacować siłę i kierunek połączenia stochastycznego Analiza regresji- także forma uzależnienia.

Regresja może być:

a) w zależności od liczby zjawisk (zmiennych):

Prosta (regresja między dwiema zmiennymi);

Wielokrotność (regresja pomiędzy zmienną zależną (y) a kilkoma zmiennymi objaśniającymi (x1, x2...xn);

b) w zależności od formy:

Liniowy (prezentowany przez funkcję liniową i istnieją liniowe zależności między badanymi zmiennymi);

Nieliniowy (prezentowany przez funkcję nieliniową; związek między badanymi zmiennymi jest nieliniowy);

c) ze względu na charakter relacji pomiędzy zmiennymi objętymi wynagrodzeniem:

Dodatni (wzrost wartości zmiennej objaśniającej prowadzi do wzrostu wartości zmiennej zależnej i odwrotnie);

Ujemna (wraz ze wzrostem wartości zmiennej objaśniającej maleje wartość zmiennej objaśnianej);

d) według rodzaju:

Bezpośrednie (w tym przypadku przyczyna ma bezpośredni wpływ na skutek, tj. zmienne zależne i objaśniające są ze sobą bezpośrednio powiązane);

Pośredni (zmienna objaśniająca ma pośredni wpływ poprzez jedną trzecią lub szereg innych zmiennych na zmienną zależną);

Fałsz (regresja nonsensowna) - może powstać przy powierzchownym i formalnym podejściu do badanych procesów i zjawisk. Przykładem bezsensownego jest regresja ustalająca związek pomiędzy spadkiem ilości spożywanego alkoholu w naszym kraju a spadkiem sprzedaży proszku do prania.

Podczas przeprowadzania analizy regresji rozwiązuje się następujące główne zadania:

1. Określenie formy uzależnienia.

2. Definicja funkcji regresji. Aby to zrobić, stosuje się równanie matematyczne tego lub innego typu, które pozwala, po pierwsze, ustalić ogólny trend zmian zmiennej zależnej, a po drugie, obliczyć wpływ zmiennej objaśniającej (lub kilku zmiennych) na zmienna zależna.

3. Oszacowanie nieznanych wartości zmiennej zależnej. Powstała zależność matematyczna (równanie regresji) pozwala wyznaczyć wartość zmiennej zależnej zarówno w przedziale określonych wartości zmiennych objaśniających, jak i poza nim. W tym drugim przypadku analiza regresji jest użytecznym narzędziem w przewidywaniu zmian procesów i zjawisk społeczno-gospodarczych (pod warunkiem zachowania istniejących trendów i zależności). Zazwyczaj długość okresu, dla którego przeprowadza się prognozowanie, dobiera się tak, aby nie przekraczała połowy przedziału czasu, w którym przeprowadzono obserwacje wskaźników początkowych. Można przeprowadzić zarówno prognozę pasywną, rozwiązując problem ekstrapolacji, jak i prognozę aktywną, rozumując według znanego schematu „jeśli…, to” i podstawiając różne wartości do jednej lub większej liczby zmiennych regresji objaśniającej .



Dla konstrukcja regresji specjalna metoda tzw metoda najmniejszych kwadratów. Metoda ta ma przewagę nad innymi metodami wygładzania: stosunkowo proste matematyczne określenie wymaganych parametrów i dobre uzasadnienie teoretyczne z probabilistycznego punktu widzenia.

Przy wyborze modelu regresji jednym z zasadniczych wymagań stawianych przed nim jest zapewnienie jak największej prostoty, pozwalającej na otrzymanie rozwiązania z odpowiednią dokładnością. Dlatego też, aby ustalić zależności statystyczne, w pierwszej kolejności rozpatrujemy model z klasy funkcji liniowych (jako najprostszą ze wszystkich możliwych klas funkcji):

gdzie bi, b2...bj są współczynnikami określającymi wpływ zmiennych niezależnych xij na wartość yi; ai - darmowy członek; ei – odchylenie losowe, które odzwierciedla wpływ czynników nieuwzględnionych na zmienną zależną; n - liczba zmiennych niezależnych; N jest liczbą obserwacji i musi być spełniony warunek (N . n+1).

Model liniowy potrafi opisać bardzo szeroką klasę różnych zadań. Jednak w praktyce, zwłaszcza w układach społeczno-gospodarczych, stosowanie modeli liniowych jest czasami utrudnione ze względu na duże błędy aproksymacji. Dlatego często stosuje się nieliniowe funkcje regresji wielokrotnej, które można zlinearyzować. Należą do nich na przykład funkcja produkcji (funkcja potęgowa Cobba-Douglasa), która znalazła zastosowanie w różnych badaniach społeczno-ekonomicznych. To wygląda jak:

gdzie b 0 to współczynnik normalizacji, b 1 ...b j to nieznane współczynniki, e i to odchylenie losowe.

Używając logarytmów naturalnych, możesz przekształcić to równanie do postaci liniowej:

Powstały model pozwala na zastosowanie opisanych powyżej standardowych procedur regresji liniowej. Konstruując modele dwóch typów (addytywny i multiplikatywny) można wybrać najlepszy i prowadzić dalsze badania z mniejszymi błędami aproksymacji.

Istnieje dobrze rozwinięty system wyboru funkcji aproksymujących - metoda grupowego rozliczania argumentów(MGUA).

Poprawność wybranego modelu można ocenić na podstawie wyników badania reszt, czyli różnic pomiędzy zaobserwowanymi wartościami y i odpowiadającymi im wartościami y i przewidywanymi za pomocą równania regresji. W tym przypadku aby sprawdzić adekwatność modelu obliczony średni błąd przybliżenia:

Model uznaje się za odpowiedni, jeżeli e mieści się w granicach nie większych niż 15%.

Szczególnie podkreślamy, że w odniesieniu do systemów społeczno-gospodarczych nie zawsze są spełnione podstawowe warunki adekwatności klasycznego modelu regresji.

Nie zastanawiając się nad wszystkimi przyczynami powstałej nieadekwatności, wymienimy tylko wielowspółliniowość- najtrudniejszy problem efektywnego zastosowania procedur analizy regresji w badaniu zależności statystycznych. Pod wielowspółliniowość rozumie się, że istnieje liniowa zależność pomiędzy zmiennymi objaśniającymi.

Ten fenomen:

a) zniekształca znaczenie współczynników regresji przy ich znaczącej interpretacji;

b) zmniejsza trafność ocen (zwiększa się rozproszenie ocen);

c) zwiększa wrażliwość estymatorów współczynników na dane z próby (zwiększenie liczebności próby może znacząco wpłynąć na estymacje).

Istnieją różne techniki zmniejszania współliniowości. Najbardziej dostępnym sposobem jest wyeliminowanie jednej z dwóch zmiennych, jeśli współczynnik korelacji między nimi przekracza wartość równą w wartości bezwzględnej 0,8. O tym, którą ze zmiennych należy zachować, decyduje się na podstawie merytorycznych rozważań. Następnie współczynniki regresji obliczane są ponownie.

Zastosowanie algorytmu regresji krokowej pozwala na sekwencyjne włączenie do modelu jednej zmiennej niezależnej i analizę istotności współczynników regresji oraz wielowspółliniowości zmiennych. Ostatecznie w badanej zależności pozostają tylko te zmienne, które zapewniają niezbędną istotność współczynników regresji i minimalny wpływ współliniowości.

W poprzednich postach analiza często skupiała się na pojedynczej zmiennej liczbowej, takiej jak zwroty z funduszy inwestycyjnych, czas ładowania strony internetowej lub spożycie napojów bezalkoholowych. W tej i kolejnych notatkach przyjrzymy się metodom przewidywania wartości zmiennej numerycznej w zależności od wartości jednej lub większej liczby innych zmiennych numerycznych.

Materiał zostanie zilustrowany przykładem przekrojowym. Prognozowanie wielkości sprzedaży w sklepie odzieżowym. Sieć dyskontowych sklepów odzieżowych Słoneczniki rozwija się nieprzerwanie od 25 lat. Spółka nie posiada jednak obecnie systematycznego podejścia do wyboru nowych placówek. Lokalizacja, w której firma zamierza otworzyć nowy sklep, ustalana jest na podstawie subiektywnych rozważań. Kryteriami wyboru są korzystne warunki wynajmu lub pomysł menadżera na idealną lokalizację sklepu. Wyobraź sobie, że jesteś szefem działu projektów specjalnych i planowania. Otrzymałeś zadanie opracowania planu strategicznego otwierania nowych sklepów. Plan ten powinien zawierać prognozę rocznej sprzedaży nowo otwartych sklepów. Wierzysz, że powierzchnia handlowa jest bezpośrednio powiązana z przychodami i chcesz uwzględnić to w procesie decyzyjnym. Jak opracować model statystyczny, aby przewidzieć roczną sprzedaż na podstawie wielkości nowego sklepu?

Zazwyczaj analiza regresji służy do przewidywania wartości zmiennej. Jego celem jest opracowanie modelu statystycznego, który może przewidzieć wartości zmiennej zależnej lub odpowiedzi na podstawie wartości co najmniej jednej zmiennej niezależnej lub objaśniającej. W tej notatce przyjrzymy się prostej regresji liniowej – metodzie statystycznej, która pozwala przewidzieć wartości zmiennej zależnej Y przez niezależne wartości zmiennych X. W kolejnych uwagach zostanie opisany model regresji wielokrotnej przeznaczony do przewidywania wartości zmiennej niezależnej Y na podstawie wartości kilku zmiennych zależnych ( X 1, X 2, …, X k).

Pobierz notatkę w formacie lub, przykłady w formacie

Rodzaje modeli regresji

Gdzie ρ 1 – współczynnik autokorelacji; Jeśli ρ 1 = 0 (brak autokorelacji), D≈ 2; Jeśli ρ 1 ≈ 1 (dodatnia autokorelacja), D≈ 0; Jeśli ρ 1 = -1 (ujemna autokorelacja), D ≈ 4.

W praktyce stosowanie kryterium Durbina-Watsona opiera się na porównaniu wartości D z krytycznymi wartościami teoretycznymi d L I d U dla danej liczby obserwacji N, liczba zmiennych niezależnych modelu k(dla prostej regresji liniowej k= 1) i poziom istotności α. Jeśli D< d L , hipoteza o niezależności odchyleń losowych zostaje odrzucona (zachodzi zatem dodatnia autokorelacja); Jeśli D>du, hipoteza nie jest odrzucana (tzn. nie ma autokorelacji); Jeśli d L< D < d U nie ma wystarczających podstaw do podjęcia decyzji. Gdy obliczona wartość D przekracza 2, a następnie z d L I d U Porównywany jest nie sam współczynnik D i wyrażenie (4 – D).

Aby obliczyć statystyki Durbina-Watsona w Excelu, przejdźmy do dolnej tabeli na ryc. 14 Wycofanie salda. Licznik w wyrażeniu (10) oblicza się za pomocą funkcji =SUMMAR(tablica1;tablica2), a mianownik =SUMMAR(tablica) (rys. 16).

Ryż. 16. Wzory do obliczania statystyki Durbina-Watsona

W naszym przykładzie D= 0,883. Główne pytanie brzmi: jaką wartość statystyki Durbina-Watsona należy uznać za wystarczająco małą, aby stwierdzić, że istnieje dodatnia autokorelacja? Konieczne jest skorelowanie wartości D z wartościami krytycznymi ( d L I d U), w zależności od liczby obserwacji N oraz poziom istotności α (ryc. 17).

Ryż. 17. Wartości krytyczne statystyki Durbina-Watsona (fragment tabeli)

Zatem w problemie wielkości sprzedaży w sklepie dostarczającym towar do domu występuje jedna zmienna niezależna ( k= 1), 15 obserwacji ( N= 15) i poziom istotności α = 0,05. Stąd, d L= 1,08 i DU= 1,36. Ponieważ D = 0,883 < d L= 1,08, pomiędzy resztami występuje dodatnia autokorelacja, nie można zastosować metody najmniejszych kwadratów.

Testowanie hipotez dotyczących nachylenia i współczynnika korelacji

Powyżej regresję zastosowano wyłącznie do prognozowania. Wyznaczanie współczynników regresji i przewidywanie wartości zmiennej Y dla danej wartości zmiennej X Zastosowano metodę najmniejszych kwadratów. Dodatkowo zbadaliśmy błąd średniokwadratowy oszacowania i współczynnik korelacji mieszanej. Jeżeli analiza reszt potwierdzi, że nie zostały naruszone warunki stosowalności metody najmniejszych kwadratów, a prosty model regresji liniowej jest odpowiedni, to na podstawie przykładowych danych można postawić tezę, że pomiędzy zmiennymi w badaniu istnieje liniowa zależność populacja.

AplikacjaT -kryteria nachylenia. Testując, czy nachylenie populacji β 1 jest równe zeru, można stwierdzić, czy istnieje statystycznie istotna zależność pomiędzy zmiennymi X I Y. Jeśli hipoteza ta zostanie odrzucona, można argumentować, że pomiędzy zmiennymi X I Y istnieje zależność liniowa. Hipotezę zerową i alternatywną formułuje się następująco: H 0: β 1 = 0 (nie ma zależności liniowej), H1: β 1 ≠ 0 (istnieje zależność liniowa). A-przeorat T-statystyka jest równa różnicy między nachyleniem próbki a hipotetyczną wartością nachylenia populacji, podzieloną przez pierwiastek średniokwadratowy błędu oszacowania nachylenia:

(11) T = (B 1 β 1 ) / Sb 1

Gdzie B 1 – nachylenie regresji bezpośredniej na danych próbnych, β1 – hipotetyczne nachylenie populacji bezpośredniej, i statystyki testowe T To ma T-dystrybucja z n – 2 stopnie swobody.

Sprawdźmy, czy istnieje statystycznie istotna zależność pomiędzy wielkością sklepu a roczną sprzedażą przy α = 0,05. T-kryterium jest wyświetlane razem z innymi parametrami, jeśli jest używane Pakiet analityczny(opcja Regresja). Pełne wyniki pakietu analitycznego pokazano na ryc. 4, fragment dotyczący statystyki t - na ryc. 18.

Ryż. 18. Wyniki aplikacji T

Od ilości sklepów N= 14 (patrz rys. 3), wartość krytyczna T-statystykę na poziomie istotności α = 0,05 można znaleźć korzystając ze wzoru: t L=STUDENT.ARV(0,025;12) = –2,1788, gdzie 0,025 to połowa poziomu istotności, a 12 = N – 2; ty=STUDENT.OBR(0,975;12) = +2,1788.

Ponieważ T-statystyka = 10,64 > ty= 2,1788 (ryc. 19), hipoteza zerowa H 0 odrzucony. Z drugiej strony, R-wartość dla X= 10,6411, obliczone ze wzoru =1-ROZKŁ.STUDENTA(D3,12,TRUE), jest w przybliżeniu równe zeru, więc hipoteza H 0 ponownie odrzucony. Fakt, że R-wartość bliska zeru oznacza, że ​​gdyby nie istniała prawdziwa liniowa zależność pomiędzy wielkością sklepów a roczną sprzedażą, wykrycie jej za pomocą regresji liniowej byłoby praktycznie niemożliwe. Istnieje zatem statystycznie istotna liniowa zależność pomiędzy średnią roczną sprzedażą w sklepie a wielkością sklepu.

Ryż. 19. Testowanie hipotezy o nachyleniu populacji na poziomie istotności 0,05 i 12 stopniach swobody

AplikacjaF -kryteria nachylenia. Alternatywnym podejściem do testowania hipotez dotyczących nachylenia prostej regresji liniowej jest zastosowanie F-kryteria. Przypomnijmy Ci to F-test służy do testowania związku pomiędzy dwiema wariancjami (więcej szczegółów można znaleźć w artykule). Podczas testowania hipotezy nachylenia miarą błędów losowych jest wariancja błędu (suma kwadratów błędów podzielona przez liczbę stopni swobody), więc F-kryterium wykorzystuje współczynnik wariancji wyjaśniony regresją (tj. wartość SSR, podzielone przez liczbę zmiennych niezależnych k), do wariancji błędu ( MSE = S YX 2 ).

A-przeorat F-statystyka jest równa średniemu kwadratowi regresji (MSR) podzielonemu przez wariancję błędu (MSE): F = MSR/ MSE, Gdzie MSR=SSR / k, MSE =SSE/(N– k – 1), k– liczba zmiennych niezależnych w modelu regresji. Statystyki testowe F To ma F-dystrybucja z k I N– k – 1 stopnie swobody.

Dla danego poziomu istotności α regułę decyzyjną formułuje się następująco: jeśli F>FU, hipoteza zerowa zostaje odrzucona; w przeciwnym razie nie zostanie odrzucony. Wyniki zaprezentowane w formie zbiorczej tabeli analizy wariancji przedstawiono na rys. 20.

Ryż. 20. Analiza tabeli wariancji do sprawdzenia hipotezy o istotności statystycznej współczynnika regresji

Podobnie T-kryterium F-kryterium jest wyświetlane w tabeli, gdy jest stosowane Pakiet analityczny(opcja Regresja). Pełne efekty pracy Pakiet analityczny są pokazane na ryc. 4, fragment dot F-statystyka – na ryc. 21.

Ryż. 21. Wyniki aplikacji F-kryteria uzyskane za pomocą pakietu analitycznego Excel

Statystyka F wynosi 113,23 i R-wartość bliska zeru (komórka ZnaczenieF). Jeżeli poziom istotności α wynosi 0,05, określ wartość krytyczną F-rozkłady o jednym i 12 stopniach swobody można otrzymać korzystając ze wzoru FU=F.OBR(1-0,05;1;12) = 4,7472 (ryc. 22). Ponieważ F = 113,23 > FU= 4,7472 i R-wartość bliska 0< 0,05, нулевая гипотеза H 0 zostaje odrzucony, tj. Wielkość sklepu jest ściśle powiązana z jego roczną sprzedażą.

Ryż. 22. Testowanie hipotezy nachylenia populacji na poziomie istotności 0,05 przy jednym i 12 stopniach swobody

Przedział ufności zawierający nachylenie β 1 . Aby przetestować hipotezę o liniowym związku między zmiennymi, można skonstruować przedział ufności zawierający nachylenie β 1 i sprawdzić, czy hipotetyczna wartość β 1 = 0 należy do tego przedziału. Środek przedziału ufności zawierającego nachylenie β 1 jest nachyleniem próbki B 1 , a jego granice są ilościami b 1 ±tn –2 Sb 1

Jak pokazano na ryc. 18, B 1 = +1,670, N = 14, Sb 1 = 0,157. T 12 =STUDENT.ARV(0,975;12) = 2,1788. Stąd, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 lub + 1,328 ≤ β 1 ≤ +2,012. Zatem istnieje prawdopodobieństwo wynoszące 0,95, że nachylenie populacji mieści się w przedziale od +1,328 do +2,012 (tj. od 1 328 000 do 2 012 000 dolarów). Ponieważ wartości te są większe od zera, istnieje statystycznie istotna liniowa zależność pomiędzy roczną sprzedażą a powierzchnią sklepu. Gdyby przedział ufności zawierał zero, nie byłoby związku między zmiennymi. Dodatkowo przedział ufności oznacza, że ​​każde zwiększenie powierzchni sklepu o 1000 mkw. ft. skutkuje wzrostem średniego wolumenu sprzedaży o kwotę od 1 328 000 do 2 012 000 dolarów.

StosowanieT -kryteria współczynnika korelacji. wprowadzono współczynnik korelacji R, który jest miarą związku między dwiema zmiennymi numerycznymi. Można go wykorzystać do ustalenia, czy istnieje statystycznie istotna zależność między dwiema zmiennymi. Oznaczmy współczynnik korelacji pomiędzy populacjami obu zmiennych symbolem ρ. Hipotezy zerowe i alternatywne formułuje się w następujący sposób: H 0: ρ = 0 (brak korelacji), H 1: ρ ≠ 0 (istnieje korelacja). Sprawdzanie istnienia korelacji:

Gdzie R = + , Jeśli B 1 > 0, R = – , Jeśli B 1 < 0. Тестовая статистика T To ma T-dystrybucja z n – 2 stopnie swobody.

W problemie dotyczącym sieci sklepów Słoneczniki r 2= 0,904, a b 1- +1,670 (patrz ryc. 4). Ponieważ b 1> 0, współczynnik korelacji pomiędzy roczną sprzedażą a wielkością sklepu wynosi R= +√0,904 = +0,951. Przetestujmy hipotezę zerową, że nie ma korelacji między tymi zmiennymi, używając T-Statystyka:

Na poziomie istotności α = 0,05 hipotezę zerową należy odrzucić, ponieważ T= 10,64 > 2,1788. Można zatem postawić tezę, że istnieje statystycznie istotna zależność pomiędzy roczną sprzedażą a wielkością sklepu.

Omawiając wnioski dotyczące nachylenia populacji, przedziały ufności i testy hipotez są używane zamiennie. Jednak obliczenie przedziału ufności zawierającego współczynnik korelacji okazuje się trudniejsze, gdyż rodzaj rozkładu próbkowania statystyki R zależy od rzeczywistego współczynnika korelacji.

Estymacja oczekiwań matematycznych i przewidywanie poszczególnych wartości

W tej sekcji omówiono metody szacowania matematycznego oczekiwania odpowiedzi Y i przewidywania poszczególnych wartości Y dla danych wartości zmiennej X.

Konstruowanie przedziału ufności. W przykładzie 2 (patrz sekcja powyżej Metoda najmniejszych kwadratów) równanie regresji pozwoliło przewidzieć wartość zmiennej Y X. W problemie wyboru lokalizacji punktu sprzedaży detalicznej średnioroczny wolumen sprzedaży w sklepie o powierzchni 4000 mkw. stóp wynosiło 7,644 miliona dolarów, jednakże to oszacowanie matematycznych oczekiwań populacji ogólnej jest punktowe. Aby oszacować oczekiwania matematyczne populacji, zaproponowano koncepcję przedziału ufności. Podobnie możemy wprowadzić to pojęcie przedział ufności dla matematycznego oczekiwania odpowiedzi dla danej wartości zmiennej X:

Gdzie , = B 0 + B 1 X ja– przewidywana wartość jest zmienna Y Na X = X ja, S YX– błąd średniokwadratowy, N- wielkość próbki, XI- określona wartość zmiennej X, µ Y|X = XI– matematyczne oczekiwanie zmiennej Y Na X = Xi, SSX =

Analiza wzoru (13) pokazuje, że szerokość przedziału ufności zależy od kilku czynników. Na danym poziomie istotności wzrost amplitudy wahań wokół linii regresji, mierzonej za pomocą pierwiastka błędu średniokwadratowego, prowadzi do zwiększenia szerokości przedziału. Z drugiej strony, jak można się spodziewać, wzrostowi liczebności próby towarzyszy zawężenie przedziału. Ponadto szerokość przedziału zmienia się w zależności od wartości XI. Jeżeli wartość zmiennej Y przewidywane dla ilości X, zbliżona do wartości średniej , przedział ufności okazuje się węższy niż przy przewidywaniu reakcji dla wartości odległych od średniej.

Załóżmy, że wybierając lokalizację sklepu chcemy skonstruować 95% przedział ufności dla średniorocznej sprzedaży wszystkich sklepów o powierzchni 4000 m2. stopy:

Dlatego też średnioroczny wolumen sprzedaży we wszystkich sklepach o powierzchni 4 tys. stóp, z prawdopodobieństwem 95% mieści się w przedziale od 6,971 do 8,317 mln dolarów.

Oblicz przedział ufności dla przewidywanej wartości. Oprócz przedziału ufności dla matematycznego oczekiwania reakcji dla danej wartości zmiennej X, często konieczna jest znajomość przedziału ufności dla przewidywanej wartości. Choć wzór na obliczenie takiego przedziału ufności jest bardzo podobny do wzoru (13), to przedział ten zawiera wartość przewidywaną, a nie estymację parametru. Przedział czasu dla przewidywanej odpowiedzi YX = Xi dla określonej wartości zmiennej XI określone wzorem:

Załóżmy, że wybierając lokalizację punktu sprzedaży detalicznej chcemy skonstruować 95% przedział ufności dla przewidywanej rocznej wielkości sprzedaży dla sklepu o powierzchni 4000 mkw. stopy:

W związku z tym przewidywany roczny wolumen sprzedaży sklepu o powierzchni 4000 mkw. stóp, z prawdopodobieństwem 95% mieści się w przedziale od 5,433 do 9,854 mln dolarów. Jak widać, przedział ufności dla przewidywanej wartości odpowiedzi jest znacznie szerszy niż przedział ufności dla jej matematycznego oczekiwania. Dzieje się tak dlatego, że zmienność w przewidywaniu poszczególnych wartości jest znacznie większa niż w szacowaniu oczekiwań matematycznych.

Pułapki i problemy etyczne związane ze stosowaniem regresji

Trudności związane z analizą regresji:

  • Ignorowanie warunków stosowalności metody najmniejszych kwadratów.
  • Błędna ocena przesłanek stosowalności metody najmniejszych kwadratów.
  • Niewłaściwy wybór metod alternatywnych w przypadku naruszenia warunków stosowalności metody najmniejszych kwadratów.
  • Zastosowanie analizy regresji bez głębokiej znajomości przedmiotu badań.
  • Ekstrapolacja regresji poza zakres zmiennej objaśniającej.
  • Pomieszanie zależności statystycznych i przyczynowych.

Powszechne stosowanie arkuszy kalkulacyjnych i oprogramowania statystycznego wyeliminowało problemy obliczeniowe, które utrudniały stosowanie analizy regresji. Doprowadziło to jednak do tego, że z analizy regresji korzystali użytkownicy, którzy nie posiadali wystarczających kwalifikacji i wiedzy. Skąd użytkownicy mogą wiedzieć o metodach alternatywnych, skoro wielu z nich w ogóle nie ma pojęcia o warunkach stosowania metody najmniejszych kwadratów i nie wie, jak sprawdzić ich wdrożenie?

Badacz nie powinien dać się ponieść analizowaniu liczb – obliczaniu przesunięcia, nachylenia i współczynnika korelacji mieszanej. Potrzebuje głębszej wiedzy. Zilustrujmy to klasycznym przykładem zaczerpniętym z podręczników. Anscombe wykazał, że wszystkie cztery zestawy danych pokazane na ryc. 23, mają te same parametry regresji (ryc. 24).

Ryż. 23. Cztery sztuczne zbiory danych

Ryż. 24. Analiza regresji czterech sztucznych zbiorów danych; skończone Pakiet analityczny(kliknij na zdjęcie, aby powiększyć obraz)

Zatem z punktu widzenia analizy regresji wszystkie te zbiory danych są całkowicie identyczne. Gdyby na tym analiza się zakończyła, stracilibyśmy wiele przydatnych informacji. Świadczą o tym wykresy punktowe (Rysunek 25) i wykresy reszt (Rysunek 26) skonstruowane dla tych zbiorów danych.

Ryż. 25. Wykresy punktowe dla czterech zbiorów danych

Wykresy punktowe i wykresy reszt wskazują, że dane te różnią się od siebie. Jedynym zbiorem rozłożonym wzdłuż linii prostej jest zbiór A. Wykres reszt obliczonych ze zbioru A nie ma żadnego wzoru. Nie można tego powiedzieć o zbiorach B, C i D. Wykres punktowy wykreślony dla zbioru B wykazuje wyraźny wzór kwadratowy. Wniosek ten potwierdza wykres resztowy, który ma kształt paraboliczny. Wykres punktowy i wykres reszt pokazują, że zbiór danych B zawiera wartość odstającą. W tej sytuacji konieczne jest wykluczenie ze zbioru danych wartości odstającej i powtórzenie analizy. Metodę wykrywania i eliminowania wartości odstających w obserwacjach nazywa się analizą wpływu. Po wyeliminowaniu wartości odstającej wynik ponownej estymacji modelu może być zupełnie inny. Wykres rozrzutu wykreślony na podstawie danych ze zbioru G ilustruje nietypową sytuację, w której model empiryczny jest w istotny sposób zależny od indywidualnej reakcji ( X 8 = 19, Y 8 = 12,5). Takie modele regresji należy obliczać szczególnie ostrożnie. Zatem wykresy rozrzutu i reszt są niezbędnym narzędziem analizy regresji i powinny stanowić jej integralną część. Bez nich analiza regresji nie jest wiarygodna.

Ryż. 26. Wykresy reszt dla czterech zbiorów danych

Jak uniknąć pułapek w analizie regresji:

  • Analiza możliwych zależności pomiędzy zmiennymi X I Y zawsze zaczynaj od narysowania wykresu punktowego.
  • Przed interpretacją wyników analizy regresji należy sprawdzić warunki jej stosowalności.
  • Wykreśl reszty w funkcji zmiennej niezależnej. Umożliwi to określenie stopnia dopasowania modelu empirycznego do wyników obserwacji oraz wykrycie naruszenia stałości wariancji.
  • Użyj histogramów, wykresów łodyg i liści, wykresów pudełkowych i wykresów rozkładu normalnego, aby przetestować założenie o rozkładzie błędu normalnego.
  • Jeżeli nie są spełnione warunki stosowalności metody najmniejszych kwadratów, należy zastosować metody alternatywne (na przykład modele kwadratowe lub modele regresji wielokrotnej).
  • Jeżeli spełnione są warunki stosowania metody najmniejszych kwadratów, należy przetestować hipotezę o istotności statystycznej współczynników regresji i skonstruować przedziały ufności zawierające oczekiwanie matematyczne i przewidywaną wartość odpowiedzi.
  • Unikaj przewidywania wartości zmiennej zależnej poza zakresem zmiennej niezależnej.
  • Należy pamiętać, że zależności statystyczne nie zawsze mają charakter przyczynowo-skutkowy. Pamiętaj, że korelacja między zmiennymi nie oznacza, że ​​istnieje między nimi związek przyczynowo-skutkowy.

Streszczenie. Jak pokazano na schemacie blokowym (Rysunek 27), w uwagach opisano prosty model regresji liniowej, warunki jego zastosowania oraz sposób testowania tych warunków. Uważany za T-kryterium badania istotności statystycznej nachylenia regresji. Do przewidywania wartości zmiennej zależnej wykorzystano model regresji. Rozpatrzono przykład dotyczący wyboru lokalizacji punktu sprzedaży detalicznej, w którym badana jest zależność rocznej wielkości sprzedaży od powierzchni sklepu. Uzyskane informacje pozwalają dokładniej wybrać lokalizację sklepu i przewidzieć jego roczną wielkość sprzedaży. W poniższych notatkach będziemy kontynuować dyskusję na temat analizy regresji, a także przyjrzymy się modelom regresji wielokrotnej.

Ryż. 27. Schemat struktury notatki

Wykorzystano materiały z książki Levin i wsp. Statystyka dla menedżerów. – M.: Williams, 2004. – s. 25 792–872

Jeżeli zmienna zależna ma charakter kategoryczny, należy zastosować regresję logistyczną.