Regresyon denklemi istatistiği. Doğrusal regresyon denkleminin parametrelerini bulun ve regresyon katsayısının ekonomik bir yorumunu yapın

x - tahmin edici olarak adlandırılır - bağımsız veya açıklayıcı bir değişken.

Belirli bir x miktarı için Y, tahmin satırında yer alan y değişkeninin (bağımlı, çıktı veya yanıt değişkeni olarak adlandırılır) değeridir. Bu, x'in değerini biliyorsak y için (ortalama olarak) beklediğimiz değerdir ve buna "y'nin tahmin edilen değeri" denir (Şekil 5).

a - değerlendirme hattının ücretsiz üyesi (geçiş); x = 0 olduğunda Y'nin değeridir.

b, tahmin edilen doğrunun eğimi veya eğimidir; x'i bir birim artırırsak, Y'nin ortalama olarak arttığı miktarı temsil eder (Şekil 5). b katsayısına regresyon katsayısı denir.

Örneğin: insan vücut sıcaklığındaki 1 ° C artışla, nabız hızı dakikada ortalama 10 vuruş artar.

Şekil 5. Katsayıyı gösteren lineer regresyon doğrusu a ve eğim b(değeri artır Y yükselmekle birlikte X birim başına)

Matematiksel olarak, lineer regresyon denkleminin çözümü, a ve b parametrelerinin hesaplanmasına indirgenir, böylece korelasyon alanının ilk verilerinin noktaları doğrudan regresyona mümkün olduğunca yakın .

"Regresyon" kelimesinin istatistiksel kullanımı, Francis Galton'a (1889) atfedilen, ortalamaya gerileme olarak bilinen bir fenomenden gelir. Uzun boylu babaların uzun oğullara sahip olma eğilimindeyken, oğulların ortalama boyunun uzun babalarınınkinden daha küçük olduğunu gösterdi. Oğulların ortalama boyu, nüfustaki tüm babaların ortalama boyuna doğru "gerilemiş" veya "ters" olmuştur. Bu nedenle, ortalama olarak, uzun boylu babaların daha kısa (ama yine de uzun) oğulları vardır ve kısa babaların daha uzun (ama yine de oldukça kısa) oğulları vardır.

Belirli bir değişkenin, örneğin kolesterol düzeylerinin aşırı yüksek (veya düşük) olması nedeniyle, bir hasta alt grubunun tedavi için seçilebildiği tarama ve klinik deneylerde ortalama bir gerileme görüyoruz. Bu ölçüm zaman içinde tekrarlanırsa, alt grup için ikinci okumanın ortalaması genellikle ilk okumadan daha azdır, tedaviden bağımsız olarak popülasyondaki yaş ve cinsiyet uyumlu ortalamaya doğru eğilim gösterir (yani geriler). almak.. Bu nedenle, ilk ziyaretlerinde yüksek kolesterole dayalı bir klinik araştırmaya alınan hastaların, bu süre içinde tedavi görmemiş olsalar bile, ikinci ziyaretlerinde kolesterol seviyelerinde ortalama bir düşüş göstermesi muhtemeldir.

Genellikle regresyon analizi yöntemi, normatif ölçekler ve fiziksel gelişim standartları geliştirmek için kullanılır.


Regresyon çizgisinin verilere ne kadar iyi uyduğu, korelasyon katsayısının (r 2) karesine eşit olan R katsayısının (genellikle yüzde olarak ifade edilir ve belirleme katsayısı olarak adlandırılır) hesaplanmasıyla değerlendirilebilir. x ile ilişkisi ile açıklanabilen y varyansının oranını veya yüzdesini temsil eder, yani. bağımsız bir özelliğin etkisi altında gelişen özellik-sonuç varyasyonunun oranı. 0 ile 1 arasında veya sırasıyla 0 ile %100 arasında değerler alabilir. Fark (%100 - R), bu etkileşimle açıklanamayan y'deki varyansın yüzdesidir.

Misal

Çocuklarda boy (cm olarak ölçülür) ile sistolik kan basıncı (SBP, mmHg olarak ölçülür) arasındaki ilişki. Yüksekliğe karşı SBP'nin ikili lineer regresyon analizini gerçekleştirdik (Şekil 6). Boy ve SBP arasında önemli bir doğrusal ilişki vardır.

Şekil 6. Sistolik kan basıncı ile boy arasındaki ilişkiyi gösteren iki boyutlu grafik. Gösterilen tahmini regresyon çizgisi, sistolik kan basıncıdır.

Tahmini regresyon doğrusu denklemi aşağıdaki gibidir:

BAHÇE \u003d 46.28 + 0.48 x yükseklik.

Bu örnekte, kesişim ilgi çekici değildir (sıfırlık bir artış, çalışmada gözlemlenen aralığın açıkça dışındadır). Ancak eğimi yorumlayabiliriz; Bu çocuklarda SBP'nin ortalama 0,48 mm Hg artması beklenmektedir. bir santimetre yükseklikte bir artış ile

Belirli bir yükseklikteki bir çocukta bekleyeceğimiz SBP'yi tahmin etmek için bir regresyon denklemi uygulayabiliriz. Örneğin, 115 cm boyunda bir çocuğun tahmini SBP'si 46,28 + (0,48 x 115) = 101,48 mm Hg'dir. Art., 130 boyunda bir çocuğun tahmini SBP'si, 46.28 + (0.48 x 130) = 108.68 mm Hg. Sanat.

Korelasyon katsayısı hesaplanırken, ortalama gücün doğrudan bir korelasyonunu gösteren 0,55'e eşit olduğu bulundu. Bu durumda, belirleme katsayısı r 2 \u003d 0,55 2 \u003d 0,3. Böylece çocuklarda tansiyon düzeyine büyümenin etkisinin payının sırasıyla %30'u geçmediğini, etkinin %70'inin diğer faktörlerin payına düştüğünü söyleyebiliriz.

Doğrusal (basit) regresyon, bağımlı değişken ile yalnızca bir bağımsız değişken arasındaki ilişkiyi dikkate almakla sınırlıdır. İlişkide birden fazla bağımsız değişken varsa o zaman çoklu regresyona yönelmemiz gerekir. Böyle bir regresyon denklemi şöyle görünür:

y = a + bx 1 + b 2 x 2 +... + b n x n

Birkaç bağımsız değişken x 1 , x 2 , .., x n'nin yanıt değişkeni y üzerindeki etkisinin sonucuyla ilgilenilebilir. Bu x'lerin birbirine bağımlı olabileceğini düşünürsek, o zaman bir x'in değerini y ile değiştirmenin etkisine ayrı ayrı bakmamalı, aynı anda diğer tüm x'lerin değerlerini hesaba katmalıyız.

Misal

Bir çocuğun boyu ile vücut ağırlığı arasında güçlü bir ilişki olduğu için, çocuğun vücut ağırlığı ve cinsiyeti de dikkate alındığında boy ile sistolik kan basıncı arasındaki ilişkinin de değişip değişmediği merak edilebilir. Çoklu doğrusal regresyon, bu çoklu bağımsız değişkenlerin y üzerindeki birleşik etkisini inceler.

Bu durumda çoklu regresyon denklemi şöyle görünebilir:

BAHÇE \u003d 79.44 - (0.03 x yükseklik) + (1.18 x ağırlık) + (4.23 x cinsiyet) *

* - (cinsiyet için 0 - erkek, 1 - kız değerleri)

Bu denkleme göre, 115 cm boyunda ve 37 kg ağırlığındaki bir kızın tahmini SBP'si olacaktır:

BAHÇE \u003d 79.44 - (0.03 x 115) + (1.18 x 37) + (4.23 x 1) \u003d 123.88 mm Hg.

Lojistik regresyon, lineer regresyona çok benzer; bizi ilgilendiren ikili bir sonuç (yani bir semptomun varlığı/yokluğu veya hastalığı olan/olmayan bir özne) ve bir dizi tahmin edici olduğunda kullanılır. Lojistik regresyon denkleminden hangi tahmin edicilerin sonucu etkilediğini belirlemek ve hastanın tahmin edicilerinin değerlerini kullanarak hastanın belirli bir sonuca sahip olma olasılığını tahmin etmek mümkündür. Örneğin: komplikasyonlar ortaya çıkar veya çıkmaz, tedavi etkili olur veya olmaz.

İki sonucu temsil edecek bir ikili değişken oluşturmaya başlayın (örneğin, "hastalığı var" = 1, "hastalığı yok" = 0). Ancak normallik varsayımı ihlal edildiğinden lineer regresyon analizinde bağımlı değişken olarak bu iki değeri uygulayamıyoruz ve sıfır veya bir olmayan tahmin edilen değerleri yorumlayamayız.

Aslında, bunun yerine, konunun bağımlı değişkenin en yakın kategorisinde sınıflandırılmış (yani "hastalığı var") olasılığını alıyoruz ve matematiksel zorlukların üstesinden gelmek için, regresyon denkleminde - doğal logaritmada bir lojistik dönüşüm uyguluyoruz. "hastalık" (p) olasılığının "hastalık yok" (1-p) olasılığına oranı.

Sıradan regresyon yerine (doğrusal regresyon prosedürünü uygulayamadığımız için) maksimum olabilirlik yöntemi olarak adlandırılan bütünleştirici bir süreç, örnek verilerden lojistik regresyon denkleminin bir tahminini oluşturur.

logit(p) = a + bx 1 + b 2 x 2 +... + b n x n

logit (p), x 1 ... x n için ayrı bir değer kümesine sahip bir hastanın bir hastalığa sahip olmasının gerçek olasılığının değerinin bir tahminidir;

a - sabitin değerlendirilmesi (serbest terim, kesişim);

b 1 , b 2 ,... ,b n — lojistik regresyon katsayılarının tahminleri.

1. Dersin konusuyla ilgili sorular:

1. Fonksiyonel ve korelasyon tanımını verin.

2. Doğrudan ve ters korelasyon örnekleri verin.

3. Özellikler arasındaki zayıf, orta ve güçlü ilişkiler için korelasyon katsayılarının boyutunu belirtin.

4. Korelasyon katsayısını hesaplamak için sıralama yöntemi hangi durumlarda kullanılır?

5. Pearson korelasyon katsayısının hesaplanması hangi durumlarda kullanılır?

6. Sıralama yöntemiyle korelasyon katsayısının hesaplanmasındaki ana adımlar nelerdir?

7. "Gerileme"yi tanımlayın. Regresyon yönteminin özü nedir?

8. Basit bir lineer regresyon denkleminin formülünü tanımlayın.

9. Regresyon katsayısını tanımlayın.

10. Boy için ağırlığın regresyon katsayısı 0,26 kg/cm ise nasıl bir sonuç çıkarılabilir?

11. Regresyon denklemi formülü ne için kullanılır?

12. Belirleme katsayısı nedir?

13. Çoklu regresyon denklemi hangi durumlarda kullanılır?

14. Lojistik regresyon yöntemi ne için kullanılır?

Görev.

Bölgedeki hafif sanayi işletmeleri için, çıktı hacminin (Y, milyon ruble) sermaye yatırımlarının hacmine (Y, milyon ruble) bağımlılığını karakterize eden bilgiler elde edildi.

Tablo 1.

Çıktı hacminin sermaye yatırımlarının hacmine bağımlılığı.

X
Y

Gerekli:

1. Doğrusal regresyon denkleminin parametrelerini bulun, regresyon katsayısının ekonomik bir yorumunu verin.

2. Artıkları hesaplayın; kalan kareler toplamını bulun; artıkların varyansını tahmin edin; artıkları çizin.

3. LSM ön koşullarının karşılanıp karşılanmadığını kontrol edin.

4. Student t-testini (α = 0.05) kullanarak regresyon denkleminin parametrelerinin anlamlılığını kontrol edin.

5. Belirleme katsayısını hesaplayın, Fisher'in F - kriterini (α = 0.05) kullanarak regresyon denkleminin önemini kontrol edin, ortalama göreceli yaklaşım hatasını bulun. Modelin kalitesi hakkında bir karar verin.

6. X faktörünün tahmin edilen değeri maksimum değerinin %80'i ise, Y göstergesinin ortalama değerini α = 0.1 anlamlılık düzeyinde tahmin etmek.

7. Tahmin noktasının gerçek ve model Y değerlerini grafiksel olarak sunun.

8. Doğrusal olmayan regresyon denklemleri oluşturun ve grafiklerini oluşturun:

hiperbolik;

Güç;

Gösterişli.

9. Bu modeller için, belirleme katsayılarını ve ortalama göreceli yaklaşım hatalarını bulun. Modelleri bu özelliklere göre karşılaştırın ve bir sonuç çıkarın.

Doğrusal regresyon denkleminin parametrelerini bulalım ve regresyon katsayısının ekonomik bir yorumunu verelim.

Doğrusal regresyon denklemi: ,

a ve b parametrelerini bulmak için hesaplamalar Tablo 2'de verilmiştir.

Tablo 2.

Doğrusal regresyon denkleminin parametrelerini bulmak için değerlerin hesaplanması.

Regresyon denklemi: y = 13.8951 + 2.4016*x.

Sermaye yatırımları (X) hacminde 1 milyon ruble artış ile. çıktı hacmi (Y) ortalama 2.4016 milyon ruble artacak. Bu nedenle, işletmelerin verimliliğini ve faaliyetlerindeki yatırımların karlılığını gösteren pozitif bir işaret korelasyonu vardır.

2. Kalanları hesaplayın; kalan kareler toplamını bulun; artıkların varyansını tahmin et ve artıkları çizin.

Kalan formülle hesaplanır: e ben = y ben - y progn.

Kare sapmaların kalan toplamı: = 207.74.

Artık dağılım: 25.97.

Hesaplamalar Tablo 3'te gösterilmiştir.

Tablo 3

Y X Y=a+b*x ben e ben = y ben - y tahmin. ben 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
toplam 0,00 207,74
Ortalama 111,4 40,6

Denge tablosu şöyle görünür:


Şekil 1. Kalıntı grafiği

3. Aşağıdaki unsurları içeren LSM'nin ön koşullarının yerine getirildiğini kontrol edelim:

- rastgele bileşenin matematiksel beklentisinin sıfıra eşitliğinin kontrol edilmesi;

- kalıntıların rastgele doğası;

- bağımsızlık kontrolü;

- bir dizi kalıntının normal dağılım yasasına uygunluğu.

Bir dizi artıkların seviyelerinin matematiksel beklentisinin sıfıra eşitliğinin kontrol edilmesi.

Karşılık gelen boş hipotezin doğrulanması sırasında gerçekleştirilir H 0: . Bu amaçla, bir t-istatistiği oluşturulur, burada .

yani hipotez kabul edilir.

Kalıntıların rastgele doğası.

Dönüm noktaları kriterini kullanarak bir dizi artıkların seviyelerinin rastgeleliğini kontrol edelim:

Dönüm noktalarının sayısı artık tablosundan belirlenir:

e ben = y ben - y tahmin. Dönüş noktası ben 2 (e ben - e ben -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
toplam 0,00 207,74 354,62
Ortalama

= 6 >, bu nedenle, artıkların rastgele olma özelliği karşılanır.

Artık Bağımsızlık Durbin-Watson testi kullanılarak doğrulandı:

=4 - 1,707 = 2,293.

d 2'den 2'ye kadar olan aralığa düştüğü için, bu kritere göre bağımsızlık özelliğinin karşılandığı sonucuna varabiliriz. Bu, dinamik serilerinde otokorelasyon olmadığı ve dolayısıyla modelin bu kritere göre yeterli olduğu anlamına gelir.

Bir dizi kalıntının normal dağılım yasasına uygunluğu kritik düzeylerde (2.7-3.7) R/S kriteri kullanılarak belirlenir;

RS değerini hesaplayın:

RS = (e max - e min) / S,

burada emax, bir dizi kalıntı E(t) = 8,07 seviyelerinin maksimum değeridir;

e min - bir dizi kalıntı E(t) = -6,54 seviyelerinin minimum değeri.

S - standart sapma, = 4,8044.

RS \u003d (e max - e min) / S \u003d (8.07 + 6.54) / 4.8044 \u003d 3.04.

2.7'den beri< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Böylece, LSM'nin ön koşullarını yerine getirmek için çeşitli kriterleri göz önünde bulundurarak, LSM'nin ön koşullarının karşılandığı sonucuna varıyoruz.

4. Student t-testi α = 0.05'i kullanarak regresyon denkleminin parametrelerinin önemini kontrol edelim.

Bireysel regresyon katsayılarının öneminin kontrol edilmesi, hesaplanan değerlerin belirlenmesi ile ilişkilidir. t-testi (t-istatistikleri) karşılık gelen regresyon katsayıları için:

Daha sonra hesaplanan değerler tablo ile karşılaştırılır. t masa= 2.3060. Kriterin tablo değeri ( n- 2) serbestlik derecesi ( n- gözlem sayısı) ve karşılık gelen anlamlılık düzeyi a (0.05)

t testinin hesaplanan değeri ise (n- 2) serbestlik derecesi, belirli bir önem düzeyinde tablo değerini aşıyorsa, regresyon katsayısı anlamlı kabul edilir.

Bizim durumumuzda, regresyon katsayıları 0 - önemsiz ve 1 - önemli katsayılar.

Regresyon çizgisi, fenomenler arasındaki ilişkinin grafiksel bir yansımasıdır. Excel'de kolayca bir regresyon çizgisi oluşturabilirsiniz.

Bunun için ihtiyacınız olan:

1.Excel programını açın

2. Verilerle sütunlar oluşturun. Örneğimizde, birinci sınıf öğrencilerinde saldırganlık ve kendinden şüphe duyma arasında bir regresyon çizgisi veya ilişki kuracağız. Deney 30 çocuğu içeriyordu, veriler Excel tablosunda sunuldu:

1 sütun - konunun numarası

2 sütun - saldırganlık puan olarak

3 sütun - kendinden şüphe etmek puan olarak

3. Ardından her iki sütunu da seçmeniz gerekir (sütun adı olmadan), sekmeye basın sokmak , Seç nokta ve önerilen düzenlerden ilkini seçin işaretli nokta .

4. Böylece regresyon çizgisi için bir boşluk elde ettik - sözde - dağılım grafiği. Regresyon çizgisine gitmek için ortaya çıkan şekle tıklamanız, sekmeye tıklamanız gerekir. yapıcı, panelde bul grafik düzenleri ve Seç M a ket9 , ayrıca diyor f(x)

5. Yani, bir regresyon çizgimiz var. Grafik ayrıca denklemini ve korelasyon katsayısının karesini de gösterir.

6. Grafiğin adını, eksenlerin adını eklemek için kalır. Ayrıca istenirse göstergeyi kaldırabilir, yatay ızgara çizgilerinin sayısını azaltabilirsiniz (sekme Yerleşim , o zamanlar ). Ana değişiklikler ve ayarlar sekmede yapılır Düzen

Regresyon çizgisi MS Excel'de oluşturulmuştur. Artık eserin metnine eklenebilir.

Önceki notlarda, odak genellikle yatırım fonu getirileri, Web sayfası yükleme süresi veya meşrubat tüketimi gibi tek bir sayısal değişken üzerinde olmuştur. Bu ve sonraki notlarda, bir veya daha fazla sayısal değişkenin değerlerine bağlı olarak sayısal bir değişkenin değerlerini tahmin etme yöntemlerini ele alacağız.

Materyal bir örnekle gösterilecektir. Bir giyim mağazasında satış hacmini tahmin etmek. Ayçiçekleri indirimli giyim mağazaları zinciri 25 yıldır sürekli genişlemektedir. Ancak, şirketin şu anda yeni satış noktaları seçmek için sistematik bir yaklaşımı bulunmamaktadır. Şirketin yeni bir mağaza açmayı planladığı yer, subjektif değerlendirmelere göre belirlenir. Seçim kriterleri, uygun kiralama koşulları veya yöneticinin mağazanın ideal konumu hakkındaki fikridir. Özel Projeler ve Planlama Departmanının başında olduğunuzu düşünün. Yeni mağazalar açmak için stratejik bir plan geliştirmekle görevlendirildiniz. Bu plan, yeni açılan mağazalardaki yıllık satış tahminini içermelidir. Satış alanının doğrudan gelirle ilgili olduğuna inanıyor ve bu gerçeği karar verme sürecinize dahil etmek istiyorsunuz. Yeni mağaza büyüklüğüne göre yıllık satışları tahmin eden bir istatistiksel modeli nasıl geliştirirsiniz?

Tipik olarak, bir değişkenin değerlerini tahmin etmek için regresyon analizi kullanılır. Amacı, en az bir bağımsız veya açıklayıcı değişkenin değerlerinden bağımlı değişkenin veya yanıtın değerlerini tahmin eden istatistiksel bir model geliştirmektir. Bu notta, basit bir doğrusal regresyon - bağımlı değişkenin değerlerini tahmin etmenizi sağlayan istatistiksel bir yöntem ele alacağız. Y bağımsız değişkenin değerlerine göre X. Aşağıdaki notlar, bağımsız değişkenin değerlerini tahmin etmek için tasarlanmış bir çoklu regresyon modelini açıklayacaktır. Y birkaç bağımlı değişkenin değerleriyle ( X 1 , X 2 , …, Xk).

Notu veya biçiminde indirin, örnekler biçiminde

Regresyon modellerinin türleri

nerede ρ 1 otokorelasyon katsayısıdır; Eğer ρ 1 = 0 (otokorelasyon yok), D≈ 2; Eğer ρ 1 ≈ 1 (pozitif otokorelasyon), D≈ 0; Eğer ρ 1 = -1 (negatif otokorelasyon), D ≈ 4.

Pratikte, Durbin-Watson kriterinin uygulanması, değerin karşılaştırılmasına dayanır. D kritik teorik değerlerle d L ve d U Belirli sayıda gözlem için n, modelin bağımsız değişken sayısı k(basit doğrusal regresyon için k= 1) ve önem düzeyi α. Eğer bir D< d L , rastgele sapmaların bağımsızlığı hipotezi reddedilir (dolayısıyla pozitif bir otokorelasyon vardır); Eğer D > dU, hipotez reddedilmez (yani, otokorelasyon yoktur); Eğer d L< D < d U karar vermek için yeterli sebep yok. Hesaplanan değer ne zaman D 2'yi aşıyor, o zaman d L ve d U karşılaştırılan katsayının kendisi değil D, ve ifade (4 – D).

Excel'de Durbin-Watson istatistiklerini hesaplamak için Şekil 1'deki alt tabloya dönüyoruz. on dört Bakiye çekme. (10) ifadesindeki pay, = SUMMQDIFF(dizi1, dizi2) işlevi ve payda = SUMMQ(dizi) işlevi kullanılarak hesaplanır (Şekil 16).

Pirinç. 16. Durbin-Watson istatistiklerini hesaplamak için formüller

Örneğimizde D= 0.883. Asıl soru şudur: Durbin-Watson istatistiğinin hangi değeri, pozitif bir otokorelasyon olduğu sonucuna varmak için yeterince küçük kabul edilmelidir? D değerini kritik değerlerle ilişkilendirmek gerekir ( d L ve d U) gözlem sayısına bağlı olarak n ve anlamlılık düzeyi α (Şekil 17).

Pirinç. 17. Durbin-Watson istatistiklerinin kritik değerleri (tablo parçası)

Dolayısıyla, evinize mal getiren bir mağazadaki satış hacmi probleminde bir bağımsız değişken vardır ( k= 1), 15 gözlem ( n= 15) ve anlamlılık düzeyi α = 0.05. Buradan, d L= 1.08 ve dsen= 1.36. kadarıyla D = 0,883 < d L= 1.08, artıklar arasında pozitif bir otokorelasyon var, en küçük kareler yöntemi uygulanamıyor.

Eğim ve Korelasyon Katsayısı ile İlgili Hipotezlerin Test Edilmesi

Yukarıdaki regresyon yalnızca tahmin için uygulandı. Regresyon katsayılarını belirlemek ve bir değişkenin değerini tahmin etmek Y belirli bir değişken değeri için X en küçük kareler yöntemi kullanılmıştır. Ayrıca, tahminin standart hatasını ve karışık korelasyon katsayısını da dikkate aldık. Kalıntı analizi, en küçük kareler yönteminin uygulanabilirlik koşullarının ihlal edilmediğini ve basit doğrusal regresyon modelinin yeterli olduğunu doğrularsa, örnek verilere dayanarak, ana kütledeki değişkenler arasında doğrusal bir ilişki olduğu söylenebilir.

Başvurut - eğim kriterleri. Popülasyon eğiminin β 1 sıfıra eşit olup olmadığı kontrol edilerek, değişkenler arasında istatistiksel olarak anlamlı bir ilişki olup olmadığı belirlenebilir. X ve Y. Bu hipotez reddedilirse, değişkenler arasında X ve Y doğrusal bir ilişki vardır. Boş ve alternatif hipotezler şu şekilde formüle edilir: H 0: β 1 = 0 (doğrusal ilişki yok), H1: β 1 ≠ 0 (doğrusal bir ilişki var). A-manastırı t-istatistik, örnek eğim ile varsayımsal popülasyon eğimi arasındaki farkın eğim tahmininin standart hatasına bölünmesine eşittir:

(11) t = (b 1 β 1 ) / Sb 1

nerede b 1 örnek verilere dayalı doğrudan regresyonun eğimidir, β1 doğrudan genel popülasyonun varsayımsal eğimidir, ve test istatistikleri t sahip t- ile dağıtım n - 2özgürlük derecesi.

α = 0.05'te mağaza büyüklüğü ile yıllık satışlar arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını kontrol edelim. t-kriterler kullanılırken diğer parametrelerle birlikte görüntülenir Analiz paketi(seçenek regresyon). Analiz Paketinin tam sonuçları Şekil 2'de gösterilmektedir. 4, t-istatistiği ile ilgili bir parça - şek. on sekiz.

Pirinç. 18. Başvuru sonuçları t

Çünkü mağaza sayısı n= 14 (bkz. Şekil 3), kritik değer t-önem düzeyinde istatistikler α = 0.05 şu formülle bulunabilir: t L=ÖĞRENCİ.SAV(0.025;12) = -2.1788 burada 0.025, anlamlılık düzeyinin yarısıdır ve 12 = n – 2; t U\u003d ÖĞRENCİ.INV (0.975, 12) \u003d +2.1788.

kadarıyla t-istatistik = 10.64 > t U= 2.1788 (Şekil 19), boş hipotez H 0 reddedildi. Diğer tarafta, R-değer X\u003d 10.6411, \u003d 1-STUDENT.DIST (D3, 12, DOĞRU) formülüyle hesaplanan, yaklaşık olarak sıfıra eşittir, bu nedenle hipotez H 0 tekrar reddedilir. gerçeği R-değer neredeyse sıfırdır, yani mağaza büyüklüğü ile yıllık satışlar arasında gerçek bir doğrusal ilişki olmasaydı, doğrusal regresyon kullanarak bunu tespit etmek neredeyse imkansız olurdu. Bu nedenle, ortalama yıllık mağaza satışları ile mağaza büyüklüğü arasında istatistiksel olarak anlamlı bir doğrusal ilişki vardır.

Pirinç. 19. Genel popülasyonun eğimi hakkındaki hipotezin 0,05 ve 12 serbestlik derecesinde anlamlılık düzeyinde test edilmesi

BaşvuruF - eğim kriterleri. Basit bir doğrusal regresyonun eğimi hakkındaki hipotezleri test etmek için alternatif bir yaklaşım, F-kriter. Hatırlamak F-kriter, iki varyans arasındaki ilişkiyi test etmek için kullanılır (ayrıntılara bakın). Eğim hipotezini test ederken, rastgele hataların ölçüsü hata varyansı (hataların karelerinin toplamının serbestlik derecesi sayısına bölümü), yani F-test, regresyon tarafından açıklanan varyans oranını kullanır (yani, değerler SSR bağımsız değişken sayısına bölünmesiyle k), hata varyansına ( MSE=SYX 2 ).

A-manastırı F-istatistik, regresyona (MSR) bağlı ortalama kare sapmaların hata varyansına (MSE) bölünmesine eşittir: F = MSR/ MSE, nerede MSR=SSR / k, MSE =SSE/(n– k – 1), k regresyon modelindeki bağımsız değişkenlerin sayısıdır. Test istatistikleri F sahip F- ile dağıtım k ve n– k – 1özgürlük derecesi.

Belirli bir önem düzeyi α için, karar kuralı şu şekilde formüle edilir: F > Fsen, boş hipotez reddedilir; aksi halde reddedilmez. Varyans analizinin bir özet tablosu şeklinde sunulan sonuçlar, Şek. 20.

Pirinç. 20. Regresyon katsayısının istatistiksel önemi hipotezini test etmek için varyans analizi tablosu

benzer şekilde t-kriter F-kriterler kullanılırken tabloda görüntülenir Analiz paketi(seçenek regresyon). Çalışmanın tam sonuçları Analiz paketiŞek. 4, ilgili parça F-istatistikler - şek. 21.

Pirinç. 21. Başvuru sonuçları F- Excel Analysis ToolPack kullanılarak elde edilen kriterler

F istatistiği 113.23 ve R-değer sıfıra yakın (hücre ÖnemiF). Anlamlılık düzeyi α 0.05 ise kritik değeri belirleyiniz. F-bir ve 12 serbestlik dereceli dağılımlar formülden elde edilebilir FU\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (Şekil 22). kadarıyla F = 113,23 > FU= 4.7472 ve R-değer 0'a yakın< 0,05, нулевая гипотеза H 0 sapar, yani Bir mağazanın büyüklüğü, yıllık satış hacmi ile yakından ilgilidir.

Pirinç. 22. Genel popülasyonun eğimi hakkındaki hipotezin 0,05 anlamlılık düzeyinde, bir ve 12 serbestlik derecesi ile test edilmesi

Eğimi içeren güven aralığı β 1 . Değişkenler arasında doğrusal bir ilişkinin varlığına ilişkin hipotezi test etmek için β 1 eğimini içeren bir güven aralığı oluşturabilir ve β 1 = 0 varsayımsal değerinin bu aralığa ait olduğundan emin olabilirsiniz. β 1 eğimini içeren güven aralığının merkezi, örnek eğimdir. b 1 , ve sınırları miktarlardır b1 ±t n –2 Sb 1

Şekilde gösterildiği gibi. on sekiz, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d ÖĞRENCİ.OBR (0.975, 12) \u003d 2.1788. Buradan, b1 ±t n –2 Sb 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342 veya + 1.328 ≤ β 1 ≤ +2.012. Bu nedenle, 0.95 olasılığı olan popülasyonun eğimi +1.328 ila +2.012 (yani 1.328.000 ila 2.012.000 ABD Doları) aralığındadır. Bu değerler sıfırdan büyük olduğu için yıllık satışlar ile mağaza alanı arasında istatistiksel olarak anlamlı doğrusal bir ilişki vardır. Güven aralığı sıfır içerseydi, değişkenler arasında hiçbir ilişki olmazdı. Ek olarak, güven aralığı her 1.000 metrekarede bir anlamına gelir. ayaklar, ortalama satışlarda 1.328.000$ ila 2.012.000$ arasında bir artışa neden olur.

kullanımt -korelasyon katsayısı için kriterler. korelasyon katsayısı tanıtıldı r, iki sayısal değişken arasındaki ilişkinin bir ölçüsüdür. İki değişken arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını belirlemek için kullanılabilir. Her iki değişkenin popülasyonları arasındaki korelasyon katsayısını ρ sembolü ile gösterelim. Sıfır ve alternatif hipotezler şu şekilde formüle edilir: H 0: ρ = 0 (korelasyon yok), H1: ρ ≠ 0 (bir korelasyon var). Bir korelasyonun varlığını kontrol etme:

nerede r = + , Eğer b 1 > 0, r = – , Eğer b 1 < 0. Тестовая статистика t sahip t- ile dağıtım n - 2özgürlük derecesi.

Ayçiçekleri mağaza zincirinin probleminde r2= 0.904 ve b1- +1.670 (bkz. Şekil 4). kadarıyla b1> 0, yıllık satışlar ile mağaza büyüklüğü arasındaki korelasyon katsayısı r= +√0.904 = +0.951. Kullanarak bu değişkenler arasında bir korelasyon olmadığına dair boş hipotezi test edelim. t- İstatistik:

α = 0.05 anlamlılık düzeyinde, sıfır hipotezi reddedilmelidir çünkü t= 10.64 > 2.1788. Dolayısıyla yıllık satışlar ile mağaza büyüklüğü arasında istatistiksel olarak anlamlı bir ilişki olduğu söylenebilir.

Popülasyon eğimleri hakkındaki çıkarımları tartışırken, hipotezleri test etmek için güven aralıkları ve kriterler birbirinin yerine geçebilen araçlardır. Bununla birlikte, korelasyon katsayısını içeren güven aralığının hesaplanması, istatistiğin örnekleme dağılımının şekli nedeniyle daha zor görünmektedir. r gerçek korelasyon katsayısına bağlıdır.

Matematiksel beklenti tahmini ve bireysel değerlerin tahmini

Bu bölüm, beklenen yanıtı tahmin etme yöntemlerini tartışır Y ve bireysel değerlerin tahminleri Y değişkenin verilen değerleri için X.

Bir güven aralığının oluşturulması.Örnek 2'de (yukarıdaki bölüme bakın en küçük kareler yöntemi) regresyon denklemi, değişkenin değerini tahmin etmeyi mümkün kıldı Y X. Bir perakende satış noktası için yer seçme probleminde, 4000 metrekarelik bir mağazada ortalama yıllık satışlar. feet 7.644 milyon dolara eşitti.Ancak, genel nüfusun matematiksel beklentisinin bu tahmini bir puandır. genel popülasyonun matematiksel beklentisini tahmin etmek için bir güven aralığı kavramı önerildi. Benzer şekilde, kişi kavramı tanıtabilir yanıtın matematiksel beklentisi için güven aralığı bir değişkenin belirli bir değeri için X:

nerede , = b 0 + b 1 X ben– tahmin edilen değer değişkeni Y de X = X ben, S YX ortalama kare hatasıdır, nörnek boyutudur, Xben- değişkenin verilen değeri X, µ Y|X = Xben– bir değişkenin matematiksel beklentisi Y de X = Х ben,SSX=

Formül (13)'ün analizi, güven aralığının genişliğinin birkaç faktöre bağlı olduğunu göstermektedir. Belirli bir önem düzeyinde, ortalama kare hatası kullanılarak ölçülen regresyon çizgisi etrafındaki dalgalanmaların genliğinde bir artış, aralığın genişliğinde bir artışa yol açar. Öte yandan, beklendiği gibi, örneklem büyüklüğündeki artışa aralığın daralması eşlik etmektedir. Ayrıca değerlere bağlı olarak aralığın genişliği değişir. Xben. Değişkenin değeri ise Y miktarlar için tahmin edilen X, ortalama değere yakın , güven aralığı, ortalamadan uzak değerler için yanıtı tahmin etmekten daha dar olduğu ortaya çıkıyor.

Diyelim ki bir mağaza için yer seçerken 4000 metrekare alana sahip tüm mağazalarda ortalama yıllık satışlar için %95 güven aralığı oluşturmak istiyoruz. ayak:

Bu nedenle 4.000 metrekare alana sahip tüm mağazalarda yıllık ortalama satış hacmi. fit, %95 olasılıkla 6.971 ile 8.317 milyon dolar aralığında yer alıyor.

Tahmin edilen değer için güven aralığını hesaplayın. Değişkenin belirli bir değeri için yanıtın matematiksel beklentisi için güven aralığına ek olarak X, genellikle tahmin edilen değer için güven aralığını bilmek gerekir. Böyle bir güven aralığını hesaplama formülü formül (13)'e çok benzese de, bu aralık parametrenin bir tahminini değil, bir tahmin değerini içerir. Öngörülen yanıt aralığı YX = Xi değişkenin belirli bir değeri için Xben formülle belirlenir:

Bir perakende satış noktası için yer seçerken, 4000 metrekarelik bir mağazada öngörülen yıllık satış hacmi için %95 güven aralığı oluşturmak istediğimizi varsayalım. ayak:

Bu nedenle, 4.000 metrekarelik bir alan için öngörülen yıllık satış hacmi. feet, %95 olasılıkla 5.433 ile 9.854 milyon dolar aralığındadır.Gördüğünüz gibi, tahmin edilen yanıt değeri için güven aralığı, matematiksel beklentisi için güven aralığından çok daha geniştir. Bunun nedeni, bireysel değerleri tahmin etmedeki değişkenliğin, beklenen değeri tahmin etmekten çok daha fazla olmasıdır.

Regresyon kullanımıyla ilgili tuzaklar ve etik sorunlar

Regresyon analizi ile ilgili zorluklar:

  • En küçük kareler yönteminin uygulanabilirlik koşullarının göz ardı edilmesi.
  • En küçük kareler yönteminin uygulanabilirliği için koşulların hatalı bir tahmini.
  • En küçük kareler yönteminin uygulanabilirlik koşullarına aykırı olarak alternatif yöntemlerin yanlış seçilmesi.
  • Çalışma konusu hakkında derinlemesine bilgi sahibi olmadan regresyon analizinin uygulanması.
  • Açıklayıcı değişken aralığının ötesindeki regresyonun ekstrapolasyonu.
  • İstatistiksel ve nedensel ilişkiler arasındaki karışıklık.

Elektronik tabloların ve istatistiksel yazılımların yaygın olarak kullanılması, regresyon analizinin kullanılmasını engelleyen hesaplama sorunlarını ortadan kaldırmıştır. Ancak bu durum regresyon analizinin yeterli nitelik ve bilgiye sahip olmayan kullanıcılar tarafından kullanılmaya başlanmasına neden olmuştur. Birçoğu en küçük kareler yönteminin uygulanabilirliği için koşullar hakkında hiçbir fikri yoksa ve uygulamalarını nasıl kontrol edeceklerini bilmiyorsa, kullanıcılar alternatif yöntemleri nasıl bilebilirler?

Araştırmacı, sayıları öğüterek - kayma, eğim ve karışık korelasyon katsayısını hesaplayarak - taşınmamalıdır. Daha derin bilgiye ihtiyacı var. Bunu ders kitaplarından alınan klasik bir örnekle açıklayalım. Anscombe, Şekil 2'de gösterilen dört veri kümesinin hepsinin olduğunu gösterdi. 23 aynı regresyon parametrelerine sahiptir (Şekil 24).

Pirinç. 23. Dört yapay veri seti

Pirinç. 24. Dört yapay veri setinin regresyon analizi; ile yapılır Analiz paketi(resmi büyütmek için resmin üzerine tıklayın)

Dolayısıyla, regresyon analizi açısından, tüm bu veri setleri tamamen aynıdır. Analiz burada biterse, birçok yararlı bilgiyi kaybederiz. Bu, bu veri kümeleri için oluşturulan dağılım grafikleri (Şekil 25) ve artık grafikleri (Şekil 26) ile kanıtlanmıştır.

Pirinç. 25. Dört veri kümesi için dağılım grafikleri

Dağılım grafikleri ve artık grafikleri bu verilerin birbirinden farklı olduğunu göstermektedir. Düz bir çizgi boyunca dağıtılan tek küme A kümesidir. A kümesinden hesaplanan artıkların grafiğinde desen yoktur. Aynı şey B, C ve D kümeleri için söylenemez. B kümesi için çizilen dağılım grafiği, belirgin bir ikinci dereceden model gösterir. Bu sonuç, parabolik bir şekle sahip olan artıkların grafiği ile doğrulanır. Dağılım grafiği ve artık grafiği, veri kümesi B'nin bir aykırı değer içerdiğini gösterir. Bu durumda aykırı değeri veri setinden çıkarmak ve analizi tekrarlamak gerekir. Gözlemlerdeki aykırı değerleri tespit etme ve ortadan kaldırma tekniğine etki analizi denir. Aykırı değer ortadan kaldırıldıktan sonra, modelin yeniden değerlendirilmesinin sonucu tamamen farklı olabilir. D veri kümesinden çizilen bir dağılım grafiği, ampirik modelin büyük ölçüde tek bir yanıta bağlı olduğu olağandışı bir durumu göstermektedir ( 8 = 19, Y 8 = 12.5). Bu tür regresyon modellerinin özellikle dikkatli bir şekilde hesaplanması gerekir. Bu nedenle, dağılım ve artık grafikler, regresyon analizi için önemli bir araçtır ve bunun ayrılmaz bir parçası olmalıdır. Onlar olmadan regresyon analizi inandırıcı değildir.

Pirinç. 26. Dört veri kümesi için artık grafikleri

Regresyon analizinde tuzaklardan nasıl kaçınılır:

  • Değişkenler arasındaki olası ilişkinin analizi X ve Y her zaman bir dağılım grafiği ile başlayın.
  • Bir regresyon analizinin sonuçlarını yorumlamadan önce, uygulanabilirliği için koşulları kontrol edin.
  • Artıkları bağımsız değişkene karşı çizin. Bu, ampirik modelin gözlem sonuçlarına nasıl karşılık geldiğini belirlemeye ve varyansın sabitliğinin ihlalini tespit etmeye izin verecektir.
  • Normal bir hata dağılımı varsayımını test etmek için histogramları, gövde ve yaprak grafiklerini, kutu grafiklerini ve normal dağılım grafiklerini kullanın.
  • En küçük kareler yönteminin uygulanabilirlik koşulları karşılanmıyorsa, alternatif yöntemler (örneğin, ikinci dereceden veya çoklu regresyon modelleri) kullanın.
  • En küçük kareler yönteminin uygulanabilirlik koşulları karşılanırsa, regresyon katsayılarının istatistiksel anlamlılığına ilişkin hipotezin test edilmesi ve matematiksel beklenti ile tahmin edilen yanıt değerini içeren güven aralıklarının oluşturulması gerekir.
  • Bağımlı değişkenin değerlerini bağımsız değişken aralığı dışında tahmin etmekten kaçının.
  • İstatistiksel bağımlılıkların her zaman nedensel olmadığını unutmayın. Değişkenler arasındaki korelasyonun, aralarında nedensel bir ilişki olduğu anlamına gelmediğini unutmayın.

Özet. Blok diyagramda gösterildiği gibi (Şekil 27), not basit bir doğrusal regresyon modelini, uygulanabilirliği için koşulları ve bu koşulları test etmenin yollarını açıklamaktadır. Dikkate alınan t- regresyon eğiminin istatistiksel önemini test etmek için kriter. Bağımlı değişkenin değerlerini tahmin etmek için bir regresyon modeli kullanıldı. Yıllık satış hacminin mağaza alanına bağımlılığının incelendiği bir perakende satış noktası için bir yer seçimi ile ilgili bir örnek düşünülmektedir. Elde edilen bilgiler, mağaza için daha doğru bir konum seçmenize ve yıllık satışlarını tahmin etmenize olanak tanır. Aşağıdaki notlarda, çoklu regresyon modellerinin yanı sıra regresyon analizi tartışması devam edecektir.

Pirinç. 27. Bir notun blok şeması

Yöneticiler için Levin ve diğerleri İstatistikleri kitabından materyaller kullanılmaktadır. - E.: Williams, 2004. - s. 792-872

Bağımlı değişken kategorik ise lojistik regresyon uygulanmalıdır.