Regresyon analizinin amacı. Matematiksel istatistik yöntemleri

Regresyon analizinin temel amacı bileşke özellikteki değişikliğin bir veya daha fazla faktör işaretinin etkisinden kaynaklandığı ve sonuç niteliği de etkileyen diğer tüm faktörlerin kümesinin sabit ve ortalama değerler olarak alındığı ilişkinin analitik biçiminin belirlenmesinden oluşur. .
Regresyon analizinin görevleri:
a) Bağımlılık biçiminin oluşturulması. Olgular arasındaki ilişkinin doğası ve biçimi ile ilgili olarak, pozitif doğrusal ve doğrusal olmayan ve negatif doğrusal ve doğrusal olmayan regresyon vardır.
b) Regresyon fonksiyonunun şu veya bu türden bir matematiksel denklem biçiminde tanımlanması ve açıklayıcı değişkenlerin bağımlı değişken üzerindeki etkisinin belirlenmesi.
c) Bağımlı değişkenin bilinmeyen değerlerinin tahmini. Regresyon işlevini kullanarak, bağımlı değişkenin değerlerini açıklayıcı değişkenlerin verilen değerleri aralığında yeniden üretebilir (yani enterpolasyon problemini çözebilir) veya sürecin gidişatını belirtilen aralığın dışında değerlendirebilirsiniz (yani, ekstrapolasyon problemini çöz). Sonuç, bağımlı değişkenin değerinin bir tahminidir.

Çift regresyon - iki değişken y ve x arasındaki ilişkinin denklemi: burada y, bağımlı değişkendir (etkin işaret); x - bağımsız, açıklayıcı değişken (özellik faktörü).

Doğrusal ve doğrusal olmayan regresyonlar vardır.
Doğrusal regresyon: y = a + bx + ε
Lineer olmayan regresyonlar, analize dahil edilen açıklayıcı değişkenlere göre lineer olmayan ancak tahmin edilen parametrelere göre lineer olan regresyonlar ve tahmin edilen parametrelere göre lineer olmayan regresyonlar olarak iki sınıfa ayrılır.
Açıklayıcı değişkenlerde doğrusal olmayan regresyonlar:

Tahmini parametreler açısından doğrusal olmayan regresyonlar: Bir regresyon denklemi oluşturmak, parametrelerini tahmin etmeye indirgenir. Parametrelerde doğrusal olan regresyonların parametrelerini tahmin etmek için en küçük kareler yöntemi (LSM) kullanılır. LSM, elde edilen özellik y'nin gerçek değerlerinin kare sapmalarının toplamının teorik olanlardan minimum olduğu bu tür parametre tahminlerini elde etmeyi mümkün kılar, yani.
.
Doğrusal olana indirgenebilen doğrusal ve doğrusal olmayan denklemler için, a ve b için aşağıdaki sistem çözülür:

Bu sistemden çıkan hazır formülleri kullanabilirsiniz:

İncelenen fenomenler arasındaki bağlantının yakınlığı, doğrusal regresyon için doğrusal çift korelasyon katsayısı ile tahmin edilir:

ve korelasyon indeksi - doğrusal olmayan regresyon için:

Oluşturulan modelin kalitesinin bir değerlendirmesi, belirleme katsayısı (indeks) ve ortalama yaklaşım hatası ile verilecektir.
Ortalama yaklaşım hatası, hesaplanan değerlerin gerçek değerlerden ortalama sapmasıdır:
.
İzin verilen değer sınırı -% 8-10'dan fazla değil.
Ortalama esneklik katsayısı, x faktörü ortalama değerinden %1 değiştiğinde y sonucunun ortalama değerinden ortalama yüzde kaç değişeceğini gösterir:
.

Varyans analizinin görevi, bağımlı değişkenin varyansını analiz etmektir:
,
kare sapmaların toplam toplamı nerede;
- regresyona bağlı sapmaların karelerinin toplamı (“açıklanmış” veya “faktöriyel”);
- kare sapmaların artık toplamı.
Regresyon ile açıklanan varyansın, etkili özellik y'nin toplam varyansındaki payı, R2 belirleme katsayısı (endeksi) ile karakterize edilir:

Belirleme katsayısı, katsayı veya korelasyon indeksinin karesidir.

F-testi - regresyon denkleminin kalitesinin değerlendirilmesi - hipotezin test edilmesinden oluşur Ancak regresyon denkleminin istatistiksel önemsizliği ve bağlantının yakınlığının göstergesi. Bunun için, gerçek F gerçeğinin ve Fisher F kriterinin değerlerinin kritik (tablosal) F tablosunun bir karşılaştırması yapılır. F gerçeği, bir serbestlik derecesi için hesaplanan faktöriyel ve artık varyans değerlerinin oranından belirlenir:
,
n, nüfus birimlerinin sayısıdır; m, x değişkenleri için parametre sayısıdır.
F tablosu, belirli bir serbestlik derecesi ve anlamlılık düzeyi a için rasgele faktörlerin etkisi altındaki kriterin mümkün olan maksimum değeridir. Önem düzeyi a - doğru olması koşuluyla doğru hipotezi reddetme olasılığı. Genellikle a, 0.05 veya 0.01'e eşit olarak alınır.
F tablosu ise< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F bir gerçektir, o zaman H hipotezi reddedilmez ve istatistiksel önemsizlik, regresyon denkleminin güvenilmezliği kabul edilir.
Regresyon ve korelasyon katsayılarının istatistiksel önemini değerlendirmek için, her bir gösterge için Student t-testi ve güven aralıkları hesaplanır. Göstergelerin rastgele doğası hakkında bir H hipotezi ileri sürülür, yani. sıfırdan önemsiz farkları hakkında. Student t testi kullanılarak regresyon ve korelasyon katsayılarının öneminin değerlendirilmesi, değerleri rastgele hatanın büyüklüğü ile karşılaştırılarak gerçekleştirilir:
; ; .
Doğrusal regresyon parametrelerinin rastgele hataları ve korelasyon katsayısı aşağıdaki formüllerle belirlenir:



t istatistiğinin - t tablosu ve t gerçeği - gerçek ve kritik (tablo) değerlerini karşılaştırarak H o hipotezini kabul ediyor veya reddediyoruz.
Fisher'in F testi ile Student t istatistiği arasındaki ilişki eşitlikle ifade edilir

eğer t tablosu< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >H hakkındaki hipotezin reddedilmemesi ve a, b veya oluşumunun rastgele doğasının tanınması.
Güven aralığını hesaplamak için, her gösterge için marjinal hata D'yi belirleriz:
, .
Güven aralıklarını hesaplama formülleri aşağıdaki gibidir:
; ;
; ;
Sıfır, güven aralığının sınırları içindeyse, yani Alt limit negatif ve üst limit pozitif ise, aynı anda hem pozitif hem de negatif değerler alamadığından tahmin edilen parametrenin sıfır olduğu varsayılır.
Tahmin değeri, karşılık gelen (tahmin edilen) değerin regresyon denkleminde ikame edilmesiyle belirlenir. Tahminin ortalama standart hatası şu şekilde hesaplanır:
,
Nerede
ve tahminin güven aralığı oluşturulur:
; ;
Nerede .

Çözüm örneği

Görev numarası 1. Ural bölgesinin yedi bölgesi için 199X için iki işaretin değeri biliniyor.
Tablo 1.
Gerekli: 1. y'nin x'e bağımlılığını karakterize etmek için aşağıdaki fonksiyonların parametrelerini hesaplayın:
a) doğrusal;
b) kuvvet yasası (önceden, her iki parçanın logaritmasını alarak değişkenlerin doğrusallaştırılması prosedürünü gerçekleştirmek gerekliydi);
c) gösterici;
d) eşkenar hiperbol (bu modeli nasıl önceden doğrusallaştıracağınızı da bulmanız gerekir).
2. Ortalama yaklaşım hatasını ve Fisher'in F-testini kullanarak her bir modeli değerlendirin.

Çözüm (1. Seçenek)

Lineer regresyonun a ve b parametrelerini hesaplamak için (hesaplama bir hesap makinesi kullanılarak yapılabilir).
göre normal denklemler sistemini çözmek A Ve B:
İlk verilere dayanarak hesaplıyoruz :
y X yx x2 y2 bir ben
ben 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Toplam 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
evlenmek değer (Toplam/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
S 5,74 5,86 X X X X X X
s2 32,92 34,34 X X X X X X


Regresyon denklemi: y= 76,88 - 0,35X. Ortalama günlük ücrette 1 ruble artışla. gıda ürünleri satın alma harcamalarının payı ortalama %0,35 puan azaltılmıştır.
Çift korelasyonun doğrusal katsayısını hesaplayın:

İletişim ılımlı, ters.
Belirleme katsayısını tanımlayalım:

Sonuçtaki %12,7'lik değişim, x faktöründeki değişim ile açıklanmaktadır. Gerçek değerlerin regresyon denkleminde ikame edilmesi X, teorik (hesaplanmış) değerleri belirlemek . Ortalama yaklaşım hatasının değerini bulun:

Ortalama olarak, hesaplanan değerler gerçek değerlerden% 8,1 sapmaktadır.
F kriterini hesaplayalım:

çünkü 1< F < ¥ , değerlendirilebilir F -1 .
Ortaya çıkan değer, hipotezi kabul etme ihtiyacını gösterir. Ama ah ortaya çıkan bağımlılığın rastgele doğası ve denklem parametrelerinin istatistiksel önemsizliği ve bağlantının sıkılığının göstergesi.
1b. Bir güç modelinin oluşturulmasından önce değişkenlerin doğrusallaştırılması prosedürü gelir. Örnekte, denklemin her iki tarafının logaritması alınarak doğrusallaştırma yapılır:


NeredeY=lg(y), X=lg(x), C=lg(a).

Hesaplamalar için Tablodaki verileri kullanıyoruz. 1.3.

Tablo 1.3

Y X YX Y2 x2 bir ben
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Toplam 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Ortalama değer 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ2 0,0018 0,0023 X X X X X X X

C ve b'yi hesaplayın:


Doğrusal bir denklem elde ederiz: .
Güçlendirerek şunu elde ederiz:

Bu denklemde gerçek değerlerin değiştirilmesi X, sonucun teorik değerlerini elde ederiz. Onlara dayanarak göstergeleri hesaplıyoruz: bağlantının sıkılığı - korelasyon endeksi ve ortalama yaklaşım hatası

Güç modelinin özellikleri, ilişkiyi doğrusal fonksiyondan biraz daha iyi tanımladığını gösterir.

1v. Üstel bir eğri denkleminin oluşturulması

denklemin her iki bölümünün logaritmasını alırken değişkenleri doğrusallaştırma prosedürü izler:

Hesaplamalar için tablo verilerini kullanırız.

Y X Yx Y2 x2 bir ben
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Toplam 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
evlenmek zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ2 0,0018 34,339 X X X X X X X

Regresyon parametrelerinin değerleri A ve İÇİNDE tutarında:


Doğrusal bir denklem elde edilir: . Ortaya çıkan denklemi güçlendiririz ve normal biçimde yazarız:

Bağlantının yakınlığını korelasyon indeksi aracılığıyla tahmin ediyoruz:

Regresyon analizinin amacı, bir bağımlı değişken ile bir (ikili regresyon analizi) veya daha fazla (çoklu) bağımsız değişken arasındaki ilişkiyi ölçmektir. Bağımsız değişkenler aynı zamanda faktöriyel, açıklayıcı, determinant, regresör ve yordayıcı olarak da adlandırılır.

Bağımlı değişkene bazen tanımlanan, açıklanan veya "yanıt" değişkeni denir. Ampirik araştırmalarda regresyon analizinin aşırı yaygın kullanımı, yalnızca hipotezleri test etmek için uygun bir araç olmasından kaynaklanmaz. Regresyon, özellikle çoklu regresyon, etkili bir modelleme ve tahmin tekniğidir.

Regresyon analizi ile çalışmanın ilkelerini daha basit bir yöntem olan çift yöntemiyle açıklamaya başlayalım.

İkili regresyon analizi

Regresyon analizi kullanılırken atılacak ilk adımlar, korelasyon katsayısının hesaplanması çerçevesinde bizim tarafımızdan atılan adımlarla neredeyse aynı olacaktır. Pearson yöntemini kullanan korelasyon analizinin etkinliği için üç ana koşul - değişkenlerin normal dağılımı, değişkenlerin aralık ölçümü, değişkenler arasındaki doğrusal ilişki - çoklu regresyon için de geçerlidir. Buna göre ilk aşamada saçılım grafikleri oluşturulur, değişkenlerin istatistiksel ve tanımlayıcı analizi yapılır ve bir regresyon çizgisi hesaplanır. Korelasyon analizi çerçevesinde olduğu gibi, regresyon çizgileri en küçük kareler yöntemi kullanılarak oluşturulur.

İki veri analizi yöntemi arasındaki farkları daha açık bir şekilde göstermek için, "SPS desteği" ve "kırsal nüfus payı" değişkenleri ile zaten ele alınan örneğe dönelim. Orijinal veriler aynıdır. Dağılım grafiklerindeki fark, regresyon analizinde bağımlı değişkeni çizmenin doğru olması olacaktır - bizim durumumuzda Y ekseni boyunca "SPS desteği", korelasyon analizinde ise bunun önemi yoktur. Aykırı değerleri temizledikten sonra dağılım grafiği şöyle görünür:

Regresyon analizinin temel fikri, değişkenler için genel bir eğilime sahip olarak - bir regresyon çizgisi şeklinde - bağımsız değişkenin değerlerine sahip olan bağımlı değişkenin değerini tahmin edebilmenizdir.

Sıradan bir matematiksel lineer fonksiyon düşünelim. Öklid uzayındaki herhangi bir çizgi şu formülle tanımlanabilir:

a, y ekseni boyunca ofseti belirten bir sabittir; b - çizginin açısını belirleyen katsayı.

Eğimi ve sabiti bilerek, herhangi bir x için y'nin değerini hesaplayabilirsiniz (tahmin edebilirsiniz).

Bu en basit fonksiyon, y'nin değerini tam olarak değil, belirli bir güven aralığında tahmin edeceğimiz uyarısı ile regresyon analizi modelinin temelini oluşturdu. yaklaşık olarak.

Sabit, regresyon çizgisi ile y ekseninin kesişme noktasıdır (istatistiksel paketlerde genellikle "kesen" olarak adlandırılan F-kesme noktası). SPS için oy verme örneğimizde, yuvarlatılmış değeri 10,55 olacaktır. Eğim katsayısı b yaklaşık olarak -0,1'e eşit olacaktır (korelasyon analizinde olduğu gibi, işaret ilişkinin türünü gösterir - doğrudan veya ters). Böylece ortaya çıkan model SP C = -0.1 x Sel gibi görünecektir. biz. + 10.55.

ATP \u003d -0,10 x 47 + 10,55 \u003d 5,63.

Orijinal ve tahmin edilen değerler arasındaki farka artık denir (bu terimle zaten karşılaştık - istatistik için temel - olasılık tablolarını analiz ederken). Yani Adıge Cumhuriyeti durumunda kalan 3,92 - 5,63 = -1,71 olacaktır. Kalanın modulo değeri ne kadar büyükse, değer o kadar az tahmin edilir.

Tüm durumlar için tahmin edilen değerleri ve artıkları hesaplıyoruz:
Olay Doygunluk. biz. Teşekkür

(orijinal)

Teşekkür

(tahmin edilen)

Kalıntılar
Adıge Cumhuriyeti 47 3,92 5,63 -1,71 -
Altay Cumhuriyeti 76 5,4 2,59 2,81
Başkurdistan Cumhuriyeti 36 6,04 6,78 -0,74
Buryatia Cumhuriyeti 41 8,36 6,25 2,11
Dağıstan Cumhuriyeti 59 1,22 4,37 -3,15
İnguşetya Cumhuriyeti 59 0,38 4,37 3,99
Vesaire.

İlk ve tahmin edilen değerlerin oranının analizi, ortaya çıkan modelin kalitesini, tahmin yeteneğini değerlendirmeye yarar. Regresyon istatistiklerinin ana göstergelerinden biri, çoklu korelasyon katsayısı R'dir - bağımlı değişkenin orijinal ve tahmin edilen değerleri arasındaki korelasyon katsayısı. Eşleştirilmiş regresyon analizinde, bizim durumumuzda bağımlı ve bağımsız değişken arasındaki normal Pearson korelasyon katsayısına eşittir - 0.63. Çoklu R'yi anlamlı bir şekilde yorumlamak için, bir belirleme katsayısına dönüştürülmelidir. Bu, korelasyon analizi - kare alma ile aynı şekilde yapılır. Belirleme katsayısı R-kare (R 2), bağımsız (bağımsız) değişkenler tarafından açıklanan bağımlı değişkendeki varyasyon oranını gösterir.

Bizim durumumuzda, R2 = 0,39 (0,63 2); bu, "kırsal nüfus oranı" değişkeninin "CPS desteği" değişkenindeki varyasyonun yaklaşık %40'ını açıkladığı anlamına gelir. Belirleme katsayısının değeri ne kadar büyük olursa, modelin kalitesi o kadar yüksek olur.

Model kalitesinin bir başka ölçüsü de tahminin standart hatasıdır. Bu, noktaların regresyon çizgisi etrafında ne kadar "dağıldığının" bir ölçüsüdür. Aralık değişkenleri için dağılımın ölçüsü standart sapmadır. Buna göre, tahminin standart hatası artıkların dağılımının standart sapmasıdır. Değeri ne kadar yüksek olursa, yayılma o kadar büyük ve model o kadar kötü olur. Bizim durumumuzda standart hata 2.18'dir. Modelimiz "SPS desteği" değişkeninin değerini tahmin ederken "ortalama hata" yapacaktır.

Regresyon istatistikleri ayrıca varyans analizini de içerir. Yardımı ile şunları buluruz: 1) bağımlı değişkenin varyasyonunun (dağılımının) ne kadarının bağımsız değişken tarafından açıklandığını; 2) bağımlı değişkenin varyansının ne kadarının artıklar tarafından açıklandığı (açıklanamayan kısım); 3) bu iki değerin oranı nedir (/ "-oran). Dağılım istatistikleri özellikle örnek çalışmalar için önemlidir - genel popülasyondaki bağımsız ve bağımlı değişkenler arasında bir ilişkinin olma olasılığını gösterir. Ancak , sürekli çalışmalar için (bizim örneğimizde olduğu gibi), çalışma Bu durumda, ortaya çıkan istatistiksel modelin rastgele koşulların bir tesadüfünden kaynaklanıp kaynaklanmadığı, araştırılan popülasyonun bulunduğu koşullar kompleksi için ne kadar karakteristik olduğu kontrol edilir. , yani elde edilen sonucun daha kapsamlı bir genel toplam için doğru olmadığı, ancak düzenlilik derecesi, rastgele etkilerden arınmış olduğu tespit edilmiştir.

Bizim durumumuzda, varyans istatistiklerinin analizi aşağıdaki gibidir:

SS df HANIM F Anlam
gerileme. 258,77 1,00 258,77 54,29 0.000000001
Geriye kalan 395,59 83,00 L,11
Toplam 654,36

54.29 F oranı 0.0000000001 düzeyinde anlamlıdır. Buna göre, sıfır hipotezini (bulduğumuz ilişkinin rastgele olduğu) güvenle reddedebiliriz.

Benzer bir işlev, t kriteri tarafından gerçekleştirilir, ancak regresyon katsayılarına göre (açısal ve F-geçişleri). / kriterini kullanarak, genel popülasyondaki regresyon katsayılarının sıfıra eşit olduğu hipotezini test ediyoruz. Bizim durumumuzda, sıfır hipotezini yine güvenle reddedebiliriz.

çoklu regresyon analizi

Çoklu regresyon modeli, ikili regresyon modeliyle neredeyse aynıdır; tek fark, birkaç bağımsız değişkenin doğrusal fonksiyona sırayla dahil edilmesidir:

Y = b1X1 + b2X2 + …+ bpXp + a.

İkiden fazla bağımsız değişken varsa, ilişkilerinin görsel bir temsilini elde edemeyiz; bu bağlamda çoklu regresyon, ikili regresyondan daha az "görünür"dür. İki bağımsız değişken olduğunda, verileri bir 3B dağılım grafiğinde görüntülemek yararlı olabilir. Profesyonel istatistiksel yazılım paketlerinde (örneğin, Statistica), veri yapısının iyi bir görsel temsiline izin veren üç boyutlu bir grafiği döndürme seçeneği vardır.

Çoklu regresyon ile çalışırken ikili regresyondan farklı olarak analiz algoritmasını belirlemek gerekir. Standart algoritma, nihai regresyon modelindeki tüm mevcut öngörücüleri içerir. Adım adım algoritma, açıklayıcı "ağırlıklarına" dayalı olarak bağımsız değişkenlerin sıralı olarak dahil edildiğini (hariç tutulduğunu) varsayar. Aşamalı yöntem, birçok bağımsız değişken olduğunda iyidir; modeli açıkçası zayıf tahmincilerden "temizler", onu daha derli toplu ve özlü hale getirir.

Çoklu regresyonun doğruluğu için ek bir koşul (aralık, normallik ve doğrusallık ile birlikte), çoklu bağlantının olmamasıdır - bağımsız değişkenler arasında güçlü korelasyonların varlığı.

Çoklu regresyon istatistiklerinin yorumlanması, ikili regresyon durumu için ele aldığımız tüm unsurları içerir. Ek olarak, çoklu regresyon analizinin istatistiklerinde başka önemli bileşenler de vardır.

Çalışmayı, Rusya'nın bölgelerindeki seçim faaliyeti düzeyindeki farklılıkları açıklayan test hipotezleri örneği üzerinde çoklu regresyonla göstereceğiz. Spesifik ampirik araştırmalar, seçmen katılımının aşağıdakilerden etkilendiğini öne sürdü:

Ulusal faktör (değişken "Rus nüfusu"; Rusya Federasyonu'nun kurucu birimlerindeki Rus nüfusunun payı olarak işlevselleştirilmiştir). Rus nüfusunun oranındaki bir artışın seçmen katılımında bir azalmaya yol açtığı varsayılmaktadır;

Kentleşme faktörü (değişken "kentsel nüfus"; Rusya Federasyonu'nun kurucu birimlerinde kentsel nüfusun payı olarak işlevselleştirildi, korelasyon analizinin bir parçası olarak bu faktörle zaten çalıştık). Kentsel nüfus oranındaki bir artışın, seçmen katılımında da bir düşüşe yol açtığı varsayılmaktadır.

Bağımlı değişken - "seçim faaliyetinin yoğunluğu" ("aktif"), 1995'ten 2003'e kadar olan federal seçimlerdeki bölgeler için ortalama katılım verileri aracılığıyla işlevselleştirilir. İki bağımsız ve bir bağımlı değişken için ilk veri tablosu aşağıdaki şekle sahip olacaktır. :

Olay Değişkenler
Varlıklar. Gor. biz. Rus. biz.
Adıge Cumhuriyeti 64,92 53 68
Altay Cumhuriyeti 68,60 24 60
Buryatia Cumhuriyeti 60,75 59 70
Dağıstan Cumhuriyeti 79,92 41 9
İnguşetya Cumhuriyeti 75,05 41 23
Kalmıkya Cumhuriyeti 68,52 39 37
Karaçay-Çerkes Cumhuriyeti 66,68 44 42
Karelya Cumhuriyeti 61,70 73 73
Komi Cumhuriyeti 59,60 74 57
Mari El Cumhuriyeti 65,19 62 47

Vesaire. (emisyonların temizlenmesinden sonra, 88 vakadan 83'ü kaldı)

Modelin kalitesini açıklayan istatistikler:

1. Çoklu R = 0.62; L-kare = 0.38. Bu nedenle, ulusal faktör ve kentleşme faktörü birlikte "seçim etkinliği" değişkenindeki değişimin yaklaşık %38'ini açıklamaktadır.

2. Ortalama hata 3.38'dir. Oluşturulan model, katılım düzeyini tahmin ederken "ortalama olarak" bu kadar yanlıştır.

3. /l-açıklanan ve açıklanamayan değişim oranı 25.2 olup 0.000000003 düzeyindedir. Ortaya çıkan ilişkilerin rastgeleliği hakkındaki sıfır hipotezi reddedilir.

4. "Kent nüfusu" ve "Rus nüfusu" değişkenlerinin sabit ve regresyon katsayıları için / kriteri 0,0000001 düzeyinde anlamlıdır; Sırasıyla 0.00005 ve 0.007. Katsayıların rastgeleliği hakkındaki sıfır hipotezi reddedilir.

Bağımlı değişkenin ilk ve tahmin edilen değerlerinin oranının analizinde ek yararlı istatistikler, Mahalanobis mesafesi ve Cook'un mesafesidir. Birincisi, durumun benzersizliğinin bir ölçüsüdür (belirli bir durum için tüm bağımsız değişkenlerin değerleri kombinasyonunun, aynı anda tüm bağımsız değişkenler için ortalama değerden ne kadar saptığını gösterir). İkincisi, davanın etkisinin bir ölçüsüdür. Farklı gözlemler, regresyon çizgisinin eğimini farklı şekillerde etkiler ve Cook'un mesafesini kullanarak bunları bu göstergeye göre karşılaştırabilirsiniz. Bu, aykırı değerleri temizlerken kullanışlıdır (bir aykırı değer, aşırı derecede etkili bir durum olarak düşünülebilir).

Örneğimizde Dağıstan, benzersiz ve etkili vakalardan biridir.

Olay İlk

değerler

Predska

değerler

Kalıntılar Mesafe

Mahalanobis

Mesafe
Adıge 64,92 66,33 -1,40 0,69 0,00
Altay Cumhuriyeti 68,60 69.91 -1,31 6,80 0,01
Buryatia Cumhuriyeti 60,75 65,56 -4,81 0,23 0,01
Dağıstan Cumhuriyeti 79,92 71,01 8,91 10,57 0,44
İnguşetya Cumhuriyeti 75,05 70,21 4,84 6,73 0,08
Kalmıkya Cumhuriyeti 68,52 69,59 -1,07 4,20 0,00

Gerçek regresyon modeli aşağıdaki parametrelere sahiptir: Y-kesme noktası (sabit) = 75,99; b (Yat. sat.) \u003d -0.1; b (Rus. nas.) = -0.06. Son formül.

Regresyon analizinin temel özelliği, incelenen değişkenler arasındaki ilişkinin biçimi ve doğası hakkında belirli bilgiler elde etmek için kullanılabilmesidir.

Regresyon analizi aşamalarının sırası

Regresyon analizinin aşamalarını kısaca ele alalım.

    Görev formülasyonu. Bu aşamada, incelenen fenomenlerin bağımlılığı hakkında ön hipotezler oluşturulur.

    Bağımlı ve bağımsız (açıklayıcı) değişkenlerin tanımı.

    İstatistiksel verilerin toplanması. Regresyon modelinde yer alan değişkenlerin her biri için veri toplanmalıdır.

    Bağlantı biçimi (basit veya çoklu, doğrusal veya doğrusal olmayan) hakkında bir hipotezin formüle edilmesi.

    Tanım regresyon fonksiyonları (regresyon denkleminin parametrelerinin sayısal değerlerinin hesaplanmasından oluşur)

    Regresyon analizinin doğruluğunun değerlendirilmesi.

    Elde edilen sonuçların yorumlanması. Regresyon analizinin sonuçları ön hipotezlerle karşılaştırılır. Elde edilen sonuçların doğruluğu ve inandırıcılığı değerlendirilir.

    Bağımlı değişkenin bilinmeyen değerlerinin tahmini.

Regresyon analizi yardımıyla tahmin ve sınıflandırma problemini çözmek mümkündür. Tahmini değerler, açıklayıcı değişkenlerin değerleri regresyon denkleminde değiştirilerek hesaplanır. Sınıflandırma problemi şu şekilde çözülür: regresyon çizgisi tüm nesne kümesini iki sınıfa ayırır ve kümenin fonksiyonun değerinin sıfırdan büyük olduğu kısmı bir sınıfa, küçük olduğu kısmı ise bir sınıfa aittir. sıfırdan başka bir sınıfa aittir.

Regresyon analizinin görevleri

Regresyon analizinin ana görevlerini göz önünde bulundurun: bağımlılık biçimini belirlemek, belirlemek regresyon fonksiyonları, bağımlı değişkenin bilinmeyen değerlerinin bir tahmini.

Bağımlılık biçiminin oluşturulması.

Değişkenler arasındaki ilişkinin doğası ve biçimi aşağıdaki regresyon türlerini oluşturabilir:

    pozitif lineer regresyon (fonksiyonun düzgün büyümesi olarak ifade edilir);

    pozitif düzgün hızlanan regresyon;

    pozitif düzgün artan regresyon;

    negatif doğrusal regresyon (fonksiyonda tekdüze bir düşüş olarak ifade edilir);

    negatif düzgün hızlandırılmış azalan regresyon;

    negatif düzgün azalan regresyon.

Bununla birlikte, açıklanan çeşitler genellikle saf halde değil, birbirleriyle kombinasyon halinde bulunur. Bu durumda, birleşik gerileme biçimlerinden söz edilir.

Regresyon fonksiyonunun tanımı.

İkinci görev, ana faktörlerin veya nedenlerin bağımlı değişken üzerindeki etkisini bulmaktır, diğer her şey eşittir ve rastgele öğelerin bağımlı değişken üzerindeki etkisinin hariç tutulmasına tabidir. regresyon fonksiyonuşu ya da bu türden bir matematiksel denklem olarak tanımlanır.

Bağımlı değişkenin bilinmeyen değerlerinin tahmini.

Bu sorunun çözümü, aşağıdaki türlerden birinin sorununu çözmeye indirgenmiştir:

    İlk verilerin dikkate alınan aralığı içindeki bağımlı değişkenin değerlerinin tahmini, yani. kayıp değerler; bu enterpolasyon problemini çözer.

    Bağımlı değişkenin gelecekteki değerlerinin tahmin edilmesi, yani. ilk verilerin verilen aralığı dışındaki değerleri bulmak; bu ekstrapolasyon problemini çözer.

Her iki problem de, bağımsız değişkenlerin değerlerinin parametrelerinin bulunan tahminlerinin regresyon denklemine değiştirilmesiyle çözülür. Denklemi çözmenin sonucu, hedef (bağımlı) değişkenin değerinin bir tahminidir.

Regresyon analizinin dayandığı bazı varsayımlara bakalım.

Doğrusallık varsayımı, yani incelenen değişkenler arasındaki ilişkinin doğrusal olduğu varsayılır. Böylece, bu örnekte, bir dağılım grafiği oluşturduk ve net bir doğrusal ilişki görebildik. Değişkenlerin dağılım grafiğinde, doğrusal bir ilişkinin açık bir şekilde yokluğunu görürsek, yani doğrusal olmayan bir ilişki varsa, doğrusal olmayan analiz yöntemleri kullanılmalıdır.

Normallik Varsayımı kalanlar. Öngörülen ve gözlemlenen değerler arasındaki farkın dağılımının normal olduğunu varsayar. Dağılımın doğasını görsel olarak belirlemek için histogramları kullanabilirsiniz. kalanlar.

Regresyon analizini kullanırken, ana sınırlaması dikkate alınmalıdır. Regresyon analizinin, bu bağımlılıkların altında yatan ilişkileri değil, yalnızca bağımlılıkları tespit etmenize izin vermesi gerçeğinden oluşur.

Regresyon analizi, bilinen birkaç değere dayalı olarak bir değişkenin beklenen değerini hesaplayarak değişkenler arasındaki ilişkinin derecesini değerlendirmeyi mümkün kılar.

Regresyon denklemi.

Regresyon denklemi şöyle görünür: Y=a+b*X

Bu denklem kullanılarak Y değişkeni, a sabiti ve doğrunun (veya eğimin) b eğiminin X değişkeninin değeriyle çarpımı olarak ifade edilir. a sabitine aynı zamanda kesişme noktası da denir ve eğim regresyondur katsayısı veya B faktörü.

Çoğu durumda (her zaman olmasa da) regresyon çizgisi hakkında belirli bir gözlem dağılımı vardır.

kalan tek bir noktanın (gözlem) regresyon çizgisinden (öngörülen değer) sapmasıdır.

MS Excel'de regresyon analizi problemini çözmek için menüden seçin Hizmet"Analiz Paketi" ve Regresyon analiz aracı. X ve Y giriş aralıklarını belirtin Y giriş aralığı, analiz edilen bağımlı veri aralığıdır ve bir sütun içermelidir. Giriş aralığı X, analiz edilecek bağımsız veri aralığıdır. Giriş aralığı sayısı 16'yı geçmemelidir.

Çıktı aralığındaki prosedürün çıktısında, verilen raporu alırız. tablo 8.3a-8.3v.

SONUÇLAR

Tablo 8.3a. Regresyon istatistikleri

Regresyon istatistikleri

Çoklu R

R Meydanı

Normalleştirilmiş R-kare

standart hata

gözlemler

İlk olarak, aşağıda sunulan hesaplamaların üst kısmını göz önünde bulundurun. tablo 8.3a, - gerileme istatistikleri.

Değer R Meydanı kesinlik ölçüsü olarak da adlandırılan , ortaya çıkan regresyon çizgisinin kalitesini karakterize eder. Bu kalite, orijinal veriler ile regresyon modeli (hesaplanan veriler) arasındaki uygunluk derecesi ile ifade edilir. Kesinliğin ölçüsü her zaman aralığın içindedir.

Çoğu durumda, değer R Meydanı bu değerler arasındadır, aşırı denir, yani. sıfır ile bir arasında.

eğer değer R Meydanı bire yakın, bu, oluşturulan modelin karşılık gelen değişkenlerin neredeyse tüm değişkenliğini açıkladığı anlamına gelir. Buna karşılık, değer R Meydanı, sıfıra yakın, oluşturulan modelin kalitesiz olduğu anlamına gelir.

Örneğimizde, kesinlik ölçüsü 0,99673'tür ve bu, regresyon çizgisinin orijinal verilere çok iyi uyduğunu gösterir.

çoğul R - çoklu korelasyon katsayısı R - bağımsız değişkenlerin (X) ve bağımlı değişkenin (Y) bağımlılık derecesini ifade eder.

Çoklu R belirleme katsayısının kareköküne eşittir, bu değer sıfır ile bir arasında değerler alır.

Basit doğrusal regresyon analizinde çoğul R Pearson korelasyon katsayısına eşittir. Gerçekten mi, çoğul R bizim durumumuzda, önceki örnekteki Pearson korelasyon katsayısına eşittir (0.998364).

Tablo 8.3b. Regresyon katsayıları

Oranlar

standart hata

t-istatistik

Y kavşağı

Değişken X 1

* Hesaplamaların kısaltılmış hali verilmiştir.

Şimdi, aşağıda sunulan hesaplamaların orta kısmını ele alalım. tablo 8.3b. Burada regresyon katsayısı b (2,305454545) ve y ekseni boyunca ofset verilmiştir, yani sabit bir (2,694545455).

Hesaplamalara dayanarak, regresyon denklemini aşağıdaki gibi yazabiliriz:

Y= x*2,305454545+2,694545455

Değişkenler arasındaki ilişkinin yönü, regresyon katsayılarının (katsayı b) işaretlerine (negatif veya pozitif) göre belirlenir.

Regresyon katsayısının işareti pozitif ise bağımlı değişken ile bağımsız değişken arasındaki ilişki pozitif olacaktır. Bizim durumumuzda regresyon katsayısının işareti pozitiftir, dolayısıyla ilişki de pozitiftir.

Regresyon katsayısının işareti negatif ise bağımlı değişken ile bağımsız değişken arasındaki ilişki negatiftir (ters).

İÇİNDE tablo 8.3c. çıktı sonuçları sunulur kalanlar. Bu sonuçların raporda görünmesi için, "Regresyon" aracını başlatırken "Kalıntılar" onay kutusunun etkinleştirilmesi gerekir.

KALAN ÇEKİM

Tablo 8.3c. Kalıntılar

Gözlem

tahmin edilen Y

Kalıntılar

Standart bakiyeler

Raporun bu bölümünü kullanarak, oluşturulan regresyon çizgisinden her bir noktanın sapmalarını görebiliriz. En büyük mutlak değer kalan bizim durumumuzda - 0.778, en küçük - 0.043. Bu verilerin daha iyi yorumlanması için, orijinal verilerin grafiğini ve Şekil 1'de sunulan oluşturulmuş regresyon çizgisini kullanacağız. pirinç. 8.3. Gördüğünüz gibi, regresyon çizgisi, orijinal verilerin değerlerine oldukça doğru bir şekilde "uydurulmuştur".

Ele alınan örneğin oldukça basit olduğu ve niteliksel olarak doğrusal bir regresyon çizgisi oluşturmanın her zaman mümkün olmadığı dikkate alınmalıdır.

Pirinç. 8.3. Başlangıç ​​verileri ve regresyon çizgisi

Bağımsız değişkenin bilinen değerlerine dayalı olarak bağımlı değişkenin gelecekteki bilinmeyen değerlerini tahmin etme sorunu dikkate alınmadan kaldı, yani. tahmin görevi.

Bir regresyon denklemine sahip olan tahmin problemi, Y= x*2.305454545+2.694545455 denklemini bilinen x değerleri ile çözmeye indirgenmiştir. Bağımlı değişken Y'yi altı adım öteden tahmin etmenin sonuçları sunulmuştur. tablo 8.4'te.

Tablo 8.4. Y değişkeni tahmin sonuçları

Y(tahmin edilen)

Böylece, Microsoft Excel paketinde regresyon analizi kullanmanın bir sonucu olarak:

    bir regresyon denklemi oluşturdu;

    bağımlılığın biçimini ve değişkenler arasındaki ilişkinin yönünü belirledi - işlevin düzgün bir büyümesinde ifade edilen pozitif bir doğrusal regresyon;

    değişkenler arasındaki ilişkinin yönünü belirleyen;

    ortaya çıkan regresyon çizgisinin kalitesini değerlendirdi;

    hesaplanan verilerin orijinal setin verilerinden sapmalarını görebilmiş;

    bağımlı değişkenin gelecekteki değerlerini tahmin etti.

Eğer regresyon fonksiyonu tanımlanmış, yorumlanmış ve gerekçelendirilmiş ve regresyon analizinin doğruluğunun değerlendirilmesi gereksinimleri karşılıyorsa, oluşturulan modelin ve tahmin değerlerinin yeterince güvenilir olduğunu varsayabiliriz.

Bu şekilde elde edilen tahmin edilen değerler beklenebilecek ortalama değerlerdir.

Bu yazıda, ana özellikleri inceledik tanımlayıcı istatistikler ve bunların arasında gibi kavramlar ortalama değer,medyan,maksimum,minimum ve veri varyasyonunun diğer özellikleri.

Konseptin kısa bir tartışması da oldu. emisyonlar. Ele alınan özellikler, sözde keşifsel veri analizine atıfta bulunur, sonuçları genel nüfus için geçerli olmayabilir, ancak yalnızca bir veri örneği için geçerli olabilir. Keşifsel veri analizi, popülasyon hakkında birincil sonuçlar çıkarmak ve hipotezler oluşturmak için kullanılır.

Korelasyon ve regresyon analizinin temelleri, görevleri ve pratik kullanım olanakları da ele alındı.

Korelasyon ve regresyon kavramları doğrudan ilişkilidir. Korelasyon ve regresyon analizinde yaygın olarak kullanılan birçok hesaplama tekniği vardır. Olaylar ve süreçler arasındaki neden-sonuç ilişkilerini belirlemek için kullanılırlar. Ancak, eğer korelasyon analizi stokastik bağlantının gücünü ve yönünü değerlendirmenizi sağlar, ardından regresyon analizi Aynı zamanda bir bağımlılık şeklidir.

Regresyon şunlar olabilir:

a) olayların sayısına bağlı olarak (değişkenler):

Basit (iki değişken arasında gerileme);

Çoklu (bağımlı değişken (y) ile onu açıklayan birkaç değişken (x1, x2 ... xn) arasındaki gerileme;

b) forma bağlı olarak:

Doğrusal (doğrusal bir fonksiyon olarak gösterilir ve incelenen değişkenler arasında doğrusal ilişkiler vardır);

Doğrusal olmayan (doğrusal olmayan bir fonksiyon olarak görüntülenir, incelenen değişkenler arasındaki ilişki doğrusal değildir);

c) dikkate alınan değişkenler arasındaki ilişkinin doğası gereği:

Pozitif (açıklayıcı değişkenin değerindeki bir artış, bağımlı değişkenin değerinde bir artışa yol açar ve bunun tersi de geçerlidir);

Olumsuz (açıklayıcı değişkenin değeri arttıkça açıklanan değişkenin değeri azalır);

d) türe göre:

Hemen (bu durumda, nedenin etki üzerinde doğrudan bir etkisi vardır, yani bağımlı ve açıklayıcı değişkenler doğrudan birbiriyle ilişkilidir);

Dolaylı (açıklayıcı değişken, bağımlı değişken üzerinde üçüncü bir veya birkaç başka değişken aracılığıyla dolaylı bir etkiye sahiptir);

Yanlış (saçma gerileme) - incelenen süreçlere ve olaylara yüzeysel ve resmi bir yaklaşımla ortaya çıkabilir. Ülkemizde tüketilen alkol miktarının azalması ile çamaşır deterjanı satışlarının azalması arasında ilişki kuran regresyon saçmalığa örnektir.

Regresyon analizi yapılırken aşağıdaki ana görevler çözülür:

1. Bağımlılık biçiminin belirlenmesi.

2. Regresyon fonksiyonunun tanımı. Bunu yapmak için, ilk olarak bağımlı değişkenin değişiminde genel bir eğilim oluşturmaya ve ikinci olarak açıklayıcı değişkenin (veya birkaç değişkenin) etkisini hesaplamaya izin veren şu veya bu türden bir matematiksel denklem kullanılır. bağımlı değişken üzerinde.

3. Bağımlı değişkenin bilinmeyen değerlerinin tahmini. Ortaya çıkan matematiksel bağımlılık (regresyon denklemi), hem açıklayıcı değişkenlerin verilen değerleri aralığında hem de ötesinde bağımlı değişkenin değerini belirlemenizi sağlar. İkinci durumda, regresyon analizi, (mevcut eğilimler ve ilişkilerin korunması şartıyla) sosyo-ekonomik süreçlerdeki ve olgulardaki değişiklikleri tahmin etmede yararlı bir araç görevi görür. Genellikle, tahminin yürütüldüğü zaman aralığının uzunluğu, ilk göstergelerin gözlemlerinin yapıldığı zaman aralığının yarısından fazla olmayacak şekilde seçilir. Hem ekstrapolasyon problemini çözen pasif bir tahmin hem de iyi bilinen "eğer ... o zaman" şemasına göre akıl yürüten ve farklı değerleri bir veya daha fazla açıklayıcı regresyon değişkenine ikame eden aktif bir tahmin yürütmek mümkündür.



İçin bir gerileme inşa etmek adı verilen özel bir yöntem kullanır. en küçük kareler yöntemi. Bu yöntemin diğer düzeltme yöntemlerine göre avantajları vardır: gerekli parametrelerin nispeten basit bir matematiksel tanımı ve olasılık açısından iyi bir teorik doğrulama.

Bir regresyon modeli seçerken, bunun için temel gerekliliklerden biri, yeterli doğrulukta bir çözüm elde etmeyi sağlayan mümkün olan en büyük basitliği sağlamaktır. Bu nedenle, istatistiksel ilişkiler kurmak için, kural olarak, ilk önce doğrusal fonksiyonlar sınıfından bir model dikkate alınır (olası tüm fonksiyon sınıflarının en basiti olarak):

burada bi, b2...bj - хij bağımsız değişkenlerinin yi değeri üzerindeki etkisini belirleyen katsayılar; ai - ücretsiz üye; ei - açıklanamayan faktörlerin bağımlı değişken üzerindeki etkisini yansıtan rastgele sapma; n, bağımsız değişkenlerin sayısıdır; N, gözlem sayısıdır ve (N . n+1) koşulu karşılanmalıdır.

Doğrusal modelçok geniş bir farklı problem sınıfını tanımlayabilir. Ancak uygulamada, özellikle sosyo-ekonomik sistemlerde, büyük tahmin hatalarından dolayı lineer modellerin kullanılması bazen zordur. Bu nedenle, doğrusallaştırmaya izin veren doğrusal olmayan çoklu regresyon fonksiyonları sıklıkla kullanılır. Örneğin, çeşitli sosyo-ekonomik çalışmalarda uygulama bulan üretim işlevi (Cobb-Douglas'ın güç işlevi) bunların arasında yer alır. Şuna benziyor:

nerede b 0 - normalleştirme faktörü, b 1 ...b j - bilinmeyen katsayılar, e ben - rastgele sapma.

Doğal logaritmalar kullanarak bu denklemi doğrusal bir forma dönüştürebiliriz:

Ortaya çıkan model, yukarıda açıklanan standart doğrusal regresyon prosedürlerini kullanmanıza izin verir. İki tür (toplamsal ve çarpımsal) model oluşturduktan sonra, en iyileri seçilebilir ve daha küçük yaklaşım hatalarıyla daha fazla araştırma yapılabilir.

Yaklaşan fonksiyonları seçmek için iyi geliştirilmiş bir sistem var - bağımsız değişkenlerin grup muhasebesi yöntemi(MGUA) .

Seçilen modelin doğruluğu, gözlenen değerler y i ile regresyon denklemi y i kullanılarak tahmin edilen karşılık gelen değerler arasındaki farklar olan artıkların çalışmasının sonuçlarıyla değerlendirilebilir. Bu durumda Modelin yeterliliğini kontrol etmek için hesaplanmış ortalama yaklaşım hatası:

e% 15 veya daha az ise model yeterli kabul edilir.

Sosyo-ekonomik sistemlerle ilgili olarak, klasik regresyon modelinin yeterliliği için temel koşulların her zaman karşılanmadığını özellikle vurguluyoruz.

Ortaya çıkan yetersizliğin tüm sebepleri üzerinde durmadan sadece isim vereceğiz. çoklu bağlantı- istatistiksel bağımlılıkların incelenmesinde regresyon analizi prosedürlerinin etkili bir şekilde uygulanmasının en zor sorunu. Altında çoklu bağlantı açıklayıcı değişkenler arasında doğrusal bir ilişkinin varlığı anlaşılmaktadır.

Bu olgu:

a) anlamlı yorumlarında regresyon katsayılarının anlamını bozar;

b) tahminin doğruluğunu azaltır (tahminlerin varyansı artar);

c) katsayı tahminlerinin örnek verilere duyarlılığını artırır (örnek büyüklüğündeki bir artış, tahminlerin değerlerini büyük ölçüde etkileyebilir).

Çoklu doğrusallığı azaltmak için çeşitli teknikler vardır. En erişilebilir yol, aralarındaki korelasyon katsayısı mutlak değer olarak 0,8'e eşit bir değeri aşarsa, iki değişkenden birini ortadan kaldırmaktır. Değişkenlerden hangisinin tutulacağına anlamlı değerlendirmelere dayalı olarak karar verilir. Daha sonra regresyon katsayıları tekrar hesaplanır.

Kademeli regresyon algoritmasını kullanmak, modele tutarlı bir şekilde bir bağımsız değişken dahil etmenize ve regresyon katsayılarının önemini ve değişkenlerin çoklu bağlantısını analiz etmenize olanak tanır. Son olarak, çalışılan bağımlılıkta yalnızca regresyon katsayılarının gerekli önemini ve çoklu bağlantının minimum etkisini sağlayan değişkenler kalır.

Önceki notlarda, yatırım fonu getirileri, Web sayfası yükleme süresi veya alkolsüz içecek tüketimi gibi tek bir sayısal değişkene odaklanılmıştır. Bu ve sonraki notlarda, bir veya daha fazla sayısal değişkenin değerlerine bağlı olarak sayısal bir değişkenin değerlerini tahmin etme yöntemlerini ele alacağız.

Materyal, bir örnekle açıklanacaktır. Bir giyim mağazasında satış hacmini tahmin etmek. Sunflowers indirimli giyim mağazaları zinciri 25 yıldır sürekli genişlemektedir. Ancak, şirketin şu anda yeni satış noktaları seçmek için sistematik bir yaklaşımı yok. Şirketin yeni bir mağaza açmayı planladığı yer, sübjektif değerlendirmelere göre belirlenir. Seçim kriterleri, uygun kiralama koşulları veya yöneticinin mağazanın ideal konumu hakkındaki fikridir. Düşünün ki Özel Projeler ve Planlama Dairesi başkanısınız. Yeni mağazalar açmak için stratejik bir plan geliştirmekle görevlendirildiniz. Bu plan, yeni açılan mağazalardaki yıllık satış tahminini içermelidir. Satış alanı satışlarının doğrudan gelirle ilgili olduğuna inanıyor ve bu gerçeği karar verme sürecinize dahil etmek istiyorsunuz. Yeni mağaza büyüklüğüne göre yıllık satışları tahmin eden istatistiksel bir modeli nasıl geliştirirsiniz?

Tipik olarak, bir değişkenin değerlerini tahmin etmek için regresyon analizi kullanılır. Amacı, bağımlı değişkenin veya yanıtın değerlerini en az bir bağımsız veya açıklayıcı değişkenin değerlerinden tahmin eden istatistiksel bir model geliştirmektir. Bu notta, bağımlı değişkenin değerlerini tahmin etmenizi sağlayan istatistiksel bir yöntem olan basit bir doğrusal regresyonu ele alacağız. Y bağımsız değişkenin değerlerine göre X. Aşağıdaki notlar, bağımsız değişkenin değerlerini tahmin etmek için tasarlanmış bir çoklu regresyon modelini açıklayacaktır. Y birkaç bağımlı değişkenin değerlerine göre ( X 1 , X 2 , …, X k).

Notu veya formatında indirin, formatta örnekler

Regresyon modeli türleri

Nerede ρ 1 otokorelasyon katsayısıdır; Eğer ρ 1 = 0 (otokorelasyon yok), D≈ 2; Eğer ρ 1 ≈ 1 (pozitif otokorelasyon), D≈ 0; Eğer ρ 1 = -1 (negatif otokorelasyon), D ≈ 4.

Uygulamada, Durbin-Watson kriterinin uygulanması, değerin karşılaştırılmasına dayanır. D kritik teorik değerlerle d L Ve d sen belirli sayıda gözlem için N, modelin bağımsız değişken sayısı k(basit doğrusal regresyon için k= 1) ve anlamlılık düzeyi α. Eğer D< d L , rastgele sapmaların bağımsızlığı hipotezi reddedilir (dolayısıyla, pozitif bir otokorelasyon vardır); Eğer D > d U, hipotez reddedilmez (yani otokorelasyon yoktur); Eğer d L< D < d U karar vermek için yeterli sebep yoktur. Hesaplanan değer D 2'yi aşıyor, o zaman d L Ve d sen karşılaştırılan katsayının kendisi değildir D ve ifade (4 – D).

Durbin-Watson istatistiklerini Excel'de hesaplamak için, Şekil 1'deki alt tabloya dönüyoruz. 14 Bakiye çekme. İfadedeki (10) pay, = TOPLAKDIFF(dizi1, dizi2) ve payda = TOPLAM(dizi) işlevi kullanılarak hesaplanır (Şekil 16).

Pirinç. 16. Durbin-Watson istatistiklerini hesaplama formülleri

bizim örneğimizde D= 0.883. Ana soru şudur: Durbin-Watson istatistiğinin hangi değeri, pozitif bir otokorelasyon olduğu sonucuna varmak için yeterince küçük kabul edilmelidir? D değerini kritik değerlerle ilişkilendirmek gerekir ( d L Ve d sen) gözlem sayısına bağlı olarak N ve anlamlılık düzeyi α (Şekil 17).

Pirinç. 17. Durbin-Watson istatistiklerinin kritik değerleri (tablo parçası)

Bu nedenle, evinize mal teslim eden bir mağazadaki satış hacmi probleminde bir bağımsız değişken vardır ( k= 1), 15 gözlem ( N= 15) ve anlamlılık seviyesi α = 0.05. Buradan, d L= 1.08 ve Dsen= 1.36. Çünkü D = 0,883 < d L= 1.08, artıklar arasında pozitif otokorelasyon vardır, en küçük kareler yöntemi uygulanamaz.

Eğim ve Korelasyon Katsayısı Hakkında Hipotezlerin Test Edilmesi

Yukarıdaki regresyon yalnızca tahmin için uygulanmıştır. Regresyon katsayılarını belirlemek ve bir değişkenin değerini tahmin etmek Y belirli bir değişken değeri için X en küçük kareler yöntemi kullanıldı. Ek olarak, tahminin standart hatasını ve karma korelasyon katsayısını da dikkate aldık. Kalıntı analizi, en küçük kareler yönteminin uygulanabilirlik koşullarının ihlal edilmediğini ve basit doğrusal regresyon modelinin yeterli olduğunu teyit ediyorsa, örneklem verilerine dayanarak, popülasyondaki değişkenler arasında doğrusal bir ilişki olduğu söylenebilir.

BaşvuruT - eğim kriterleri. Nüfus eğimi β 1'in sıfıra eşit olup olmadığı kontrol edilerek, değişkenler arasında istatistiksel olarak anlamlı bir ilişki olup olmadığı belirlenebilir. X Ve Y. Bu hipotez reddedilirse, değişkenler arasında X Ve Y doğrusal bir ilişki vardır. Boş ve alternatif hipotezler şu şekilde formüle edilmiştir: H 0: β 1 = 0 (doğrusal ilişki yok), H1: β 1 ≠ 0 (doğrusal ilişki var). bir manastır T-istatistik, numune eğimi ile varsayımsal popülasyon eğimi arasındaki farkın eğim tahmininin standart hatasına bölünmesine eşittir:

(11) T = (B 1 β 1 ) / Şb 1

Nerede B 1 örnek verilere dayalı doğrudan regresyonun eğimi, β1 doğrudan genel popülasyonun varsayımsal eğimi, ve test istatistikleri T sahip T- ile dağıtım n - 2özgürlük derecesi.

α = 0.05'te mağaza büyüklüğü ile yıllık satışlar arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını kontrol edelim. T-kriter kullanılırken diğer parametrelerle birlikte görüntülenir Analiz paketi(seçenek gerileme). Analiz Paketinin tüm sonuçları Şekil 1'de gösterilmektedir. 4, t-istatistikleri ile ilgili bir parça - Şek. 18.

Pirinç. 18. Başvuru sonuçları T

Çünkü mağaza sayısı N= 14 (bkz. Şekil 3), kritik değer T- α = 0.05 anlamlılık seviyesindeki istatistikler aşağıdaki formülle bulunabilir: t L=STUDENT.INV(0,025;12) = -2,1788 burada 0,025 anlamlılık düzeyinin yarısıdır ve 12 = N – 2; t sen\u003d ÖĞRENCİ.RUB (0,975, 12) \u003d +2,1788.

Çünkü T-istatistik = 10.64 > t sen= 2.1788 (Şekil 19), sıfır hipotezi H 0 reddedildi. Diğer tarafta, R için değer X\u003d 10.6411, \u003d 1-STUDENT.DAĞ (D3, 12, DOĞRU) formülü ile hesaplanır, yaklaşık olarak sıfıra eşittir, bu nedenle hipotez H 0 tekrar reddedilir. Gerçek şu ki R-değer neredeyse sıfırdır, yani mağaza büyüklüğü ile yıllık satışlar arasında gerçek bir doğrusal ilişki olmasaydı, onu doğrusal regresyon kullanarak bulmak neredeyse imkansız olurdu. Bu nedenle, ortalama yıllık mağaza satışları ile mağaza büyüklüğü arasında istatistiksel olarak anlamlı bir doğrusal ilişki vardır.

Pirinç. 19. Genel popülasyonun eğimi hakkındaki hipotezin 0,05 anlamlılık düzeyinde ve 12 serbestlik derecesinde test edilmesi

BaşvuruF - eğim kriterleri. Basit bir doğrusal regresyonun eğimi hakkındaki hipotezleri test etmek için alternatif bir yaklaşım, F-kriter. Hatırlamak F-ölçüt, iki varyans arasındaki ilişkiyi test etmek için kullanılır (ayrıntılara bakın). Eğim hipotezini test ederken, rasgele hataların ölçüsü hata varyansıdır (hataların karelerinin toplamı bölü serbestlik derecesi sayısı), yani F-test, regresyon tarafından açıklanan varyansın oranını kullanır (yani, değerler SSR bağımsız değişken sayısına bölünür k), hata varyansına ( MSE=SYX 2 ).

bir manastır F-istatistik, hata varyansına (MSE) bölünen regresyondan (MSR) kaynaklanan ortalama kare sapmalara eşittir: F = MSR/ MSE, Nerede MSR=SSR / k, MSE =SSE/(N– k – 1), k regresyon modelindeki bağımsız değişken sayısıdır. test istatistikleri F sahip F- ile dağıtım k Ve N– k – 1özgürlük derecesi.

Belirli bir önem düzeyi α için, karar kuralı şu şekilde formüle edilir: F > Ksen, sıfır hipotezi reddedilir; aksi takdirde reddedilmez. Varyans analizinin özet tablosu şeklinde sunulan sonuçlar, şekil 2'de gösterilmektedir. 20.

Pirinç. 20. Regresyon katsayısının istatistiksel anlamlılığının hipotezini test etmek için varyans analizi tablosu

benzer şekilde T-kriter F-kriter kullanırken tabloda görüntülenir Analiz paketi(seçenek gerileme). Çalışmanın tam sonuçları Analiz paketiŞek. 4, ilgili parça F-istatistikler - Şek. 21.

Pirinç. 21. Başvuru sonuçları F- Excel Analysis ToolPack kullanılarak elde edilen kriterler

F-istatistik 113.23 ve R sıfıra yakın değer (hücre önemiF). Anlamlılık düzeyi α 0,05 ise, kritik değeri belirleyin F-1 ve 12 serbestlik dereceli dağılımlar formülden elde edilebilir FU\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (Şek. 22). Çünkü F = 113,23 > FU= 4,7472 ve R-değer 0'a yakın< 0,05, нулевая гипотеза H 0 sapar, yani Bir mağazanın büyüklüğü, yıllık satış hacmi ile yakından ilişkilidir.

Pirinç. 22. Genel popülasyonun eğimi hakkındaki hipotezin 0,05 anlamlılık düzeyinde, bir ve 12 serbestlik derecesiyle test edilmesi

Eğim β 1 içeren güven aralığı. Değişkenler arasında doğrusal bir ilişkinin varlığına ilişkin hipotezi test etmek için, β 1 eğimini içeren bir güven aralığı oluşturabilir ve β 1 = 0 varsayımsal değerinin bu aralığa ait olduğundan emin olabilirsiniz. β 1 eğimini içeren güven aralığının merkezi örnek eğimdir B 1 ve sınırları miktarlardır 1 ±t n –2 Şb 1

Şek. 18, B 1 = +1,670, N = 14, Şb 1 = 0,157. T 12 \u003d ÖĞRENCİ.OBR (0.975, 12) \u003d 2.1788. Buradan, 1 ±t n –2 Şb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 veya + 1,328 ≤ β 1 ≤ +2,012. Böylece, popülasyonun 0,95 olasılıkla eğimi +1,328 ila +2,012 aralığındadır (yani, 1.328.000 ila 2.012.000 ABD Doları). Bu değerler sıfırdan büyük olduğu için yıllık satışlar ile mağaza alanı arasında istatistiksel olarak anlamlı doğrusal bir ilişki vardır. Güven aralığı sıfır içeriyorsa, değişkenler arasında herhangi bir ilişki olmayacaktır. Ek olarak, güven aralığı, her 1.000 metrekarede bir anlamına gelir. feet, ortalama satışlarda 1.328.000 $'lık artışla 2.012.000 $'a çıkıyor.

KullanımT - korelasyon katsayısı için kriterler. korelasyon katsayısı tanıtıldı R, iki sayısal değişken arasındaki ilişkinin bir ölçüsüdür. İki değişken arasında istatistiksel olarak anlamlı bir ilişki olup olmadığını belirlemek için kullanılabilir. Her iki değişkenin popülasyonları arasındaki korelasyon katsayısını ρ sembolü ile gösterelim. Sıfır ve alternatif hipotezler aşağıdaki gibi formüle edilmiştir: H 0: ρ = 0 (korelasyon yok), H 1: ρ ≠ 0 (bir korelasyon vardır). Bir korelasyonun varlığının kontrol edilmesi:

Nerede R = + , Eğer B 1 > 0, R = – , Eğer B 1 < 0. Тестовая статистика T sahip T- ile dağıtım n - 2özgürlük derecesi.

Sunflowers mağaza zinciri probleminde r2= 0.904 ve b 1- +1.670 (bkz. Şekil 4). Çünkü b 1> 0, yıllık satışlar ile mağaza büyüklüğü arasındaki korelasyon katsayısı R= +√0,904 = +0,951. Bu değişkenler arasında hiçbir korelasyon olmadığına dair sıfır hipotezini test edelim. T- İstatistik:

α = 0.05 anlamlılık düzeyinde, sıfır hipotezi reddedilmelidir çünkü T= 10.64 > 2.1788. Dolayısıyla yıllık satışlar ile mağaza büyüklüğü arasında istatistiksel olarak anlamlı bir ilişki olduğu söylenebilir.

Popülasyon eğimleri hakkındaki çıkarımları tartışırken, hipotezleri test etmek için güven aralıkları ve kriterler birbirinin yerine kullanılabilen araçlardır. Ancak korelasyon katsayısını içeren güven aralığının hesaplanması istatistiğin örnekleme dağılımının şekli nedeniyle daha zor olmaktadır. R gerçek korelasyon katsayısına bağlıdır.

Matematiksel beklenti tahmini ve bireysel değerlerin tahmini

Bu bölüm, beklenen yanıtı tahmin etme yöntemlerini tartışmaktadır. Y ve bireysel değerlerin tahminleri Y değişkenin verilen değerleri için X.

Bir güven aralığının oluşturulması.Örnek 2'de (yukarıdaki bölüme bakın) en küçük kareler yöntemi) regresyon denklemi, değişkenin değerini tahmin etmeyi mümkün kıldı Y X. Bir perakende satış yeri için yer seçme probleminde, 4000 metrekare alana sahip bir mağazada yıllık ortalama satış fit 7.644 milyon dolara eşitti.Ancak, genel nüfusun matematiksel beklentisinin bu tahmini bir noktadır. genel popülasyonun matematiksel beklentisini tahmin etmek için bir güven aralığı kavramı önerildi. Benzer şekilde, bir kavram tanıtılabilir Yanıtın matematiksel beklentisi için güven aralığı bir değişkenin belirli bir değeri için X:

Nerede , = B 0 + B 1 X ben– tahmin edilen değer değişkeni Y de X = X ben, S YX ortalama kare hatasıdır, Nörneklem büyüklüğüdür, XBen- değişkenin verilen değeri X, µ Y|X = XBen– bir değişkenin matematiksel beklentisi Y de X = Ben,SSX=

Formül (13)'ün analizi, güven aralığının genişliğinin birkaç faktöre bağlı olduğunu göstermektedir. Belirli bir anlamlılık düzeyinde, ortalama karesel hata kullanılarak ölçülen, regresyon çizgisi etrafındaki dalgalanmaların genliğinde bir artış, aralığın genişliğinde bir artışa yol açar. Öte yandan, beklendiği gibi, örneklem büyüklüğündeki bir artışa aralığın daralması eşlik etmektedir. Ayrıca değerlere bağlı olarak aralığın genişliği de değişmektedir. XBen. Değişkenin değeri ise Y miktarlar için tahmin X, ortalama değere yakın , güven aralığı, ortalamadan uzak değerler için yanıtı tahmin ederken olduğundan daha dar çıkıyor.

Bir mağaza için yer seçerken 4000 metrekare alana sahip tüm mağazalarda yıllık ortalama satışlar için %95 güven aralığı oluşturmak istiyoruz diyelim. ayak:

Dolayısıyla 4.000 metrekare alana sahip tüm mağazalarda yıllık ortalama satış hacmi. feet, %95 olasılıkla 6.971 ile 8.317 milyon dolar aralığında yer alıyor.

Öngörülen değer için güven aralığını hesaplayın. Değişkenin belirli bir değeri için yanıtın matematiksel beklentisi için güven aralığına ek olarak X tahmin edilen değer için güven aralığını bilmek genellikle gereklidir. Böyle bir güven aralığını hesaplamak için kullanılan formül, formül (13)'e çok benzer olsa da, bu aralık tahmin edilen bir değeri içerir ve parametrenin bir tahminini içermez. Öngörülen yanıt aralığı YX = Xi değişkenin belirli bir değeri için XBen formül ile belirlenir:

Bir perakende satış yeri için yer seçerken, 4000 metrekare alana sahip bir mağazada öngörülen yıllık satış hacmi için %95'lik bir güven aralığı oluşturmak istediğimizi varsayalım. ayak:

Bu nedenle, 4.000 metrekarelik bir alan için öngörülen yıllık satış hacmi. feet, %95 olasılıkla 5,433 ile 9,854 milyon dolar aralığında yer almaktadır.Gördüğünüz gibi, tahmin edilen yanıt değerinin güven aralığı, matematiksel beklentisinin güven aralığından çok daha geniştir. Bunun nedeni, bireysel değerleri tahmin etmedeki değişkenliğin, beklenen değeri tahmin etmekten çok daha fazla olmasıdır.

Regresyon kullanımıyla ilgili tuzaklar ve etik sorunlar

Regresyon analizi ile ilgili zorluklar:

  • En küçük kareler yönteminin uygulanabilirlik koşullarının göz ardı edilmesi.
  • En küçük kareler yönteminin uygulanabilirlik koşullarının hatalı bir tahmini.
  • En küçük kareler yönteminin uygulanabilirlik koşullarına aykırı olarak alternatif yöntemlerin yanlış seçimi.
  • Çalışma konusu hakkında derinlemesine bilgi sahibi olmadan regresyon analizinin uygulanması.
  • Açıklayıcı değişken aralığının ötesinde regresyonun ekstrapolasyonu.
  • İstatistiksel ve nedensel ilişkiler arasındaki karışıklık.

Elektronik tabloların ve istatistiksel yazılımların yaygın kullanımı, regresyon analizinin kullanılmasını engelleyen hesaplama problemlerini ortadan kaldırmıştır. Ancak bu durum regresyon analizinin yeterli nitelik ve bilgiye sahip olmayan kullanıcılar tarafından da kullanılmaya başlamasına neden olmuştur. Birçoğunun en küçük kareler yönteminin uygulanabilirlik koşulları hakkında hiçbir fikri yoksa ve uygulamalarını nasıl kontrol edeceklerini bilmiyorsa, kullanıcılar alternatif yöntemleri nasıl bilebilirler?

Araştırmacı, sayıları taşlayarak - kayma, eğim ve karışık korelasyon katsayısını hesaplayarak - kendini kaptırmamalıdır. Daha derin bilgiye ihtiyacı var. Bunu ders kitaplarından alınan klasik bir örnekle açıklayalım. Anscombe, Şekil 1'de gösterilen dört veri setinin hepsinin olduğunu gösterdi. 23 aynı regresyon parametrelerine sahiptir (Şekil 24).

Pirinç. 23. Dört yapay veri seti

Pirinç. 24. Dört yapay veri setinin regresyon analizi; ile yapılır Analiz paketi(resmi büyütmek için resmin üzerine tıklayın)

Dolayısıyla, regresyon analizi açısından tüm bu veri kümeleri tamamen aynıdır. Analiz burada biterse, pek çok faydalı bilgiyi kaybederiz. Bu, bu veri kümeleri için oluşturulan dağılım grafikleri (Şekil 25) ve artık grafikler (Şekil 26) ile kanıtlanmaktadır.

Pirinç. 25. Dört veri kümesi için dağılım grafikleri

Dağılım grafikleri ve kalıntı grafikleri, bu verilerin birbirinden farklı olduğunu göstermektedir. Düz bir çizgi boyunca dağıtılan tek küme, A kümesidir. A kümesinden hesaplanan artıkların grafiğinin bir modeli yoktur. Aynı şey B, C ve D kümeleri için söylenemez. B kümesi için çizilen dağılım grafiği, belirgin bir ikinci dereceden desen gösterir. Bu sonuç, parabolik bir şekle sahip artıkların çizimi ile doğrulanır. Dağılım grafiği ve kalıntı grafiği, veri kümesi B'nin bir aykırı değer içerdiğini gösterir. Bu durumda, aykırı değeri veri setinden çıkarmak ve analizi tekrarlamak gerekir. Gözlemlerdeki aykırı değerleri tespit etme ve ortadan kaldırma tekniğine etki analizi denir. Aykırı değer ortadan kaldırıldıktan sonra, modelin yeniden değerlendirilmesinin sonucu tamamen farklı olabilir. D veri kümesinden çizilen bir dağılım grafiği, ampirik modelin tek bir cevaba büyük ölçüde bağımlı olduğu alışılmadık bir durumu gösterir ( X 8 = 19, Y 8 = 12.5). Bu tür regresyon modellerinin özellikle dikkatli bir şekilde hesaplanması gerekir. Bu nedenle, saçılma ve kalıntı grafikleri, regresyon analizi için temel bir araçtır ve bunun ayrılmaz bir parçası olmalıdır. Onlar olmadan, regresyon analizi güvenilir değildir.

Pirinç. 26. Dört veri seti için artıkların grafikleri

Regresyon analizinde tuzaklardan nasıl kaçınılır:

  • Değişkenler arasındaki olası ilişkinin analizi X Ve Y her zaman bir dağılım grafiği ile başlayın.
  • Bir regresyon analizinin sonuçlarını yorumlamadan önce, uygulanabilirliği için koşulları kontrol edin.
  • Kalıntıları bağımsız değişkene karşı çizin. Bu, ampirik modelin gözlem sonuçlarına nasıl karşılık geldiğini belirlemeye ve varyansın sabitliğinin ihlalini tespit etmeye izin verecektir.
  • Hataların normal dağılımı varsayımını test etmek için histogramlar, gövde ve yaprak çizimleri, kutu çizimleri ve normal dağılım çizimlerini kullanın.
  • En küçük kareler yönteminin uygulanabilirlik koşulları sağlanmıyorsa alternatif yöntemler kullanın (örneğin, ikinci dereceden veya çoklu regresyon modelleri).
  • En küçük kareler yönteminin uygulanabilirlik koşulları sağlanıyorsa, regresyon katsayılarının istatistiksel anlamlılığına ilişkin hipotezin test edilmesi ve matematiksel beklenti ile tahmin edilen yanıt değerini içeren güven aralıklarının oluşturulması gerekir.
  • Bağımlı değişkenin değerlerini bağımsız değişkenin aralığı dışında tahmin etmekten kaçının.
  • İstatistiksel bağımlılıkların her zaman nedensel olmadığını unutmayın. Değişkenler arasındaki korelasyonun, aralarında nedensel bir ilişki olduğu anlamına gelmediğini unutmayın.

Özet. Blok diyagramda (Şekil 27) gösterildiği gibi, not basit bir doğrusal regresyon modelini, uygulanabilirlik koşullarını ve bu koşulları test etme yollarını açıklar. Dikkate alınan T- regresyonun eğiminin istatistiksel önemini test etme kriteri. Bağımlı değişkenin değerlerini tahmin etmek için bir regresyon modeli kullanılmıştır. Yıllık satış hacminin mağaza alanına bağımlılığının incelendiği bir perakende satış yeri için yer seçimi ile ilgili bir örnek ele alınmıştır. Elde edilen bilgiler, mağaza için daha doğru bir yer seçmenize ve yıllık satışlarını tahmin etmenize olanak tanır. Aşağıdaki notlarda, çoklu regresyon modellerinin yanı sıra regresyon analizi tartışması devam edecektir.

Pirinç. 27. Bir notun blok diyagramı

Levin ve diğerleri kitabından materyaller Yöneticiler için istatistikler kullanılır. - M.: Williams, 2004. - s. 792–872

Bağımlı değişken kategorik ise lojistik regresyon uygulanmalıdır.