Statistik persamaan regresi. Cari parameter persamaan regresi linear dan berikan tafsiran ekonomi bagi pekali regresi

x - dipanggil peramal - pembolehubah bebas atau penjelasan.

Untuk kuantiti x tertentu, Y ialah nilai pembolehubah y (dipanggil pembolehubah bersandar, keluaran atau tindak balas) yang terletak pada garis anggaran. Ini ialah nilai yang kita jangkakan untuk y (secara purata) jika kita tahu nilai x, dan ini dipanggil "nilai ramalan y" (Rajah 5).

a - ahli bebas (melintasi) garisan penilaian; ialah nilai Y apabila x = 0.

b ialah cerun atau kecerunan garis anggaran; ia mewakili jumlah yang Y meningkat secara purata jika kita meningkatkan x sebanyak satu unit (Rajah 5). Pekali b dipanggil pekali regresi.

Sebagai contoh: dengan peningkatan suhu badan manusia sebanyak 1 ° C, kadar nadi meningkat secara purata 10 denyutan seminit.

Rajah 5. Garis regresi linear menunjukkan pekali a dan cerun b(meningkatkan nilai Y dengan peningkatan X seunit)

Secara matematik, penyelesaian persamaan regresi linear dikurangkan untuk mengira parameter a dan b sedemikian rupa sehingga titik-titik data awal medan korelasi sedekat mungkin dengan regresi langsung .

Penggunaan statistik perkataan "regresi" berasal daripada fenomena yang dikenali sebagai regresi kepada min, dikaitkan dengan Francis Galton (1889). Dia menunjukkan bahawa walaupun bapa yang tinggi cenderung mempunyai anak lelaki yang tinggi, purata ketinggian anak lelaki adalah lebih kecil daripada bapa mereka yang tinggi. Purata ketinggian anak lelaki "berundur" atau "terbalik" ke arah ketinggian purata semua bapa dalam populasi. Oleh itu, secara purata, bapa yang tinggi mempunyai anak lelaki yang lebih pendek (tetapi masih tinggi), dan bapa yang pendek mempunyai anak lelaki yang lebih tinggi (tetapi masih agak pendek).

Kami melihat regresi min dalam saringan dan ujian klinikal di mana subset pesakit boleh dipilih untuk rawatan kerana tahap pembolehubah tertentu mereka, katakan kolesterol, adalah sangat tinggi (atau rendah). Jika ukuran ini diulang dari semasa ke semasa, min bacaan kedua untuk subkumpulan biasanya kurang daripada bacaan pertama, cenderung (iaitu, mundur) ke arah min padanan umur dan jantina dalam populasi, tanpa mengira rawatan yang mungkin mereka lakukan. terima. . Pesakit yang diambil ke dalam percubaan klinikal berdasarkan kolesterol tinggi pada lawatan pertama mereka berkemungkinan menunjukkan penurunan purata paras kolesterol pada lawatan kedua mereka, walaupun mereka tidak dirawat dalam tempoh tersebut.

Selalunya kaedah analisis regresi digunakan untuk membangunkan skala normatif dan piawaian pembangunan fizikal.


Sejauh mana garis regresi padan dengan data boleh dinilai dengan mengira pekali R (biasanya dinyatakan sebagai peratusan dan dipanggil pekali penentuan), yang sama dengan kuasa dua pekali korelasi (r 2). Ia mewakili bahagian atau peratusan varians dalam y yang boleh dijelaskan oleh hubungan dengan x, i.e. perkadaran variasi hasil-sifat yang telah berkembang di bawah pengaruh sifat bebas. Ia boleh mengambil nilai dalam julat dari 0 hingga 1, atau, masing-masing, dari 0 hingga 100%. Perbezaan (100% - R) ialah peratusan varians dalam y yang tidak dapat dijelaskan oleh interaksi ini.

Contoh

Hubungan antara ketinggian (diukur dalam cm) dan tekanan darah sistolik (SBP, diukur dalam mmHg) pada kanak-kanak. Kami melakukan analisis regresi linear berpasangan bagi SBP berbanding ketinggian (Rajah 6). Terdapat hubungan linear yang signifikan antara ketinggian dan SBP.

Rajah 6. Graf 2D menunjukkan hubungan antara tekanan darah sistolik dan ketinggian. Ditunjukkan ialah anggaran garis regresi, tekanan darah sistolik.

Anggaran persamaan garis regresi adalah seperti berikut:

TAMAN \u003d 46.28 + 0.48 x tinggi.

Dalam contoh ini, pintasan tidak menarik (peningkatan sifar jelas di luar julat yang diperhatikan dalam kajian). Walau bagaimanapun, kita boleh mentafsir cerun; SBP diramalkan meningkat secara purata 0.48 mm Hg pada kanak-kanak ini. dengan peningkatan ketinggian sebanyak satu sentimeter

Kita boleh menggunakan persamaan regresi untuk meramalkan SBP yang kita jangkakan pada kanak-kanak pada ketinggian tertentu. Sebagai contoh, kanak-kanak 115 cm mempunyai ramalan SBP sebanyak 46.28 + (0.48 x 115) = 101.48 mm Hg. Art., Kanak-kanak dengan ketinggian 130 mempunyai SBP yang diramalkan, 46.28 + (0.48 x 130) = 108.68 mm Hg. Seni.

Apabila mengira pekali korelasi, didapati bahawa ia adalah sama dengan 0.55, yang menunjukkan korelasi langsung kekuatan purata. Dalam kes ini, pekali penentuan r 2 \u003d 0.55 2 \u003d 0.3. Oleh itu, kita boleh mengatakan bahawa bahagian pengaruh pertumbuhan pada tahap tekanan darah pada kanak-kanak tidak melebihi 30%, masing-masing, 70% pengaruh jatuh pada bahagian faktor lain.

Regresi linear (mudah) terhad untuk mempertimbangkan hubungan antara pembolehubah bersandar dan hanya satu pembolehubah bebas. Jika terdapat lebih daripada satu pembolehubah bebas dalam perhubungan, maka kita perlu beralih kepada regresi berganda. Persamaan untuk regresi sedemikian kelihatan seperti ini:

y = a + bx 1 + b 2 x 2 +.... + b n x n

Seseorang mungkin berminat dengan hasil pengaruh beberapa pembolehubah tidak bersandar x 1 , x 2 , .., x n pada pembolehubah bergerak balas y. Jika kita berpendapat bahawa x ini boleh saling bergantung, maka kita tidak boleh melihat secara berasingan pada kesan perubahan nilai satu x dengan y, tetapi pada masa yang sama mesti mengambil kira nilai semua x lain.

Contoh

Oleh kerana terdapat hubungan yang kuat antara ketinggian dan berat badan kanak-kanak, seseorang mungkin tertanya-tanya sama ada hubungan antara ketinggian dan tekanan darah sistolik juga berubah apabila berat badan dan jantina kanak-kanak itu juga diambil kira. Regresi linear berbilang mengkaji kesan gabungan berbilang pembolehubah bebas ini pada y.

Persamaan regresi berganda dalam kes ini boleh kelihatan seperti ini:

GARDEN \u003d 79.44 - (0.03 x tinggi) + (1.18 x berat) + (4.23 x jantina) *

* - (untuk jantina, nilai 0 - lelaki, 1 - perempuan)

Mengikut persamaan ini, seorang gadis yang tingginya 115 cm dan berat 37 kg akan mempunyai SBP yang diramalkan:

GARDEN \u003d 79.44 - (0.03 x 115) + (1.18 x 37) + (4.23 x 1) \u003d 123.88 mm Hg.

Regresi logistik sangat serupa dengan regresi linear; ia digunakan apabila terdapat hasil binari yang menarik minat kita (iaitu kehadiran/ketiadaan gejala atau subjek yang mempunyai/tidak mempunyai penyakit) dan satu set peramal. Daripada persamaan regresi logistik, adalah mungkin untuk menentukan peramal mana yang mempengaruhi keputusan dan, menggunakan nilai peramal pesakit, menganggarkan kemungkinan dia akan mendapat hasil tertentu. Contohnya: komplikasi akan timbul atau tidak, rawatan akan berkesan atau tidak.

Mula mencipta pembolehubah binari untuk mewakili dua hasil (cth "mempunyai penyakit" = 1, "tidak mempunyai penyakit" = 0). Walau bagaimanapun, kita tidak boleh menggunakan kedua-dua nilai ini sebagai pembolehubah bersandar dalam analisis regresi linear kerana andaian normaliti dilanggar dan kita tidak boleh mentafsir nilai ramalan yang bukan sifar atau satu.

Malah, sebaliknya, kami mengambil kebarangkalian bahawa subjek dikelaskan dalam kategori terdekat (iaitu "mempunyai penyakit") bagi pembolehubah bersandar, dan untuk mengatasi kesukaran matematik, gunakan transformasi logistik, dalam persamaan regresi - logaritma semula jadi daripada nisbah kebarangkalian "penyakit" (p) kepada kebarangkalian "tiada penyakit" (1-p).

Proses integratif yang dipanggil kaedah kemungkinan maksimum, dan bukannya regresi biasa (kerana kita tidak boleh menggunakan prosedur regresi linear) mencipta anggaran persamaan regresi logistik daripada data sampel

logit(p) = a + bx 1 + b 2 x 2 +.... + b n x n

logit (p) ialah anggaran nilai kebarangkalian sebenar bahawa pesakit dengan set nilai individu untuk x 1 ... x n mempunyai penyakit;

a - penilaian pemalar (jangka bebas, persimpangan);

b 1 , b 2 ,... ,b n — anggaran pekali regresi logistik.

1. Soalan mengenai tajuk pelajaran:

1. Berikan definisi fungsi dan perkaitan.

2. Berikan contoh korelasi langsung dan songsang.

3. Nyatakan saiz pekali korelasi untuk hubungan lemah, sederhana dan kuat antara ciri.

4. Dalam kes apakah kaedah pangkat untuk mengira pekali korelasi digunakan?

5. Dalam kes apakah pengiraan pekali korelasi Pearson digunakan?

6. Apakah langkah utama dalam mengira pekali korelasi dengan kaedah pangkat?

7. Takrifkan "regresi". Apakah intipati kaedah regresi?

8. Huraikan formula bagi persamaan regresi linear mudah.

9. Tentukan pekali regresi.

10. Apakah kesimpulan yang boleh dibuat jika pekali regresi berat bagi ketinggian ialah 0.26 kg/cm?

11. Apakah formula persamaan regresi digunakan?

12. Apakah pekali penentuan?

13. Dalam kes apakah persamaan regresi berganda digunakan.

14. Apakah kaedah regresi logistik digunakan?

Tugasan.

Untuk perusahaan industri ringan di rantau ini, maklumat diperolehi yang mencirikan pergantungan volum keluaran (Y, juta rubel) pada jumlah pelaburan modal (Y, juta rubel).

Jadual 1.

Kebergantungan volum keluaran pada volum pelaburan modal.

X
Y

Diperlukan:

1. Cari parameter persamaan regresi linear, berikan tafsiran ekonomi bagi pekali regresi.

2. Kira baki; cari jumlah baki kuasa dua; menganggarkan varians baki; plot baki.

3. Semak pemenuhan prasyarat LSM.

4. Semak kepentingan parameter persamaan regresi menggunakan ujian-t Pelajar (α = 0.05).

5. Kira pekali penentuan, semak kepentingan persamaan regresi menggunakan kriteria F - Fisher (α = 0.05), cari purata ralat penghampiran relatif. Buat pertimbangan tentang kualiti model.

6. Untuk meramalkan nilai purata penunjuk Y pada tahap keertian α = 0.1, jika nilai ramalan faktor X ialah 80% daripada nilai maksimumnya.

7. Bentangkan secara grafik nilai sebenar dan model Y bagi titik ramalan.

8. Karang persamaan regresi bukan linear dan bina grafnya:

hiperbola;

Kuasa;

Demonstratif.

9. Untuk model ini, cari pekali penentuan dan purata ralat penghampiran relatif. Bandingkan model mengikut ciri-ciri ini dan buat kesimpulan.

Mari kita cari parameter persamaan regresi linear dan berikan tafsiran ekonomi bagi pekali regresi.

Persamaan regresi linear ialah: ,

Pengiraan untuk mencari parameter a dan b diberikan dalam Jadual 2.

Jadual 2.

Pengiraan nilai untuk mencari parameter persamaan regresi linear.

Persamaan regresi ialah: y = 13.8951 + 2.4016*x.

Dengan peningkatan dalam jumlah pelaburan modal (X) sebanyak 1 juta rubel. volum keluaran (Y) akan meningkat secara purata 2.4016 juta rubel. Oleh itu, terdapat korelasi positif tanda-tanda, yang menunjukkan kecekapan perusahaan dan keuntungan pelaburan dalam aktiviti mereka.

2. Kira baki; cari jumlah baki kuasa dua; menganggarkan varians baki dan plot baki.

Selebihnya dikira dengan formula: e i = y i - y prog.

Jumlah baki sisihan kuasa dua: = 207.74.

Penyerakan sisa: 25.97.

Pengiraan ditunjukkan dalam Jadual 3.

Jadual 3

Y X Y=a+b*x i e i = y i - y meramal. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Jumlah 0,00 207,74
Purata 111,4 40,6

Carta baki kelihatan seperti ini:


Rajah 1. Carta sisa

3. Mari kita semak pemenuhan prasyarat LSM, yang merangkumi elemen:

- menyemak kesamaan jangkaan matematik bagi komponen rawak kepada sifar;

- sifat rawak sisa;

- semakan kemerdekaan;

- korespondensi beberapa sisa kepada undang-undang taburan normal.

Menyemak kesamaan jangkaan matematik tahap siri sisa kepada sifar.

Ia dijalankan semasa pengesahan hipotesis nol yang sepadan H 0: . Untuk tujuan ini, statistik-t dibina, di mana .

jadi hipotesis diterima.

Sifat rawak jenazah.

Mari kita semak tahap rawak siri sisa menggunakan kriteria titik pusing:

Bilangan titik pusing ditentukan daripada jadual baki:

e i = y i - y meramal. Titik pusingan e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Jumlah 0,00 207,74 354,62
Purata

= 6 > , oleh itu, sifat rawak sisa dipenuhi.

Baki Kemerdekaan disahkan menggunakan ujian Durbin-Watson:

=4 - 1,707 = 2,293.

Oleh kerana ia jatuh ke dalam selang dari d 2 hingga 2, maka mengikut kriteria ini, kita boleh membuat kesimpulan bahawa harta kemerdekaan dipenuhi. Ini bermakna tiada autokorelasi dalam siri dinamik, oleh itu, model adalah mencukupi mengikut kriteria ini.

Surat menyurat beberapa baki kepada undang-undang taburan normal ditentukan menggunakan kriteria R/S dengan tahap kritikal (2.7-3.7);

Kira nilai RS:

RS = (e maks - e min) / S,

di mana e max ialah nilai maksimum tahap bagi siri sisa E(t) = 8.07;

e min - nilai minimum aras siri sisa E(t) = -6.54.

S - sisihan piawai, = 4,8044.

RS \u003d (e maks - e min) / S \u003d (8.07 + 6.54) / 4.8044 \u003d 3.04.

Sejak 2.7< 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Oleh itu, setelah mempertimbangkan pelbagai kriteria untuk memenuhi prasyarat LSM, kami membuat kesimpulan bahawa prasyarat LSM telah dipenuhi.

4. Mari kita semak kepentingan parameter persamaan regresi menggunakan ujian-t Pelajar α = 0.05.

Menyemak kepentingan pekali regresi individu dikaitkan dengan penentuan nilai yang dikira ujian-t (statistik-t) untuk pekali regresi yang sepadan:

Kemudian nilai yang dikira dibandingkan dengan jadual t jadual= 2.3060. Nilai jadual bagi kriteria ditentukan apabila ( n- 2) darjah kebebasan ( n- bilangan pemerhatian) dan aras keertian yang sepadan a (0.05)

Jika nilai pengiraan ujian-t dengan (n- 2) darjah kebebasan melebihi nilai jadualnya pada tahap keertian tertentu, pekali regresi dianggap signifikan.

Dalam kes kami, pekali regresi adalah 0 - tidak penting, dan 1 - pekali ketara.

Garis regresi ialah gambaran grafik hubungan antara fenomena. Anda boleh membina garis regresi dengan mudah dalam Excel.

Untuk ini anda perlukan:

1.Buka program Excel

2. Buat lajur dengan data. Dalam contoh kami, kami akan membina garis regresi, atau hubungan, antara keagresifan dan keraguan diri dalam pelajar gred pertama. Percubaan melibatkan 30 kanak-kanak, data dibentangkan dalam jadual Excel:

1 lajur - nombor subjek

2 lajur - keagresifan dalam mata

3 lajur - keraguan diri dalam mata

3. Kemudian anda perlu memilih kedua-dua lajur (tanpa nama lajur), tekan tab masukkan , pilih titik , dan daripada reka letak yang dicadangkan pilih yang pertama titik dengan penanda .

4. Jadi kami mendapat kosong untuk garis regresi - yang dipanggil - plot bersepah. Untuk pergi ke baris regresi, anda perlu mengklik pada angka yang terhasil, klik tab pembina, cari pada panel susun atur carta dan pilih M a ket9 , ia juga berkata f(x)

5. Jadi, kita mempunyai garis regresi. Graf juga menunjukkan persamaannya dan kuasa dua pekali korelasi

6. Ia kekal untuk menambah nama graf, nama paksi. Juga, jika dikehendaki, anda boleh mengalih keluar legenda, mengurangkan bilangan garis grid mendatar (tab susun atur , kemudian jaring ). Perubahan dan tetapan utama dibuat dalam tab Susun atur

Garis regresi dibina dalam MS Excel. Kini ia boleh ditambah pada teks kerja.

Dalam nota sebelumnya, tumpuan selalunya tertumpu pada pembolehubah berangka tunggal, seperti pulangan dana bersama, masa muat halaman web atau penggunaan minuman ringan. Dalam nota ini dan berikut, kami akan mempertimbangkan kaedah untuk meramalkan nilai pembolehubah berangka bergantung pada nilai satu atau lebih pembolehubah berangka lain.

Bahan akan digambarkan dengan contoh melalui. Meramalkan volum jualan di kedai pakaian. Rangkaian kedai pakaian diskaun Sunflowers sentiasa berkembang selama 25 tahun. Bagaimanapun, syarikat itu pada masa ini tidak mempunyai pendekatan sistematik untuk memilih cawangan baharu. Lokasi di mana syarikat berhasrat untuk membuka kedai baharu ditentukan berdasarkan pertimbangan subjektif. Kriteria pemilihan adalah keadaan sewa yang menggalakkan atau idea pengurus tentang lokasi ideal kedai. Bayangkan anda adalah ketua Jabatan Projek Khas dan Perancangan. Anda telah ditugaskan untuk membangunkan pelan strategik untuk membuka kedai baharu. Pelan ini harus mengandungi ramalan jualan tahunan di kedai yang baru dibuka. Anda percaya bahawa penjualan ruang berkaitan secara langsung dengan hasil dan ingin memasukkan fakta itu ke dalam proses membuat keputusan anda. Bagaimanakah anda membangunkan model statistik yang meramalkan jualan tahunan berdasarkan saiz kedai baharu?

Biasanya, analisis regresi digunakan untuk meramalkan nilai pembolehubah. Matlamatnya adalah untuk membangunkan model statistik yang meramalkan nilai pembolehubah bersandar, atau tindak balas, daripada nilai sekurang-kurangnya satu pembolehubah bebas, atau penjelasan. Dalam nota ini, kami akan mempertimbangkan regresi linear mudah - kaedah statistik yang membolehkan anda meramalkan nilai pembolehubah bersandar Y dengan nilai pembolehubah bebas X. Nota berikut akan menerangkan model regresi berganda yang direka untuk meramalkan nilai pembolehubah bebas Y dengan nilai beberapa pembolehubah bersandar ( X 1 , X 2 , …, X k).

Muat turun nota dalam format atau, contoh dalam format

Jenis model regresi

di mana ρ 1 ialah pekali autokorelasi; jika ρ 1 = 0 (tiada autokorelasi), D≈ 2; jika ρ 1 ≈ 1 (autokorelasi positif), D≈ 0; jika ρ 1 = -1 (autokorelasi negatif), D ≈ 4.

Dalam amalan, penggunaan kriteria Durbin-Watson adalah berdasarkan perbandingan nilai D dengan nilai teori kritikal dL dan d U untuk bilangan pemerhatian tertentu n, bilangan pembolehubah bebas model k(untuk regresi linear mudah k= 1) dan aras keertian α. Sekiranya D< d L , hipotesis kebebasan sisihan rawak ditolak (oleh itu, terdapat autokorelasi positif); jika D > d U, hipotesis tidak ditolak (iaitu, tiada autokorelasi); jika dL< D < d U tidak ada alasan yang cukup untuk membuat keputusan. Apabila nilai yang dikira D melebihi 2, maka dL dan d U ia bukan pekali itu sendiri yang dibandingkan D, dan ungkapan (4 – D).

Untuk mengira statistik Durbin-Watson dalam Excel, kita beralih ke jadual bawah dalam Rajah. empat belas Pengeluaran baki. Pengangka dalam ungkapan (10) dikira menggunakan fungsi = SUMMQDIFF(array1, array2), dan penyebut = SUMMQ(array) (Rajah 16).

nasi. 16. Formula untuk mengira statistik Durbin-Watson

Dalam contoh kita D= 0.883. Persoalan utama ialah: apakah nilai statistik Durbin-Watson yang harus dianggap cukup kecil untuk membuat kesimpulan bahawa terdapat autokorelasi positif? Adalah perlu untuk mengaitkan nilai D dengan nilai kritikal ( dL dan d U) bergantung kepada bilangan pemerhatian n dan aras keertian α (Rajah 17).

nasi. 17. Nilai kritikal statistik Durbin-Watson (serpihan jadual)

Oleh itu, dalam masalah jumlah jualan di kedai menghantar barang ke rumah anda, terdapat satu pembolehubah tidak bersandar ( k= 1), 15 pemerhatian ( n= 15) dan aras keertian α = 0.05. Oleh itu, dL= 1.08 dan dU= 1.36. Sejauh mana D = 0,883 < dL= 1.08, terdapat autokorelasi positif antara baki, kaedah kuasa dua terkecil tidak boleh digunakan.

Menguji Hipotesis tentang Kecerunan dan Pekali Korelasi

Regresi di atas digunakan semata-mata untuk peramalan. Untuk menentukan pekali regresi dan meramalkan nilai pembolehubah Y untuk nilai pembolehubah yang diberikan X kaedah kuasa dua terkecil digunakan. Di samping itu, kami mempertimbangkan ralat piawai anggaran dan pekali korelasi bercampur. Jika analisis sisa mengesahkan bahawa syarat kebolehgunaan kaedah kuasa dua terkecil tidak dilanggar, dan model regresi linear mudah adalah mencukupi, berdasarkan data sampel, boleh dikatakan bahawa terdapat hubungan linear antara pembolehubah dalam populasi.

Permohonant -kriteria untuk cerun. Dengan menyemak sama ada cerun populasi β 1 adalah sama dengan sifar, seseorang boleh menentukan sama ada terdapat hubungan yang signifikan secara statistik antara pembolehubah X dan Y. Jika hipotesis ini ditolak, boleh dikatakan bahawa antara pembolehubah X dan Y terdapat hubungan linear. Hipotesis nol dan alternatif dirumus seperti berikut: H 0: β 1 = 0 (tiada hubungan linear), H1: β 1 ≠ 0 (ada hubungan linear). A-priory t-statistik adalah sama dengan perbezaan antara cerun sampel dan cerun populasi hipotesis, dibahagikan dengan ralat piawai anggaran cerun:

(11) t = (b 1 β 1 ) / Sb 1

di mana b 1 ialah cerun regresi langsung berdasarkan data sampel, β1 ialah cerun hipotesis populasi umum langsung, , dan statistik ujian t Ia mempunyai t- pengedaran dengan n - 2 darjah kebebasan.

Mari kita semak sama ada terdapat hubungan yang signifikan secara statistik antara saiz kedai dan jualan tahunan pada α = 0.05. t-kriteria dipaparkan bersama parameter lain apabila menggunakan Pakej analisis(pilihan Regresi). Keputusan penuh Pakej Analisis ditunjukkan dalam Rajah. 4, serpihan yang berkaitan dengan t-statistik - dalam rajah. lapan belas.

nasi. 18. Keputusan permohonan t

Kerana bilangan kedai n= 14 (lihat Rajah 3), nilai kritikal t-statistik pada aras keertian α = 0.05 boleh didapati dengan formula: t L=STUDENT.INV(0.025;12) = -2.1788 di mana 0.025 ialah separuh aras keertian dan 12 = n – 2; t U\u003d STUDENT.INV (0.975, 12) \u003d +2.1788.

Sejauh mana t-statistik = 10.64 > t U= 2.1788 (Rajah 19), hipotesis nol H 0 ditolak. Di sebelah sana, R-nilai untuk X\u003d 10.6411, dikira dengan formula \u003d 1-STUDENT.DIST (D3, 12, TRUE), adalah lebih kurang sama dengan sifar, jadi hipotesis H 0 ditolak lagi. Hakikat bahawa R-nilai hampir sifar, bermakna jika tiada hubungan linear sebenar antara saiz kedai dan jualan tahunan, hampir mustahil untuk mengesannya menggunakan regresi linear. Oleh itu, terdapat hubungan linear yang signifikan secara statistik antara purata jualan kedai tahunan dan saiz kedai.

nasi. 19. Menguji hipotesis tentang kecerunan populasi umum pada aras keertian 0.05 dan 12 darjah kebebasan

PermohonanF -kriteria untuk cerun. Pendekatan alternatif untuk menguji hipotesis tentang kecerunan regresi linear mudah adalah dengan menggunakan F-kriteria. Ingat itu F-kriteria digunakan untuk menguji hubungan antara dua varians (lihat butiran). Apabila menguji hipotesis cerun, ukuran ralat rawak ialah varians ralat (jumlah ralat kuasa dua dibahagikan dengan bilangan darjah kebebasan), jadi F-ujian menggunakan nisbah varians yang dijelaskan oleh regresi (iaitu, nilai SSR dibahagikan dengan bilangan pembolehubah bebas k), kepada varians ralat ( MSE=SYX 2 ).

A-priory F-statistik adalah sama dengan min sisihan kuasa dua disebabkan oleh regresi (MSR) dibahagikan dengan varians ralat (MSE): F = MSR/ MSE, di mana MSR=SSR / k, MSE =SSE/(n– k – 1), k ialah bilangan pembolehubah bebas dalam model regresi. Statistik ujian F Ia mempunyai F- pengedaran dengan k dan n– k – 1 darjah kebebasan.

Untuk tahap keertian α tertentu, peraturan keputusan dirumus seperti berikut: jika F > FU, hipotesis nol ditolak; jika tidak, ia tidak ditolak. Keputusan, yang dibentangkan dalam bentuk jadual ringkasan analisis varians, ditunjukkan dalam rajah. 20.

nasi. 20. Jadual analisis varians untuk menguji hipotesis kepentingan statistik bagi pekali regresi

Begitu juga t-kriteria F-kriteria dipaparkan dalam jadual apabila menggunakan Pakej analisis(pilihan Regresi). Hasil kerja penuh Pakej analisis ditunjukkan dalam rajah. 4, serpihan yang berkaitan dengan F-statistik - dalam rajah. 21.

nasi. 21. Keputusan permohonan F- Kriteria yang diperoleh menggunakan Excel Analysis ToolPack

F-statistik ialah 113.23 dan R-nilai hampir sifar (sel KepentinganF). Jika aras keertian α ialah 0.05, tentukan nilai kritikal F-taburan dengan satu dan 12 darjah kebebasan boleh didapati daripada formula F U\u003d F. OBR (1-0.05; 1; 12) \u003d 4.7472 (Gamb. 22). Sejauh mana F = 113,23 > F U= 4.7472, dan R-nilai hampir 0< 0,05, нулевая гипотеза H 0 menyimpang, i.e. Saiz kedai berkait rapat dengan jumlah jualan tahunannya.

nasi. 22. Menguji hipotesis tentang kecerunan populasi umum pada tahap keertian 0.05, dengan satu dan 12 darjah kebebasan

Selang keyakinan yang mengandungi cerun β 1 . Untuk menguji hipotesis tentang kewujudan hubungan linear antara pembolehubah, anda boleh membina selang keyakinan yang mengandungi cerun β 1 dan pastikan nilai hipotetikal β 1 = 0 tergolong dalam selang ini. Pusat selang keyakinan yang mengandungi cerun β 1 ialah cerun sampel b 1 , dan sempadannya ialah kuantiti b 1 ±t n –2 Sb 1

Seperti yang ditunjukkan dalam rajah. lapan belas, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d PELAJAR.OBR (0.975, 12) \u003d 2.1788. Oleh itu, b 1 ±t n –2 Sb 1 = +1.670 ± 2.1788 * 0.157 = +1.670 ± 0.342, atau + 1.328 ≤ β 1 ≤ +2.012. Oleh itu, kecerunan populasi dengan kebarangkalian 0.95 terletak dalam julat dari +1.328 hingga +2.012 (iaitu, daripada $1,328,000 hingga $2,012,000). Oleh kerana nilai ini lebih besar daripada sifar, terdapat hubungan linear yang signifikan secara statistik antara jualan tahunan dan kawasan kedai. Jika selang keyakinan mengandungi sifar, tidak akan ada hubungan antara pembolehubah. Di samping itu, selang keyakinan bermakna setiap 1,000 persegi. kaki menghasilkan peningkatan dalam purata jualan $1,328,000 kepada $2,012,000.

Penggunaant -kriteria untuk pekali korelasi. pekali korelasi diperkenalkan r, iaitu ukuran hubungan antara dua pembolehubah berangka. Ia boleh digunakan untuk menentukan sama ada terdapat hubungan yang signifikan secara statistik antara dua pembolehubah. Mari kita nyatakan pekali korelasi antara populasi kedua-dua pembolehubah dengan simbol ρ. Hipotesis nol dan alternatif dirumuskan seperti berikut: H 0: ρ = 0 (tiada korelasi), H 1: ρ ≠ 0 (ada korelasi). Menyemak kewujudan korelasi:

di mana r = + , jika b 1 > 0, r = – , jika b 1 < 0. Тестовая статистика t Ia mempunyai t- pengedaran dengan n - 2 darjah kebebasan.

Dalam masalah rangkaian kedai Bunga Matahari r2= 0.904, dan b 1- +1.670 (lihat Rajah 4). Sejauh mana b 1> 0, pekali korelasi antara jualan tahunan dan saiz kedai ialah r= +√0.904 = +0.951. Mari kita uji hipotesis nol bahawa tiada korelasi antara pembolehubah ini menggunakan t- statistik:

Pada aras keertian α = 0.05, hipotesis nol harus ditolak kerana t= 10.64 > 2.1788. Oleh itu, boleh dikatakan bahawa terdapat hubungan yang signifikan secara statistik antara jualan tahunan dan saiz kedai.

Apabila membincangkan inferens tentang cerun populasi, selang keyakinan dan kriteria untuk menguji hipotesis ialah alat yang boleh ditukar ganti. Walau bagaimanapun, pengiraan selang keyakinan yang mengandungi pekali korelasi ternyata lebih sukar, kerana bentuk taburan persampelan statistik r bergantung kepada pekali korelasi sebenar.

Anggaran jangkaan matematik dan ramalan nilai individu

Bahagian ini membincangkan kaedah untuk menganggar tindak balas yang dijangkakan Y dan ramalan nilai individu Y untuk nilai pembolehubah yang diberikan X.

Pembinaan selang keyakinan. Dalam contoh 2 (lihat bahagian di atas Kaedah kuasa dua terkecil) persamaan regresi memungkinkan untuk meramalkan nilai pembolehubah Y X. Dalam masalah memilih lokasi untuk kedai runcit, purata jualan tahunan di kedai dengan keluasan 4000 sq. kaki adalah bersamaan dengan 7.644 juta dolar. Walau bagaimanapun, anggaran jangkaan matematik penduduk umum ini adalah satu titik. untuk menganggar jangkaan matematik populasi umum, konsep selang keyakinan telah dicadangkan. Begitu juga, seseorang boleh memperkenalkan konsep selang keyakinan untuk jangkaan matematik bagi tindak balas untuk nilai tertentu pembolehubah X:

di mana , = b 0 + b 1 X i– pembolehubah nilai yang diramalkan Y di X = X i, S YX ialah ralat kuasa dua min, n ialah saiz sampel, Xi- nilai pembolehubah yang diberi X, µ Y|X = Xi– jangkaan matematik pembolehubah Y di X = Х i,SSX=

Analisis formula (13) menunjukkan bahawa lebar selang keyakinan bergantung kepada beberapa faktor. Pada tahap kepentingan tertentu, peningkatan dalam amplitud turun naik di sekitar garis regresi, diukur menggunakan ralat min kuasa dua, membawa kepada peningkatan dalam lebar selang. Sebaliknya, seperti yang dijangkakan, peningkatan dalam saiz sampel disertai dengan penyempitan selang. Di samping itu, lebar selang berubah bergantung pada nilai Xi. Jika nilai pembolehubah Y diramalkan untuk kuantiti X, hampir dengan nilai purata , selang keyakinan ternyata lebih sempit berbanding semasa meramalkan tindak balas untuk nilai jauh daripada min.

Katakan apabila memilih lokasi untuk kedai, kami ingin membina selang keyakinan 95% untuk purata jualan tahunan di semua kedai dengan keluasan 4000 meter persegi. kaki:

Oleh itu, purata volum jualan tahunan di semua kedai dengan keluasan 4,000 meter persegi. kaki, dengan kebarangkalian 95% terletak dalam julat dari 6.971 hingga 8.317 juta dolar.

Kira selang keyakinan untuk nilai yang diramalkan. Sebagai tambahan kepada selang keyakinan untuk jangkaan matematik tindak balas untuk nilai tertentu pembolehubah X, selalunya perlu mengetahui selang keyakinan untuk nilai yang diramalkan. Walaupun formula untuk mengira selang keyakinan sedemikian hampir sama dengan formula (13), selang ini mengandungi nilai ramalan dan bukan anggaran parameter. Selang untuk tindak balas yang diramalkan YX = Xi untuk nilai tertentu pembolehubah Xi ditentukan oleh formula:

Katakan apabila memilih lokasi untuk kedai runcit, kami ingin membina selang keyakinan 95% untuk jumlah jualan tahunan yang diramalkan di kedai dengan keluasan 4000 meter persegi. kaki:

Oleh itu, ramalan volum jualan tahunan untuk 4,000 kaki persegi. kaki, dengan kebarangkalian 95% terletak dalam julat dari 5.433 hingga 9.854 juta dolar. Seperti yang anda lihat, selang keyakinan untuk nilai tindak balas yang diramalkan adalah jauh lebih luas daripada selang keyakinan untuk jangkaan matematiknya. Ini kerana kebolehubahan dalam meramalkan nilai individu adalah lebih besar daripada menganggarkan nilai yang dijangkakan.

Perangkap dan isu etika yang berkaitan dengan penggunaan regresi

Kesukaran yang berkaitan dengan analisis regresi:

  • Mengabaikan syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Anggaran yang salah tentang syarat-syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Pilihan kaedah alternatif yang salah yang melanggar syarat kebolehgunaan kaedah kuasa dua terkecil.
  • Aplikasi analisis regresi tanpa pengetahuan mendalam tentang subjek kajian.
  • Ekstrapolasi regresi di luar julat pembolehubah penjelasan.
  • Kekeliruan antara hubungan statistik dan sebab.

Penggunaan meluas hamparan dan perisian statistik telah menghapuskan masalah pengiraan yang menghalang penggunaan analisis regresi. Walau bagaimanapun, ini membawa kepada fakta bahawa analisis regresi mula digunakan oleh pengguna yang tidak mempunyai kelayakan dan pengetahuan yang mencukupi. Bagaimanakah pengguna mengetahui tentang kaedah alternatif jika ramai daripada mereka tidak tahu sama sekali tentang syarat-syarat penggunaan kaedah kuasa dua terkecil dan tidak tahu cara menyemak pelaksanaannya?

Pengkaji tidak boleh terbawa-bawa dengan mengisar nombor - mengira anjakan, cerun dan pekali korelasi bercampur. Dia perlukan ilmu yang lebih mendalam. Mari kita gambarkan ini dengan contoh klasik yang diambil dari buku teks. Anscombe menunjukkan bahawa keempat-empat set data ditunjukkan dalam Rajah. 23 mempunyai parameter regresi yang sama (Rajah 24).

nasi. 23. Empat set data buatan

nasi. 24. Analisis regresi empat set data tiruan; selesai dengan Pakej analisis(klik pada gambar untuk besarkan gambar)

Jadi, dari sudut pandangan analisis regresi, semua set data ini adalah sama sepenuhnya. Jika analisis telah berakhir di sana, kita akan kehilangan banyak maklumat berguna. Ini dibuktikan oleh plot serakan (Rajah 25) dan plot baki (Rajah 26) yang dibina untuk set data ini.

nasi. 25. Plot taburan untuk empat set data

Plot serakan dan plot baki menunjukkan bahawa data ini berbeza antara satu sama lain. Satu-satunya set yang diedarkan sepanjang garis lurus ialah set A. Plot bagi baki yang dikira daripada set A tidak mempunyai corak. Perkara yang sama tidak boleh dikatakan untuk set B, C dan D. Plot serakan yang diplot untuk set B menunjukkan corak kuadratik yang jelas. Kesimpulan ini disahkan oleh plot sisa, yang mempunyai bentuk parabola. Plot serakan dan plot baki menunjukkan bahawa set data B mengandungi outlier. Dalam keadaan ini, adalah perlu untuk mengecualikan outlier daripada set data dan mengulangi analisis. Teknik untuk mengesan dan menghapuskan outlier daripada pemerhatian dipanggil analisis pengaruh. Selepas menghapuskan outlier, hasil penilaian semula model mungkin berbeza sama sekali. Plot serakan yang diplot daripada set data D menggambarkan situasi luar biasa di mana model empirikal sangat bergantung pada satu tindak balas ( X 8 = 19, Y 8 = 12.5). Model regresi sedemikian perlu dikira terutamanya dengan teliti. Jadi, plot taburan dan baki adalah alat penting untuk analisis regresi dan harus menjadi sebahagian daripadanya. Tanpa mereka, analisis regresi tidak boleh dipercayai.

nasi. 26. Plot baki untuk empat set data

Bagaimana untuk mengelakkan perangkap dalam analisis regresi:

  • Analisis kemungkinan hubungan antara pembolehubah X dan Y sentiasa bermula dengan scatterplot.
  • Sebelum mentafsir keputusan analisis regresi, semak syarat untuk kebolehgunaannya.
  • Plotkan baki berbanding pembolehubah bebas. Ini akan membolehkan untuk menentukan bagaimana model empirikal sepadan dengan hasil pemerhatian, dan untuk mengesan pelanggaran kestabilan varians.
  • Gunakan histogram, plot batang dan daun, plot kotak, dan plot taburan normal untuk menguji andaian taburan ralat normal.
  • Jika syarat kebolehgunaan kaedah kuasa dua terkecil tidak dipenuhi, gunakan kaedah alternatif (contohnya, model regresi kuadratik atau berbilang).
  • Jika syarat kebolehgunaan kaedah kuasa dua terkecil dipenuhi, adalah perlu untuk menguji hipotesis tentang kepentingan statistik bagi pekali regresi dan membina selang keyakinan yang mengandungi jangkaan matematik dan nilai tindak balas yang diramalkan.
  • Elakkan meramalkan nilai pembolehubah bersandar di luar julat pembolehubah tidak bersandar.
  • Perlu diingat bahawa kebergantungan statistik tidak selalu bersebab. Ingat bahawa korelasi antara pembolehubah tidak bermakna terdapat hubungan sebab akibat di antara mereka.

Ringkasan. Seperti yang ditunjukkan dalam gambarajah blok (Rajah 27), nota itu menerangkan model regresi linear mudah, syarat untuk kebolehgunaannya dan cara untuk menguji keadaan ini. Dipertimbangkan t-kriteria untuk menguji kepentingan statistik kecerunan regresi. Model regresi digunakan untuk meramalkan nilai pembolehubah bersandar. Satu contoh dianggap berkaitan dengan pilihan tempat untuk kedai runcit, di mana pergantungan volum jualan tahunan pada kawasan kedai dikaji. Maklumat yang diperoleh membolehkan anda memilih lokasi untuk kedai dengan lebih tepat dan meramalkan jualan tahunannya. Dalam nota berikut, perbincangan analisis regresi akan diteruskan, serta model regresi berbilang.

nasi. 27. Gambar rajah blok nota

Bahan daripada buku Levin et al. Perangkaan untuk pengurus digunakan. - M.: Williams, 2004. - hlm. 792–872

Jika pembolehubah bersandar adalah kategori, regresi logistik harus digunakan.