Mục đích của phân tích hồi quy. Phương pháp thống kê toán học

Mục đích chính của phân tích hồi quy bao gồm việc xác định hình thức phân tích của giao tiếp trong đó sự thay đổi trong đặc tính hiệu quả là do ảnh hưởng của một hoặc nhiều đặc điểm yếu tố và tập hợp tất cả các yếu tố khác cũng ảnh hưởng đến đặc tính hiệu quả được lấy làm giá trị không đổi và trung bình.
Vấn đề phân tích hồi quy:
a) Xác lập hình thức phụ thuộc. Về bản chất và hình thức của mối quan hệ giữa các hiện tượng, có sự phân biệt giữa hồi quy tuyến tính dương và phi tuyến và hồi quy tuyến tính và phi tuyến âm.
b) Xác định hàm hồi quy dưới dạng phương trình toán học loại này hay loại khác và xác lập mức độ ảnh hưởng của các biến giải thích đến biến phụ thuộc.
c) Ước lượng các giá trị chưa biết của biến phụ thuộc. Sử dụng hàm hồi quy, bạn có thể tái tạo các giá trị của biến phụ thuộc trong khoảng giá trị được chỉ định của các biến giải thích (tức là giải quyết vấn đề nội suy) hoặc đánh giá quá trình của quá trình nằm ngoài khoảng đã chỉ định (tức là, giải bài toán ngoại suy). Kết quả là ước tính giá trị của biến phụ thuộc.

Hồi quy cặp là phương trình biểu diễn mối quan hệ giữa hai biến y và x: , trong đó y là biến phụ thuộc (thuộc tính kết quả); x là một biến giải thích độc lập (hệ số tính năng).

Có hồi quy tuyến tính và phi tuyến tính.
Hồi quy tuyến tính: y = a + bx + ε
Hồi quy phi tuyến được chia thành hai loại: hồi quy phi tuyến đối với các biến giải thích có trong phân tích, nhưng tuyến tính đối với các tham số ước tính và hồi quy phi tuyến đối với các tham số ước tính.
Các hồi quy phi tuyến trong các biến giải thích:

Các hồi quy phi tuyến tính đối với các tham số ước tính: Việc xây dựng phương trình hồi quy bắt nguồn từ việc ước tính các tham số của nó. Để ước lượng các tham số của hồi quy tuyến tính theo các tham số, phương pháp bình phương tối thiểu (OLS) được sử dụng. Phương pháp bình phương tối thiểu cho phép thu được các ước tính tham số như vậy tại đó tổng độ lệch bình phương của các giá trị thực tế của đặc tính tổng hợp y so với các giá trị lý thuyết là tối thiểu, tức là.
.
Đối với các phương trình tuyến tính và phi tuyến có thể rút gọn về phương trình tuyến tính, hệ sau được giải cho a và b:

Bạn có thể sử dụng các công thức làm sẵn theo hệ thống này:

Mức độ chặt chẽ của mối liên hệ giữa các hiện tượng đang nghiên cứu được đánh giá bằng hệ số tuyến tính tương quan cặp đối với hồi quy tuyến tính:

và chỉ số tương quan - đối với hồi quy phi tuyến:

Chất lượng của mô hình được xây dựng sẽ được đánh giá bằng hệ số (chỉ số) xác định cũng như sai số trung bình của phép tính gần đúng.
Sai số gần đúng trung bình - độ lệch trung bình của giá trị tính toán so với giá trị thực tế:
.
Giới hạn cho phép của các giá trị không quá 8-10%.
Hệ số co giãn trung bình biểu thị bằng bao nhiêu phần trăm mà kết quả y sẽ thay đổi so với giá trị trung bình khi hệ số x thay đổi 1% so với giá trị trung bình của nó:
.

Mục đích của việc phân tích phương sai là phân tích phương sai của biến phụ thuộc:
,
tổng của các độ lệch bình phương là bao nhiêu;
- tổng các độ lệch bình phương do hồi quy (“được giải thích” hoặc “giai thừa”);
- tổng dư của bình phương độ lệch.
Tỷ lệ phương sai được giải thích bằng hồi quy trong phương sai tổng của đặc tính tổng y y được đặc trưng bởi hệ số (chỉ số) xác định R2:

Hệ số xác định là bình phương của hệ số hoặc chỉ số tương quan.

Kiểm định F - đánh giá chất lượng của phương trình hồi quy - bao gồm việc kiểm tra giả thuyết Không về mức độ không đáng kể về mặt thống kê của phương trình hồi quy và chỉ số về mức độ gần gũi của mối quan hệ. Để thực hiện điều này, một so sánh được thực hiện giữa thực tế F thực tế và các giá trị quan trọng trong bảng F (dạng bảng) của tiêu chí Fisher F. Thực tế F được xác định từ tỉ số giữa các giá trị của hệ số và phương sai dư tính theo bậc tự do:
,
trong đó n là số đơn vị dân số; m là số tham số của biến x.
Bảng F là giá trị lớn nhất có thể có của tiêu chí dưới tác động của các yếu tố ngẫu nhiên ở bậc tự do và mức ý nghĩa a cho trước. Mức ý nghĩa a là xác suất bác bỏ giả thuyết đúng, với điều kiện là nó đúng. Thông thường a được lấy bằng 0,05 hoặc 0,01.
Nếu bảng F< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >Thực tế, khi đó giả thuyết H o không bị bác bỏ và sự không có ý nghĩa thống kê cũng như độ tin cậy của phương trình hồi quy được thừa nhận.
Để đánh giá ý nghĩa thống kê của hồi quy và hệ số tương quan, bài kiểm tra t của Học sinh và khoảng tin cậy cho từng chỉ số sẽ được tính toán. Một giả thuyết được đưa ra về tính chất ngẫu nhiên của các chỉ số, tức là về sự khác biệt không đáng kể của chúng so với số 0. Việc đánh giá tầm quan trọng của hồi quy và hệ số tương quan bằng t-test của Sinh viên được thực hiện bằng cách so sánh giá trị của chúng với độ lớn của sai số ngẫu nhiên:
; ; .
Sai số ngẫu nhiên của các tham số hồi quy tuyến tính và hệ số tương quan được xác định theo công thức:



So sánh các giá trị thực tế và quan trọng (dạng bảng) của thống kê t - bảng t và t Fact - chúng ta chấp nhận hoặc bác bỏ giả thuyết H o.
Mối quan hệ giữa Fisher F-test và thống kê t-Student được thể hiện bằng đẳng thức

Nếu bảng t< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t là thực tế giả thuyết H o không bị bác bỏ và tính chất ngẫu nhiên của sự hình thành a, b or được thừa nhận.
Để tính khoảng tin cậy, chúng tôi xác định sai số D tối đa cho mỗi chỉ báo:
, .
Công thức tính khoảng tin cậy như sau:
; ;
; ;
Nếu số 0 nằm trong khoảng tin cậy, tức là Nếu giới hạn dưới là âm và giới hạn trên là dương thì tham số ước tính được lấy bằng 0 vì nó không thể nhận đồng thời cả giá trị dương và âm.
Giá trị dự báo được xác định bằng cách thay thế giá trị (dự báo) tương ứng vào phương trình hồi quy. Sai số chuẩn trung bình của dự báo được tính:
,
Ở đâu
và khoảng tin cậy cho dự báo được xây dựng:
; ;
Ở đâu .

Giải pháp ví dụ

Nhiệm vụ số 1. Đối với bảy vùng lãnh thổ của vùng Ural vào năm 199X, giá trị của hai đặc điểm đã được biết đến.
Bảng 1.
Yêu cầu: 1. Để mô tả sự phụ thuộc của y vào x, hãy tính tham số của các hàm số sau:
a) tuyến tính;
b) lũy thừa (trước tiên bạn phải thực hiện quy trình tuyến tính hóa các biến bằng cách lấy logarit của cả hai phần);
c) mang tính trình diễn;
d) một hyperbol đều (bạn cũng cần tìm ra cách tuyến tính hóa trước mô hình này).
2. Đánh giá từng mô hình bằng cách sử dụng sai số gần đúng trung bình và phép kiểm F của Fisher.

Giải pháp (Phương án số 1)

Để tính các tham số a và b của hồi quy tuyến tính (có thể thực hiện tính toán bằng máy tính).
giải hệ phương trình chuẩn tắc cho MỘTb:
Dựa vào số liệu ban đầu, chúng tôi tính toán :
y x yx x 2 năm 2 A tôi
tôi 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Tổng cộng 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Thứ Tư. nghĩa (Tổng cộng/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
S 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Phương trình hồi quy: y = 76,88 - 0,35X. Với mức tăng lương trung bình hàng ngày thêm 1 chà. tỷ trọng chi phí mua thực phẩm giảm trung bình 0,35 điểm phần trăm.
Hãy tính hệ số tương quan cặp tuyến tính:

Kết nối vừa phải, nghịch đảo.
Hãy xác định hệ số xác định:

Sự thay đổi 12,7% trong kết quả được giải thích bởi sự thay đổi của hệ số x. Thay thế các giá trị thực tế vào phương trình hồi quy X, hãy xác định các giá trị lý thuyết (được tính toán) . Hãy tìm giá trị của sai số gần đúng trung bình:

Trung bình, giá trị tính toán sai lệch so với thực tế 8,1%.
Hãy tính tiêu chí F:

kể từ 1< F < ¥ , cần được xem xét F -1 .
Giá trị kết quả cho thấy sự cần thiết phải chấp nhận giả thuyết Nhưng ôi tính chất ngẫu nhiên của sự phụ thuộc đã xác định và ý nghĩa thống kê của các tham số của phương trình và chỉ số về mức độ gần gũi của kết nối.
1b. Việc xây dựng mô hình nguồn được bắt đầu bằng quy trình tuyến tính hóa các biến. Trong ví dụ này, tuyến tính hóa được thực hiện bằng cách lấy logarit của cả hai vế của phương trình:


Ở đâuY=lg(y), X=lg(x), C=lg(a).

Để tính toán, chúng tôi sử dụng dữ liệu trong bảng. 1.3.

Bảng 1.3

Y X YX Y2 X 2 A tôi
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Tổng cộng 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Giá trị trung bình 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Hãy tính C và b:


Chúng ta nhận được một phương trình tuyến tính: .
Sau khi thực hiện thế năng của nó, chúng tôi nhận được:

Thay thế các giá trị thực tế vào phương trình này X, chúng tôi thu được các giá trị lý thuyết của kết quả. Sử dụng chúng, chúng ta sẽ tính toán các chỉ số: độ chặt của kết nối - chỉ số tương quan và sai số xấp xỉ trung bình

Các đặc điểm của mô hình định luật lũy thừa chỉ ra rằng nó mô tả mối quan hệ tốt hơn một chút so với hàm tuyến tính.

1c. Xây dựng phương trình của đường cong hàm mũ

trước đó là quy trình tuyến tính hóa các biến bằng cách lấy logarit của cả hai vế của phương trình:

Để tính toán, chúng tôi sử dụng dữ liệu bảng.

Y x yx Y2 x 2 A tôi
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Tổng cộng 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Thứ Tư. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Giá trị của tham số hồi quy A và TRONG lên tới:


Phương trình tuyến tính thu được là: . Chúng ta hãy xác định phương trình kết quả và viết nó ở dạng thông thường:

Chúng ta sẽ đánh giá mức độ gần gũi của kết nối thông qua chỉ số tương quan:

Mục đích của phân tích hồi quy là đo lường mối quan hệ giữa một biến phụ thuộc và một (phân tích hồi quy theo cặp) hoặc nhiều (nhiều) biến độc lập. Các biến độc lập còn được gọi là biến nhân tố, biến giải thích, biến quyết định, biến hồi quy và biến dự đoán.

Biến phụ thuộc đôi khi được gọi là biến được xác định, biến được giải thích hoặc biến “phản ứng”. Việc sử dụng rộng rãi phân tích hồi quy trong nghiên cứu thực nghiệm không chỉ vì nó là một công cụ thuận tiện để kiểm tra các giả thuyết. Hồi quy, đặc biệt là hồi quy bội, là một phương pháp hiệu quả để lập mô hình và dự báo.

Hãy bắt đầu giải thích các nguyên tắc làm việc với phân tích hồi quy bằng một phương pháp đơn giản hơn - phương pháp cặp.

Phân tích hồi quy theo cặp

Các bước đầu tiên khi sử dụng phân tích hồi quy sẽ gần giống với những bước chúng ta đã thực hiện khi tính hệ số tương quan. Ba điều kiện chính để đạt được hiệu quả của phân tích tương quan bằng phương pháp Pearson - phân phối chuẩn của các biến, đo lường khoảng cách của các biến, mối quan hệ tuyến tính giữa các biến - cũng phù hợp với hồi quy bội. Theo đó, ở giai đoạn đầu tiên, các biểu đồ phân tán được xây dựng, phân tích thống kê và mô tả các biến được thực hiện và đường hồi quy được tính toán. Như trong khuôn khổ phân tích tương quan, các đường hồi quy được xây dựng bằng phương pháp bình phương tối thiểu.

Để minh họa rõ hơn sự khác biệt giữa hai phương pháp phân tích dữ liệu, chúng ta hãy quay lại ví dụ đã được thảo luận với các biến “hỗ trợ SPS” và “tỷ lệ dân số nông thôn”. Dữ liệu nguồn giống hệt nhau. Sự khác biệt trong biểu đồ phân tán là ở chỗ trong phân tích hồi quy, việc vẽ đồ thị biến phụ thuộc là chính xác - trong trường hợp của chúng tôi là “hỗ trợ SPS” trên trục Y, trong khi trong phân tích tương quan, điều này không thành vấn đề. Sau khi làm sạch các ngoại lệ, biểu đồ phân tán trông như thế này:

Ý tưởng cơ bản của phân tích hồi quy là, có xu hướng chung cho các biến - dưới dạng đường hồi quy - có thể dự đoán giá trị của biến phụ thuộc, dựa trên các giá trị của biến độc lập.

Hãy tưởng tượng một hàm tuyến tính toán học thông thường. Bất kỳ đường thẳng nào trong không gian Euclide đều có thể được mô tả bằng công thức:

trong đó a là hằng số xác định độ dịch chuyển dọc theo trục tọa độ; b là hệ số xác định góc nghiêng của đường thẳng.

Biết hệ số góc và hằng số, bạn có thể tính (dự đoán) giá trị của y cho bất kỳ x nào.

Hàm đơn giản nhất này hình thành nên cơ sở của mô hình phân tích hồi quy với lưu ý rằng chúng ta sẽ không dự đoán chính xác giá trị của y mà trong một khoảng tin cậy nhất định, tức là. khoảng.

Hằng số là điểm giao nhau của đường hồi quy và trục y (giao điểm F, thường được ký hiệu là “điểm chặn” trong các gói thống kê). Trong ví dụ của chúng tôi về việc bỏ phiếu cho Liên minh các lực lượng cánh hữu, giá trị làm tròn của nó sẽ là 10,55. Hệ số góc b sẽ xấp xỉ -0,1 (như trong phân tích tương quan, dấu hiệu cho biết loại kết nối - trực tiếp hoặc nghịch đảo). Như vậy, mô hình thu được sẽ có dạng SP C = -0,1 x Sel. chúng ta. + 10,55.

ATP = -0,10 x 47 + 10,55 = 5,63.

Sự khác biệt giữa giá trị ban đầu và giá trị dự đoán được gọi là phần còn lại (chúng tôi đã gặp thuật ngữ này, thuật ngữ cơ bản cho thống kê, khi phân tích các bảng dự phòng). Vì vậy, đối với trường hợp của “Cộng hòa Adygea”, phần còn lại sẽ bằng 3,92 - 5,63 = -1,71. Giá trị mô-đun của phần còn lại càng lớn thì giá trị dự đoán càng kém thành công.

Chúng tôi tính toán các giá trị dự đoán và số dư cho mọi trường hợp:
Đang xảy ra Đa ngôi xuông. chúng ta. cám ơn

(nguyên bản)

cám ơn

(dự đoán)

Thức ăn thừa
Cộng hòa Adygea 47 3,92 5,63 -1,71 -
Cộng hòa Altai 76 5,4 2,59 2,81
Cộng hòa Bashkortostan 36 6,04 6,78 -0,74
Cộng hòa Buryatia 41 8,36 6,25 2,11
Cộng hòa Dagestan 59 1,22 4,37 -3,15
Cộng hòa Ingushetia 59 0,38 4,37 3,99
Vân vân.

Phân tích tỷ lệ giá trị ban đầu và giá trị dự đoán nhằm đánh giá chất lượng của mô hình kết quả và khả năng dự đoán của nó. Một trong những chỉ số chính của thống kê hồi quy là hệ số tương quan bội R - hệ số tương quan giữa giá trị ban đầu và giá trị dự đoán của biến phụ thuộc. Trong phân tích hồi quy theo cặp, nó bằng hệ số tương quan Pearson thông thường giữa các biến phụ thuộc và biến độc lập, trong trường hợp của chúng tôi - 0,63. Để diễn giải bội số R một cách có ý nghĩa, nó phải được chuyển đổi thành hệ số xác định. Điều này được thực hiện theo cách tương tự như trong phân tích tương quan - bằng bình phương. Hệ số xác định R bình phương (R 2) thể hiện tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi (các) biến độc lập.

Trong trường hợp của chúng tôi, R 2 = 0,39 (0,63 2); điều này có nghĩa là biến “tỷ lệ dân số nông thôn” giải thích khoảng 40% sự thay đổi của biến “hỗ trợ SPS”. Hệ số xác định càng lớn thì chất lượng của mô hình càng cao.

Một chỉ số khác về chất lượng mô hình là sai số chuẩn của ước tính. Đây là thước đo mức độ phân tán của các điểm xung quanh đường hồi quy. Thước đo mức độ lây lan của các biến khoảng là độ lệch chuẩn. Theo đó, sai số chuẩn của ước tính là độ lệch chuẩn của phân bố phần dư. Giá trị của nó càng cao thì độ phân tán càng lớn và mô hình càng tệ. Trong trường hợp của chúng tôi, sai số chuẩn là 2,18. Chính với mức này mà mô hình của chúng tôi sẽ “trung bình có sai sót” khi dự đoán giá trị của biến “hỗ trợ SPS”.

Thống kê hồi quy cũng bao gồm phân tích phương sai. Với sự trợ giúp của nó, chúng tôi tìm ra: 1) tỷ lệ biến thiên (độ phân tán) của biến phụ thuộc được giải thích bởi biến độc lập; 2) phần dư của biến phụ thuộc chiếm tỷ lệ bao nhiêu (phần không giải thích được); 3) tỷ lệ của hai đại lượng này là bao nhiêu (/"-tỷ lệ). Thống kê phân tán đặc biệt quan trọng đối với các nghiên cứu mẫu - nó cho thấy khả năng tồn tại mối quan hệ giữa các biến độc lập và biến phụ thuộc trong tổng thể. Tuy nhiên, đối với các nghiên cứu liên tục (như trong ví dụ của chúng tôi), kết quả nghiên cứu phân tích phương sai không hữu ích. Trong trường hợp này, họ kiểm tra xem liệu mô hình thống kê được xác định có phải là do sự kết hợp của các trường hợp ngẫu nhiên gây ra hay không, nó đặc trưng như thế nào đối với sự phức tạp của các điều kiện trong đó Dân số đang được kiểm tra đã được định vị, tức là người ta xác định rằng kết quả thu được không đúng đối với một tổng thể chung rộng hơn nào đó, mà là mức độ đều đặn của nó, không bị ảnh hưởng ngẫu nhiên.

Trong trường hợp của chúng tôi, số liệu thống kê ANOVA như sau:

SS df bệnh đa xơ cứng F nghĩa
Thụt lùi. 258,77 1,00 258,77 54,29 0.000000001
còn lại 395,59 83,00 L,11
Tổng cộng 654,36

Tỷ lệ F là 54,29 có ý nghĩa ở mức 0,0000000001. Theo đó, chúng ta có thể tự tin bác bỏ giả thuyết không (rằng mối quan hệ mà chúng ta phát hiện ra là do ngẫu nhiên).

Tiêu chí t thực hiện chức năng tương tự, nhưng liên quan đến các hệ số hồi quy (góc và giao điểm F). Sử dụng tiêu chí /, chúng tôi kiểm tra giả thuyết rằng trong dân số nói chung, các hệ số hồi quy bằng 0. Trong trường hợp của chúng tôi, một lần nữa chúng tôi có thể tự tin bác bỏ giả thuyết không.

Phân tích hồi quy đa biến

Mô hình hồi quy bội gần giống với mô hình hồi quy cặp đôi; sự khác biệt duy nhất là một số biến độc lập được đưa vào hàm tuyến tính một cách tuần tự:

Y = b1X1 + b2X2 + …+ bpXp + a.

Nếu có nhiều hơn hai biến độc lập, chúng ta không thể có được ý tưởng trực quan về mối quan hệ của chúng; về mặt này, hồi quy bội ít “trực quan” hơn so với hồi quy theo cặp. Khi bạn có hai biến độc lập, việc hiển thị dữ liệu trong biểu đồ phân tán 3D có thể hữu ích. Trong các gói phần mềm thống kê chuyên nghiệp (ví dụ: Statistica) có một tùy chọn để xoay biểu đồ ba chiều, cho phép bạn thể hiện rõ ràng cấu trúc của dữ liệu.

Khi làm việc với hồi quy bội, trái ngược với hồi quy cặp, cần xác định thuật toán phân tích. Thuật toán tiêu chuẩn bao gồm tất cả các yếu tố dự đoán có sẵn trong mô hình hồi quy cuối cùng. Thuật toán từng bước bao gồm việc đưa vào (loại trừ) tuần tự các biến độc lập dựa trên “trọng số” giải thích của chúng. Phương pháp từng bước phù hợp khi có nhiều biến độc lập; nó “làm sạch” mô hình của các yếu tố dự đoán thực sự yếu, làm cho mô hình trở nên nhỏ gọn và súc tích hơn.

Một điều kiện bổ sung cho tính đúng đắn của hồi quy bội (cùng với khoảng, tính chuẩn và tính tuyến tính) là không có hiện tượng đa cộng tuyến - sự hiện diện của mối tương quan chặt chẽ giữa các biến độc lập.

Việc giải thích thống kê hồi quy bội bao gồm tất cả các yếu tố mà chúng tôi đã xem xét trong trường hợp hồi quy theo cặp. Ngoài ra, còn có các thành phần quan trọng khác đối với số liệu thống kê của phân tích hồi quy bội.

Chúng tôi sẽ minh họa công việc bằng hồi quy bội bằng cách sử dụng ví dụ về kiểm tra các giả thuyết giải thích sự khác biệt về mức độ hoạt động bầu cử giữa các khu vực của Nga. Các nghiên cứu thực nghiệm cụ thể cho thấy mức độ đi bỏ phiếu của cử tri bị ảnh hưởng bởi:

Yếu tố quốc gia (biến số “dân số Nga”; được tính bằng tỷ lệ dân số Nga trong các thực thể cấu thành của Liên bang Nga). Người ta cho rằng sự gia tăng tỷ lệ dân số Nga sẽ dẫn đến tỷ lệ cử tri đi bầu giảm;

Yếu tố đô thị hóa (biến “dân số đô thị”; được vận hành theo tỷ lệ dân số đô thị trong các thực thể cấu thành của Liên bang Nga; chúng tôi đã làm việc với yếu tố này như một phần của phân tích tương quan). Người ta cho rằng sự gia tăng tỷ lệ dân số thành thị cũng dẫn đến giảm tỷ lệ cử tri đi bầu.

Biến phụ thuộc - “cường độ hoạt động bầu cử” (“tích cực”) được vận hành thông qua dữ liệu tỷ lệ cử tri đi bỏ phiếu trung bình theo khu vực trong các cuộc bầu cử liên bang từ năm 1995 đến năm 2003. Bảng dữ liệu ban đầu cho hai biến độc lập và một biến phụ thuộc sẽ như sau:

Đang xảy ra Biến
Tài sản. Gor. chúng ta. Nga. chúng ta.
Cộng hòa Adygea 64,92 53 68
Cộng hòa Altai 68,60 24 60
Cộng hòa Buryatia 60,75 59 70
Cộng hòa Dagestan 79,92 41 9
Cộng hòa Ingushetia 75,05 41 23
Cộng hòa Kalmykia 68,52 39 37
Cộng hòa Karachay-Cherkess 66,68 44 42
Cộng hòa Karelia 61,70 73 73
Cộng hòa Komi 59,60 74 57
Cộng hòa Mari El 65,19 62 47

Vân vân. (sau khi làm sạch khí thải, vẫn còn 83 trường hợp trong số 88 trường hợp)

Thống kê mô tả chất lượng của mô hình:

1. Bội số R = 0,62; L-vuông = 0,38. Do đó, yếu tố quốc gia và yếu tố đô thị hóa cùng nhau giải thích khoảng 38% sự biến thiên của biến “hoạt động bầu cử”.

2. Sai số trung bình là 3,38. Đây chính xác là mức độ “sai trung bình” của mô hình được xây dựng khi dự đoán mức độ cử tri đi bỏ phiếu.

3. /l-tỷ lệ của biến thể giải thích được và không giải thích được là 25,2 ở mức 0,000000003. Giả thuyết không về tính ngẫu nhiên của các mối quan hệ đã xác định bị bác bỏ.

4. Tiêu chí/cho hệ số hằng số và hồi quy của các biến “dân số thành thị” và “dân số Nga” có ý nghĩa ở mức 0,0000001; lần lượt là 0,00005 và 0,007. Giả thuyết không cho rằng các hệ số là ngẫu nhiên bị bác bỏ.

Số liệu thống kê hữu ích bổ sung trong việc phân tích mối quan hệ giữa giá trị ban đầu và giá trị dự đoán của biến phụ thuộc là khoảng cách Mahalanobis và khoảng cách Cook. Đầu tiên là thước đo tính duy nhất của trường hợp (cho thấy mức độ kết hợp giá trị của tất cả các biến độc lập trong một trường hợp nhất định khác với giá trị trung bình của tất cả các biến độc lập đồng thời). Thứ hai là thước đo mức độ ảnh hưởng của vụ án. Các quan sát khác nhau có tác động khác nhau đến độ dốc của đường hồi quy và khoảng cách của Cook có thể được sử dụng để so sánh chúng trên chỉ báo này. Điều này có thể hữu ích khi loại bỏ các ngoại lệ (một ngoại lệ có thể được coi là một trường hợp có ảnh hưởng quá lớn).

Trong ví dụ của chúng tôi, các trường hợp độc đáo và có ảnh hưởng bao gồm Dagestan.

Đang xảy ra Nguyên bản

giá trị

Predska

giá trị

Thức ăn thừa Khoảng cách

mahalanobis

Khoảng cách
Adygea 64,92 66,33 -1,40 0,69 0,00
Cộng hòa Altai 68,60 69.91 -1,31 6,80 0,01
Cộng hòa Buryatia 60,75 65,56 -4,81 0,23 0,01
Cộng hòa Dagestan 79,92 71,01 8,91 10,57 0,44
Cộng hòa Ingushetia 75,05 70,21 4,84 6,73 0,08
Cộng hòa Kalmykia 68,52 69,59 -1,07 4,20 0,00

Bản thân mô hình hồi quy có các tham số: Giao điểm Y (hằng số) = 75,99; b (ngang) = -0,1; Kommersant (tiếng Nga) = -0,06. Công thức cuối cùng.

Tính năng chính của phân tích hồi quy: với sự trợ giúp của nó, bạn có thể có được thông tin cụ thể về hình thức và tính chất của mối quan hệ giữa các biến đang nghiên cứu.

Trình tự các giai đoạn phân tích hồi quy

Chúng ta hãy xem xét ngắn gọn các giai đoạn của phân tích hồi quy.

    Xây dựng vấn đề. Ở giai đoạn này, các giả thuyết sơ bộ về sự phụ thuộc của các hiện tượng đang nghiên cứu được hình thành.

    Định nghĩa các biến phụ thuộc và độc lập (giải thích).

    Thu thập dữ liệu thống kê. Dữ liệu phải được thu thập cho từng biến có trong mô hình hồi quy.

    Xây dựng giả thuyết về dạng kết nối (đơn giản hoặc bội số, tuyến tính hoặc phi tuyến).

    Sự định nghĩa hàm hồi quy (bao gồm việc tính toán các giá trị số của các tham số của phương trình hồi quy)

    Đánh giá độ chính xác của phân tích hồi quy.

    Giải thích kết quả thu được. Kết quả phân tích hồi quy thu được được so sánh với các giả thuyết ban đầu. Tính chính xác và độ tin cậy của kết quả thu được được đánh giá.

    Dự đoán các giá trị chưa biết của một biến phụ thuộc.

Sử dụng phân tích hồi quy, có thể giải quyết vấn đề dự báo và phân loại. Các giá trị dự đoán được tính bằng cách thay thế các giá trị của các biến giải thích vào phương trình hồi quy. Vấn đề phân loại được giải quyết theo cách này: đường hồi quy chia toàn bộ tập hợp đối tượng thành hai lớp và phần của tập hợp có giá trị hàm lớn hơn 0 thuộc về một lớp và phần có giá trị nhỏ hơn 0 thuộc về một lớp khác.

Vấn đề phân tích hồi quy

Hãy xem xét các nhiệm vụ chính của phân tích hồi quy: thiết lập dạng phụ thuộc, xác định hàm hồi quy, ước tính các giá trị chưa biết của biến phụ thuộc.

Thiết lập hình thức phụ thuộc.

Bản chất và hình thức của mối quan hệ giữa các biến có thể hình thành các loại hồi quy sau:

    hồi quy tuyến tính dương (thể hiện ở mức tăng trưởng đồng đều của hàm);

    hồi quy tăng đều dương;

    hồi quy tăng đều dương;

    hồi quy tuyến tính âm (được biểu thị bằng sự suy giảm đồng đều trong hàm);

    hồi quy giảm dần đều theo chiều âm;

    hồi quy âm giảm đều.

Tuy nhiên, các giống được mô tả thường không được tìm thấy ở dạng thuần khiết mà ở dạng kết hợp với nhau. Trong trường hợp này, chúng ta nói về các hình thức hồi quy kết hợp.

Định nghĩa hàm hồi quy.

Nhiệm vụ thứ hai là xác định ảnh hưởng của các yếu tố hoặc nguyên nhân chính đến biến phụ thuộc, các yếu tố khác bằng nhau và loại trừ ảnh hưởng của các yếu tố ngẫu nhiên đến biến phụ thuộc. Hàm hồi quyđược định nghĩa dưới dạng một phương trình toán học thuộc loại này hay loại khác.

Ước tính các giá trị chưa biết của biến phụ thuộc.

Giải pháp cho vấn đề này là giải quyết vấn đề thuộc một trong các loại sau:

    Ước tính các giá trị của biến phụ thuộc trong khoảng được xem xét của dữ liệu ban đầu, tức là. giá trị bị mất; trong trường hợp này, vấn đề nội suy được giải quyết.

    Ước tính giá trị tương lai của biến phụ thuộc, tức là tìm các giá trị nằm ngoài khoảng quy định của dữ liệu nguồn; trong trường hợp này, vấn đề ngoại suy được giải quyết.

Cả hai vấn đề đều được giải quyết bằng cách thay thế các ước tính tham số tìm được cho giá trị của các biến độc lập vào phương trình hồi quy. Kết quả của việc giải phương trình là ước tính giá trị của biến mục tiêu (phụ thuộc).

Chúng ta hãy xem xét một số giả định mà phân tích hồi quy dựa vào.

Giả định tuyến tính, tức là mối quan hệ giữa các biến đang được xem xét được giả định là tuyến tính. Vì vậy, trong ví dụ này, chúng tôi đã vẽ biểu đồ phân tán và có thể thấy mối quan hệ tuyến tính rõ ràng. Nếu, trên sơ đồ phân tán của các biến, chúng ta thấy rõ ràng không có mối quan hệ tuyến tính, tức là. Nếu có mối quan hệ phi tuyến thì nên sử dụng phương pháp phân tích phi tuyến.

Giả định bình thường thức ăn thừa. Nó giả định rằng sự phân bố chênh lệch giữa giá trị dự đoán và giá trị quan sát là bình thường. Để xác định trực quan bản chất của phân phối, bạn có thể sử dụng biểu đồ thức ăn thừa.

Khi sử dụng phân tích hồi quy, hạn chế chính của nó cần được xem xét. Nó bao gồm thực tế là phân tích hồi quy cho phép chúng ta chỉ phát hiện các phần phụ thuộc chứ không phát hiện các kết nối nằm bên dưới các phần phụ thuộc này.

Phân tích hồi quy cho phép bạn ước tính mức độ mối quan hệ giữa các biến bằng cách tính giá trị ước tính của một biến dựa trên một số giá trị đã biết.

Phương trình hồi quy.

Phương trình hồi quy trông như thế này: Y=a+b*X

Sử dụng phương trình này, biến Y được biểu thị dưới dạng hằng số a và độ dốc của đường (hoặc độ dốc) b, nhân với giá trị của biến X. Hằng số a còn được gọi là số hạng chặn và độ dốc là hệ số hồi quy hoặc hệ số B.

Trong hầu hết các trường hợp (nếu không phải luôn luôn) có sự phân tán nhất định các quan sát liên quan đến đường hồi quy.

còn lại là độ lệch của một điểm (quan sát) so với đường hồi quy (giá trị dự đoán).

Để giải quyết vấn đề phân tích hồi quy trong MS Excel, hãy chọn từ menu Dịch vụ"Gói phân tích" và công cụ phân tích hồi quy. Chúng tôi đặt các khoảng đầu vào X và Y. Khoảng đầu vào Y là phạm vi dữ liệu được phân tích phụ thuộc, nó phải bao gồm một cột. Khoảng đầu vào X là phạm vi dữ liệu độc lập cần được phân tích. Số phạm vi đầu vào không được vượt quá 16.

Ở đầu ra của quy trình trong phạm vi đầu ra, chúng tôi nhận được báo cáo được đưa ra trong bảng 8.3a-8.3v.

KẾT LUẬN KẾT QUẢ

Bảng 8.3a. Thống kê hồi quy

Thống kê hồi quy

số nhiều R

Quảng trường R

Bình phương R chuẩn hóa

Lỗi tiêu chuẩn

Quan sát

Trước tiên chúng ta hãy nhìn vào phần trên cùng của các tính toán được trình bày trong bảng 8.3a, - thống kê hồi quy.

Kích cỡ Quảng trường R, còn được gọi là thước đo độ chắc chắn, đặc trưng cho chất lượng của đường hồi quy thu được. Chất lượng này được thể hiện bằng mức độ tương ứng giữa dữ liệu nguồn và mô hình hồi quy (dữ liệu tính toán). Thước đo của sự chắc chắn luôn nằm trong khoảng.

Trong hầu hết các trường hợp giá trị Quảng trường R nằm giữa các giá trị này, được gọi là cực trị, tức là giữa số không và một.

Nếu giá trị Quảng trường R gần thống nhất, điều này có nghĩa là mô hình được xây dựng giải thích được hầu hết sự biến thiên của các biến tương ứng. Ngược lại, ý nghĩa Quảng trường R, gần bằng 0, có nghĩa là mô hình được xây dựng có chất lượng kém.

Trong ví dụ của chúng tôi, thước đo độ chắc chắn là 0,99673, cho thấy đường hồi quy rất phù hợp với dữ liệu gốc.

R số nhiều - hệ số tương quan bội R – biểu thị mức độ phụ thuộc của biến độc lập (X) và biến phụ thuộc (Y).

số nhiều R bằng căn bậc hai của hệ số xác định, đại lượng này lấy các giá trị trong khoảng từ 0 đến một.

Trong phân tích hồi quy tuyến tính đơn giản R số nhiều bằng hệ số tương quan Pearson. Thật sự, R số nhiều trong trường hợp của chúng tôi, nó bằng hệ số tương quan Pearson từ ví dụ trước (0,998364).

Bảng 8.3b. Hệ số hồi quy

Tỷ lệ cược

Lỗi tiêu chuẩn

thống kê t

Giao lộ chữ Y

Biến X 1

* Một phiên bản rút gọn của các tính toán được cung cấp

Bây giờ hãy xem xét phần giữa của các tính toán được trình bày trong bảng 8.3b. Ở đây cho hệ số hồi quy b (2.305454545) và độ dịch chuyển dọc theo trục tọa độ, tức là. hằng số a (2.694545455).

Dựa trên tính toán, chúng ta có thể viết phương trình hồi quy như sau:

Y= x*2.305454545+2.694545455

Chiều hướng của mối quan hệ giữa các biến được xác định dựa vào dấu (âm hoặc dương) của các hệ số hồi quy (hệ số b).

Nếu dấu của hệ số hồi quy dương thì mối quan hệ giữa biến phụ thuộc và biến độc lập sẽ dương. Trong trường hợp của chúng tôi, dấu của hệ số hồi quy là dương, do đó, mối quan hệ cũng dương.

Nếu dấu của hệ số hồi quy âm thì mối quan hệ giữa biến phụ thuộc và biến độc lập là âm (nghịch đảo).

TRONG bảng 8.3c. kết quả đầu ra được trình bày thức ăn thừa. Để các kết quả này xuất hiện trong báo cáo, bạn phải kích hoạt hộp kiểm “Dư lượng” khi chạy công cụ “Hồi quy”.

RÚT TIỀN Phần còn lại

Bảng 8.3c. Thức ăn thừa

Quan sát

Dự đoán Y

Thức ăn thừa

Số dư tiêu chuẩn

Sử dụng phần này của báo cáo, chúng ta có thể thấy độ lệch của từng điểm so với đường hồi quy được xây dựng. Giá trị tuyệt đối lớn nhất phần còn lại trong trường hợp của chúng tôi - 0,778, nhỏ nhất - 0,043. Để diễn giải những dữ liệu này tốt hơn, chúng tôi sẽ sử dụng biểu đồ của dữ liệu gốc và đường hồi quy được xây dựng được trình bày trong cơm. 8.3. Như bạn có thể thấy, đường hồi quy được “khớp” khá chính xác với các giá trị của dữ liệu gốc.

Cần lưu ý rằng ví dụ đang được xem xét khá đơn giản và không phải lúc nào cũng có thể xây dựng được đường hồi quy tuyến tính một cách định tính.

Cơm. 8.3. Dữ liệu nguồn và đường hồi quy

Vấn đề ước tính giá trị tương lai chưa biết của biến phụ thuộc dựa trên các giá trị đã biết của biến độc lập vẫn chưa được xem xét, tức là. vấn đề dự báo.

Có phương trình hồi quy, bài toán dự báo được rút gọn thành giải phương trình Y= x*2.305454545+2.694545455 với các giá trị đã biết của x. Kết quả dự đoán biến phụ thuộc Y trước 6 bước được trình bày trong bảng 8.4.

Bảng 8.4. Kết quả dự báo biến Y

Y(dự đoán)

Do đó, nhờ sử dụng phân tích hồi quy trong Microsoft Excel, chúng tôi:

    xây dựng phương trình hồi quy;

    thiết lập dạng phụ thuộc và hướng kết nối giữa các biến - hồi quy tuyến tính dương, được thể hiện ở sự tăng trưởng đồng đều của hàm;

    thiết lập hướng của mối quan hệ giữa các biến;

    đánh giá chất lượng của đường hồi quy thu được;

    có thể thấy độ lệch của dữ liệu được tính toán so với dữ liệu của tập hợp ban đầu;

    giá trị dự đoán trong tương lai của biến phụ thuộc.

Nếu như hàm hồi quyđược xác định, giải thích và chứng minh, đồng thời đánh giá độ chính xác của phân tích hồi quy đáp ứng yêu cầu, mô hình được xây dựng và các giá trị dự đoán có thể được coi là có đủ độ tin cậy.

Các giá trị dự đoán thu được theo cách này là các giá trị trung bình có thể dự kiến ​​được.

Trong công việc này, chúng tôi đã xem xét các đặc điểm chính thống kê mô tả và trong số đó có những khái niệm như giá trị trung bình,Trung bình,tối đa,tối thiểu và các đặc điểm khác của biến thể dữ liệu.

Khái niệm này cũng đã được thảo luận ngắn gọn khí thải. Các đặc điểm được xem xét liên quan đến cái gọi là phân tích dữ liệu thăm dò; kết luận của nó có thể không áp dụng cho dân số nói chung mà chỉ áp dụng cho một mẫu dữ liệu. Phân tích dữ liệu thăm dò được sử dụng để đưa ra kết luận chính và hình thành các giả thuyết về dân số.

Những vấn đề cơ bản về phân tích tương quan và hồi quy, nhiệm vụ và khả năng sử dụng thực tế của chúng cũng đã được thảo luận.

Các khái niệm về tương quan và hồi quy có liên quan trực tiếp. Có nhiều kỹ thuật tính toán phổ biến trong phân tích tương quan và hồi quy. Chúng được sử dụng để xác định mối quan hệ nhân quả giữa các hiện tượng và quá trình. Tuy nhiên, nếu phân tích tương quan cho phép chúng ta ước tính cường độ và hướng của kết nối ngẫu nhiên, sau đó Phân tích hồi quy- cũng là một dạng lệ thuộc.

Hồi quy có thể là:

a) Tùy theo số lượng hiện tượng (biến):

Đơn giản (hồi quy giữa hai biến);

bội số (hồi quy giữa biến phụ thuộc (y) và một số biến giải thích (x1, x2...xn);

b) Tùy theo hình thức:

Tuyến tính (được hiển thị bằng hàm tuyến tính và có mối quan hệ tuyến tính giữa các biến đang được nghiên cứu);

Phi tuyến tính (được hiển thị bằng hàm phi tuyến tính; mối quan hệ giữa các biến đang nghiên cứu là phi tuyến tính);

c) theo bản chất của mối quan hệ giữa các biến được đưa vào xem xét:

Tích cực (giá trị của biến giải thích tăng dẫn đến giá trị của biến phụ thuộc tăng và ngược lại);

Âm (khi giá trị của biến giải thích tăng thì giá trị của biến giải thích giảm);

d) theo loại:

Trực tiếp (trong trường hợp này, nguyên nhân có tác động trực tiếp đến kết quả, tức là biến phụ thuộc và biến giải thích có liên quan trực tiếp với nhau);

Gián tiếp (biến giải thích có tác động gián tiếp thông qua một phần ba hoặc một số biến khác đến biến phụ thuộc);

Sai (hồi quy vô nghĩa) - có thể phát sinh với cách tiếp cận hời hợt và hình thức đối với các quá trình và hiện tượng đang được nghiên cứu. Một ví dụ về một điều vô nghĩa là một phép hồi quy thiết lập mối liên hệ giữa việc giảm lượng rượu tiêu thụ ở nước ta và việc giảm doanh số bán bột giặt.

Khi tiến hành phân tích hồi quy, các nhiệm vụ chính sau được giải quyết:

1. Xác định hình thức phụ thuộc.

2. Định nghĩa hàm hồi quy. Để làm điều này, một phương trình toán học thuộc loại này hay loại khác được sử dụng, trước tiên, cho phép thiết lập xu hướng thay đổi chung của biến phụ thuộc và thứ hai là tính toán ảnh hưởng của biến giải thích (hoặc một số biến) đến biến phụ thuộc.

3. Ước tính các giá trị chưa biết của biến phụ thuộc. Mối quan hệ toán học thu được (phương trình hồi quy) cho phép bạn xác định giá trị của biến phụ thuộc cả trong khoảng giá trị được chỉ định của các biến giải thích và ngoài nó. Trong trường hợp sau, phân tích hồi quy đóng vai trò là một công cụ hữu ích trong việc dự đoán những thay đổi trong các quá trình và hiện tượng kinh tế xã hội (với điều kiện là các xu hướng và mối quan hệ hiện tại vẫn được duy trì). Thông thường, khoảng thời gian thực hiện dự báo được chọn không quá một nửa khoảng thời gian thực hiện quan sát các chỉ số ban đầu. Có thể thực hiện cả dự báo thụ động, giải quyết vấn đề ngoại suy và dự báo chủ động, suy luận theo sơ đồ “nếu…, thì” nổi tiếng và thay thế các giá trị khác nhau thành một hoặc nhiều biến hồi quy giải thích .



xây dựng hồi quy một phương pháp đặc biệt gọi là phương pháp bình phương tối thiểu. Phương pháp này có ưu điểm so với các phương pháp làm mịn khác: xác định toán học tương đối đơn giản các tham số cần thiết và chứng minh lý thuyết tốt từ quan điểm xác suất.

Khi chọn mô hình hồi quy, một trong những yêu cầu thiết yếu đối với nó là đảm bảo tính đơn giản nhất có thể, cho phép bạn có được giải pháp với độ chính xác vừa đủ. Do đó, để thiết lập các mối quan hệ thống kê, trước tiên, theo quy luật, chúng ta xem xét một mô hình từ lớp hàm tuyến tính (là loại hàm đơn giản nhất trong tất cả các lớp hàm có thể có):

trong đó bi, b2...bj là các hệ số xác định mức độ ảnh hưởng của các biến độc lập xij đến giá trị yi; ai - thành viên miễn phí; ei - độ lệch ngẫu nhiên, phản ánh ảnh hưởng của các yếu tố không được tính đến biến phụ thuộc; n - số lượng biến độc lập; N là số lượng quan sát và phải đáp ứng điều kiện (N . n+1).

mô hình tuyến tính có thể mô tả một lớp rất rộng các vấn đề khác nhau. Tuy nhiên, trong thực tế, đặc biệt là trong các hệ thống kinh tế - xã hội, đôi khi khó sử dụng mô hình tuyến tính do sai số xấp xỉ lớn. Do đó, các hàm hồi quy bội phi tuyến có thể được tuyến tính hóa thường được sử dụng. Ví dụ, chúng bao gồm hàm sản xuất (hàm năng lượng Cobb-Douglas), đã được ứng dụng trong nhiều nghiên cứu kinh tế xã hội khác nhau. Nó có vẻ như:

trong đó b 0 là hệ số chuẩn hóa, b 1 ...b j là các hệ số chưa biết, e i là độ lệch ngẫu nhiên.

Sử dụng logarit tự nhiên, bạn có thể chuyển phương trình này thành dạng tuyến tính:

Mô hình kết quả cho phép sử dụng các quy trình hồi quy tuyến tính tiêu chuẩn được mô tả ở trên. Bằng cách xây dựng mô hình gồm hai loại (cộng và nhân), bạn có thể chọn mô hình tốt nhất và tiến hành nghiên cứu sâu hơn với sai số gần đúng nhỏ hơn.

Có một hệ thống được phát triển tốt để lựa chọn các hàm gần đúng - phương pháp tính toán nhóm các lập luận(MGUA).

Độ chính xác của mô hình đã chọn có thể được đánh giá bằng kết quả nghiên cứu phần dư, là sự khác biệt giữa giá trị quan sát được y i và giá trị tương ứng y tôi dự đoán bằng phương trình hồi quy. Trong trường hợp này để kiểm tra tính phù hợp của mô hình tính toán sai số xấp xỉ trung bình:

Mô hình được coi là phù hợp nếu e nằm trong khoảng không quá 15%.

Chúng tôi đặc biệt nhấn mạnh rằng trong mối quan hệ với các hệ thống kinh tế - xã hội, các điều kiện cơ bản về tính thỏa đáng của mô hình hồi quy cổ điển không phải lúc nào cũng được đáp ứng.

Không tập trung vào tất cả các lý do dẫn đến sự bất cập phát sinh, chúng tôi sẽ chỉ nêu tên đa cộng tuyến- vấn đề khó khăn nhất trong việc áp dụng hiệu quả các thủ tục phân tích hồi quy trong nghiên cứu sự phụ thuộc thống kê. Dưới đa cộng tuyến người ta hiểu rằng có mối quan hệ tuyến tính giữa các biến giải thích.

Hiện tượng này:

a) bóp méo ý nghĩa của các hệ số hồi quy khi diễn giải chúng một cách có ý nghĩa;

b) làm giảm tính chính xác của đánh giá (sự phân tán của đánh giá tăng lên);

c) làm tăng độ nhạy của ước tính hệ số đối với dữ liệu mẫu (việc tăng cỡ mẫu có thể ảnh hưởng lớn đến ước tính).

Có nhiều kỹ thuật khác nhau để giảm hiện tượng đa cộng tuyến. Cách dễ tiếp cận nhất là loại bỏ một trong hai biến nếu hệ số tương quan giữa chúng vượt quá giá trị có giá trị tuyệt đối bằng 0,8. Biến nào cần giữ được quyết định dựa trên những cân nhắc thực chất. Sau đó các hệ số hồi quy được tính toán lại.

Sử dụng thuật toán hồi quy từng bước cho phép bạn đưa tuần tự một biến độc lập vào mô hình và phân tích tầm quan trọng của các hệ số hồi quy và tính đa cộng tuyến của các biến. Cuối cùng, chỉ những biến số đó còn tồn tại trong mối quan hệ đang được nghiên cứu để cung cấp tầm quan trọng cần thiết của các hệ số hồi quy và ảnh hưởng tối thiểu của hiện tượng đa cộng tuyến.

Trong các bài đăng trước, việc phân tích thường tập trung vào một biến số duy nhất, chẳng hạn như lợi nhuận của quỹ tương hỗ, thời gian tải trang Web hoặc mức tiêu thụ nước giải khát. Trong phần ghi chú này và các ghi chú tiếp theo, chúng ta sẽ xem xét các phương pháp dự đoán giá trị của một biến số tùy thuộc vào giá trị của một hoặc nhiều biến số khác.

Tài liệu sẽ được minh họa bằng một ví dụ xuyên suốt. Dự báo doanh số bán hàng tại một cửa hàng quần áo. Chuỗi cửa hàng quần áo giảm giá Sunflowers không ngừng mở rộng trong 25 năm. Tuy nhiên, công ty hiện chưa có cách tiếp cận mang tính hệ thống trong việc lựa chọn các cửa hàng mới. Địa điểm mà công ty dự định mở một cửa hàng mới được xác định dựa trên những cân nhắc chủ quan. Tiêu chí lựa chọn là điều kiện thuê thuận lợi hoặc ý tưởng của người quản lý về vị trí cửa hàng lý tưởng. Hãy tưởng tượng rằng bạn là người đứng đầu bộ phận lập kế hoạch và dự án đặc biệt. Bạn được giao nhiệm vụ phát triển một kế hoạch chiến lược để mở các cửa hàng mới. Kế hoạch này nên bao gồm dự báo doanh thu hàng năm cho các cửa hàng mới mở. Bạn tin rằng mặt bằng bán lẻ có liên quan trực tiếp đến doanh thu và muốn đưa yếu tố này vào quá trình ra quyết định của mình. Làm cách nào để bạn phát triển mô hình thống kê để dự đoán doanh thu hàng năm dựa trên quy mô của một cửa hàng mới?

Thông thường, phân tích hồi quy được sử dụng để dự đoán giá trị của một biến. Mục tiêu của nó là phát triển một mô hình thống kê có thể dự đoán giá trị của một biến phụ thuộc hoặc phản hồi từ các giá trị của ít nhất một biến độc lập hoặc biến giải thích. Trong lưu ý này, chúng ta sẽ xem xét hồi quy tuyến tính đơn giản - một phương pháp thống kê cho phép bạn dự đoán giá trị của một biến phụ thuộc Y bởi các giá trị biến độc lập X. Các ghi chú tiếp theo sẽ mô tả mô hình hồi quy bội được thiết kế để dự đoán giá trị của một biến độc lập Y dựa trên giá trị của một số biến phụ thuộc ( X 1, X 2,…, Xk).

Tải xuống ghi chú ở định dạng hoặc, ví dụ ở định dạng

Các loại mô hình hồi quy

Ở đâu ρ 1 – hệ số tự tương quan; Nếu như ρ 1 = 0 (không có tự tương quan), D≈ 2; Nếu như ρ 1 ≈ 1 (tự tương quan dương), D≈ 0; Nếu như ρ 1 = -1 (tự tương quan âm), D ≈ 4.

Trong thực tế, việc áp dụng tiêu chí Durbin-Watson dựa trên việc so sánh giá trị D với các giá trị lý thuyết quan trọng d LdU cho một số lượng quan sát nhất định N, số biến độc lập của mô hình k(đối với hồi quy tuyến tính đơn giản k= 1) và mức ý nghĩa α. Nếu như D< d L , giả thuyết về tính độc lập của độ lệch ngẫu nhiên bị bác bỏ (do đó có hiện tượng tự tương quan dương); Nếu như D>dU, giả thuyết không bị bác bỏ (nghĩa là không có hiện tượng tự tương quan); Nếu như d L< D < d U , không có đủ cơ sở để đưa ra quyết định. Khi giá trị tính toán D vượt quá 2 thì với d LdU Bản thân hệ số không được so sánh D, và biểu thức (4 – D).

Để tính số liệu thống kê Durbin-Watson trong Excel, chúng ta hãy chuyển sang bảng dưới cùng trong Hình. 14 Rút số dư. Tử số trong biểu thức (10) được tính bằng hàm =SUMMAR(array1;array2) và mẫu số =SUMMAR(array) (Hình 16).

Cơm. 16. Công thức tính thống kê Durbin-Watson

Trong ví dụ của chúng tôi D= 0,883. Câu hỏi chính là: giá trị nào của thống kê Durbin-Watson nên được coi là đủ nhỏ để kết luận rằng có tồn tại mối tương quan dương? Cần phải tương quan giá trị của D với các giá trị tới hạn ( d Ld bạn), tùy thuộc vào số lượng quan sát N và mức ý nghĩa α (Hình 17).

Cơm. 17. Giá trị tới hạn của thống kê Durbin-Watson (đoạn bảng)

Như vậy, trong bài toán về khối lượng bán hàng tại một cửa hàng giao hàng tận nhà, có một biến độc lập ( k= 1), 15 quan sát ( N= 15) và mức ý nghĩa α = 0,05. Kể từ đây, d L= 1,08 và dbạn= 1,36. Bởi vì D = 0,883 < d L= 1,08, có sự tự tương quan dương giữa các phần dư, không thể sử dụng phương pháp bình phương tối thiểu.

Kiểm định giả thuyết về độ dốc và hệ số tương quan

Ở trên, hồi quy chỉ được sử dụng để dự báo. Để xác định hệ số hồi quy và dự đoán giá trị của một biến Y cho một giá trị biến nhất định X Phương pháp bình phương tối thiểu đã được sử dụng. Ngoài ra, chúng tôi đã kiểm tra sai số bình phương trung bình gốc của ước tính và hệ số tương quan hỗn hợp. Nếu việc phân tích phần dư xác nhận rằng các điều kiện áp dụng của phương pháp bình phương tối thiểu không bị vi phạm và mô hình hồi quy tuyến tính đơn giản là phù hợp, dựa trên dữ liệu mẫu, thì có thể lập luận rằng có mối quan hệ tuyến tính giữa các biến trong mô hình. dân số.

Ứng dụngt - Tiêu chí về độ dốc Bằng cách kiểm tra xem độ dốc tổng thể β 1 có bằng 0 hay không, bạn có thể xác định liệu có mối quan hệ có ý nghĩa thống kê giữa các biến hay không XY. Nếu giả thuyết này bị bác bỏ, có thể lập luận rằng giữa các biến XY có một mối quan hệ tuyến tính. Các giả thuyết không và giả thuyết thay thế được xây dựng như sau: H 0: β 1 = 0 (không có sự phụ thuộc tuyến tính), H1: β 1 ≠ 0 (có sự phụ thuộc tuyến tính). A-tu viện t-statistic bằng chênh lệch giữa độ dốc mẫu và giá trị giả thuyết của độ dốc tổng thể, chia cho sai số bình phương trung bình gốc của ước tính độ dốc:

(11) t = (b 1 β 1 ) / sb 1

Ở đâu b 1 – độ dốc của hồi quy trực tiếp trên dữ liệu mẫu, β1 – độ dốc giả định của tổng thể trực tiếp, và thống kê kiểm tra t Nó có t-phân phối với n – 2 bậc tự do.

Hãy kiểm tra xem liệu có mối quan hệ có ý nghĩa thống kê giữa quy mô cửa hàng và doanh thu hàng năm ở mức α = 0,05 hay không. t-tiêu chí được hiển thị cùng với các tham số khác khi sử dụng Gói phân tích(lựa chọn hồi quy). Các kết quả đầy đủ của Gói phân tích được hiển thị trong Hình 2. 4, đoạn liên quan đến thống kê t - trong Hình. 18.

Cơm. 18. Kết quả xét tuyển t

Vì số lượng cửa hàng N= 14 (xem Hình 3), giá trị tới hạn t- có thể tìm được số liệu thống kê ở mức ý nghĩa α = 0,05 bằng công thức: t L=STUDENT.ARV(0,025,12) = –2,1788, trong đó 0,025 là một nửa mức ý nghĩa và 12 = N – 2; bạn=Student.OBR(0,975,12) = +2,1788.

Bởi vì t-statistic = 10,64 > bạn= 2.1788 (Hình 19), giả thuyết không H 0 vật bị loại bỏ. Mặt khác, R-giá trị cho X= 10,6411, tính theo công thức =1-STUDENT.DIST(D3,12,TRUE), xấp xỉ bằng 0 nên giả thuyết H 0 lại bị từ chối. Sự thật là R-giá trị gần như bằng 0 có nghĩa là nếu không có mối quan hệ tuyến tính thực sự giữa quy mô cửa hàng và doanh thu hàng năm thì hầu như không thể phát hiện ra nó bằng phương pháp hồi quy tuyến tính. Do đó, có mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh số bán hàng trung bình hàng năm của cửa hàng và quy mô cửa hàng.

Cơm. 19. Kiểm định giả thuyết về độ dốc dân số ở mức ý nghĩa 0,05 và 12 bậc tự do

Ứng dụngF - Tiêu chí về độ dốc Một cách tiếp cận khác để kiểm tra các giả thuyết về độ dốc của hồi quy tuyến tính đơn giản là sử dụng F-tiêu chuẩn. Hãy để chúng tôi nhắc nhở bạn rằng F-test được sử dụng để kiểm tra mối quan hệ giữa hai phương sai (để biết thêm chi tiết, xem). Khi kiểm định giả thuyết độ dốc, thước đo sai số ngẫu nhiên là phương sai sai số (tổng sai số bình phương chia cho số bậc tự do), do đó F-criterion sử dụng tỷ lệ của phương sai được giải thích bằng hồi quy (tức là giá trị SSR, chia cho số biến độc lập k), đến phương sai lỗi ( MSE = S YX 2 ).

A-tu viện F-statistic bằng bình phương trung bình của hồi quy (MSR) chia cho phương sai lỗi (MSE): F = MSR/ MSE, Ở đâu MSR=SSR / k, MSE =SSE/(N– k – 1), k– số lượng biến độc lập trong mô hình hồi quy. Thống kê kiểm tra F Nó có F-phân phối với kN– k – 1 bậc tự do.

Với một mức ý nghĩa α cho trước, quy tắc quyết định được xây dựng như sau: nếu F>Fbạn, giả thuyết không bị bác bỏ; nếu không thì nó không bị từ chối. Các kết quả được trình bày dưới dạng bảng tóm tắt phân tích phương sai được thể hiện trong Hình 2. 20.

Cơm. 20. Phân tích bảng phương sai kiểm định giả thuyết về ý nghĩa thống kê của hệ số hồi quy

Tương tự như vậy t-tiêu chuẩn F-tiêu chí được hiển thị trong bảng khi sử dụng Gói phân tích(lựa chọn hồi quy). Kết quả công việc đầy đủ Gói phân tíchđược thể hiện trong hình. 4, đoạn liên quan đến F-số liệu thống kê – trong hình. 21.

Cơm. 21. Kết quả xét tuyển F-tiêu chí thu được bằng cách sử dụng Gói phân tích Excel

Thống kê F là 113,23 và R-giá trị gần bằng 0 (ô Ý nghĩaF). Nếu mức ý nghĩa α là 0,05, hãy xác định giá trị tới hạn F-phân phối với một và 12 bậc tự do có thể thu được bằng cách sử dụng công thức bạn ơi=F.OBR(1-0,05;1;12) = 4,7472 (Hình 22). Bởi vì F = 113,23 > bạn ơi= 4,7472 và R-giá trị gần bằng 0< 0,05, нулевая гипотеза H 0 bị từ chối, tức là Quy mô của một cửa hàng có liên quan chặt chẽ đến doanh thu hàng năm của nó.

Cơm. 22. Kiểm định giả thuyết độ dốc dân số ở mức ý nghĩa 0,05 với 1 và 12 bậc tự do

Khoảng tin cậy chứa độ dốc β 1 .Để kiểm tra giả thuyết rằng có mối quan hệ tuyến tính giữa các biến, bạn có thể xây dựng khoảng tin cậy chứa độ dốc β 1 và xác minh rằng giá trị giả thuyết β 1 = 0 thuộc khoảng này. Tâm của khoảng tin cậy chứa độ dốc β 1 là độ dốc mẫu b 1 , và ranh giới của nó là số lượng b 1 ±tn –2 sb 1

Như thể hiện trong hình. 18, b 1 = +1,670, N = 14, sb 1 = 0,157. t 12 =Student.ARV(0,975,12) = 2,1788. Kể từ đây, b 1 ±tn –2 sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 hoặc + 1,328 ≤ β 1 ≤ +2,012. Do đó, có xác suất 0,95 rằng độ dốc dân số nằm trong khoảng từ +1,328 đến +2,012 (tức là, 1.328.000 USD đến 2.012.000 USD). Vì các giá trị này lớn hơn 0 nên có mối quan hệ tuyến tính có ý nghĩa thống kê giữa doanh thu hàng năm và diện tích cửa hàng. Nếu khoảng tin cậy chứa 0 thì sẽ không có mối quan hệ giữa các biến. Ngoài ra, khoảng tin cậy có nghĩa là mỗi lần tăng diện tích cửa hàng thêm 1.000 m2. ft. dẫn đến khối lượng bán hàng trung bình tăng từ 1.328.000 USD đến 2.012.000 USD.

Cách sử dụngt -tiêu chí cho hệ số tương quan. hệ số tương quan được đưa ra r, là thước đo mối quan hệ giữa hai biến số. Nó có thể được sử dụng để xác định liệu có mối quan hệ có ý nghĩa thống kê giữa hai biến hay không. Chúng ta hãy biểu thị hệ số tương quan giữa quần thể của cả hai biến bằng ký hiệu ρ. Các giả thuyết không và thay thế được xây dựng như sau: H 0: ρ = 0 (không có tương quan), H 1: ρ ≠ 0 (có mối tương quan). Kiểm tra sự tồn tại của mối tương quan:

Ở đâu r = + , Nếu như b 1 > 0, r = – , Nếu như b 1 < 0. Тестовая статистика t Nó có t-phân phối với n – 2 bậc tự do.

Trong bài toán về chuỗi cửa hàng Sunflowers r 2= 0,904, một b 1- +1.670 (xem Hình 4). Bởi vì b 1> 0, hệ số tương quan giữa doanh thu hàng năm và quy mô cửa hàng là r= +√0,904 = +0,951. Hãy kiểm tra giả thuyết không rằng không có mối tương quan giữa các biến này bằng cách sử dụng t-số liệu thống kê:

Ở mức ý nghĩa α = 0,05, giả thuyết không nên bị bác bỏ vì t= 10,64 > 2,1788. Vì vậy, có thể lập luận rằng có mối quan hệ có ý nghĩa thống kê giữa doanh thu hàng năm và quy mô cửa hàng.

Khi thảo luận về các suy luận liên quan đến độ dốc của dân số, khoảng tin cậy và kiểm tra giả thuyết được sử dụng thay thế cho nhau. Tuy nhiên, việc tính toán khoảng tin cậy chứa hệ số tương quan hóa ra lại khó khăn hơn vì kiểu phân phối mẫu của thống kê r phụ thuộc vào hệ số tương quan thực.

Ước tính kỳ vọng toán học và dự đoán các giá trị riêng lẻ

Phần này thảo luận về các phương pháp ước tính kỳ vọng toán học của một phản hồi Y và dự đoán các giá trị riêng lẻ Y cho các giá trị đã cho của biến X.

Xây dựng khoảng tin cậy. Trong ví dụ 2 (xem phần trên Phương pháp bình phương tối thiểu) phương trình hồi quy giúp dự đoán giá trị của biến Y X. Trong bài toán chọn địa điểm cho một cửa hàng bán lẻ, khối lượng bán hàng trung bình hàng năm trong một cửa hàng có diện tích 4000 m2. feet tương đương với 7,644 triệu đô la. Tuy nhiên, ước tính này về kỳ vọng toán học của dân số nói chung chỉ mang tính điểm. Để ước tính kỳ vọng toán học của dân số, khái niệm khoảng tin cậy đã được đề xuất. Tương tự, chúng ta có thể đưa ra khái niệm khoảng tin cậy cho kỳ vọng toán học của phản hồi cho một giá trị biến nhất định X:

Ở đâu , = b 0 + b 1 X tôi– giá trị dự đoán có thể thay đổi Y Tại X = X tôi, S YX– sai số bình phương trung bình gốc, N- cỡ mẫu, XTôi- giá trị xác định của biến X, µ Y|X = XTôi– kỳ vọng toán học của biến Y Tại X = Xi, SSX =

Phân tích công thức (13) cho thấy độ rộng của khoảng tin cậy phụ thuộc vào một số yếu tố. Ở một mức ý nghĩa nhất định, sự gia tăng biên độ dao động xung quanh đường hồi quy, được đo bằng sai số bình phương trung bình gốc, dẫn đến tăng độ rộng của khoảng. Mặt khác, như người ta mong đợi, việc tăng cỡ mẫu sẽ đi kèm với việc thu hẹp khoảng cách. Ngoài ra, độ rộng của khoảng thay đổi tùy thuộc vào giá trị XTôi. Nếu giá trị biến Y dự đoán về số lượng X, gần giá trị trung bình , khoảng tin cậy hóa ra hẹp hơn so với khi dự đoán phản hồi cho các giá trị cách xa mức trung bình.

Giả sử rằng khi chọn vị trí cửa hàng, chúng tôi muốn xây dựng khoảng tin cậy 95% cho doanh thu trung bình hàng năm của tất cả các cửa hàng có diện tích là 4000 mét vuông. bàn chân:

Do đó, doanh số bán hàng trung bình hàng năm ở tất cả các cửa hàng có diện tích 4.000 m2. feet, với xác suất 95% nằm trong khoảng từ 6,971 đến 8,317 triệu đô la.

Tính khoảng tin cậy cho giá trị dự đoán. Ngoài khoảng tin cậy cho kỳ vọng toán học của phản ứng đối với một giá trị nhất định của biến X, thường cần phải biết khoảng tin cậy cho giá trị dự đoán. Mặc dù công thức tính khoảng tin cậy như vậy rất giống với công thức (13), khoảng này chứa giá trị dự đoán chứ không phải ước tính tham số. Khoảng thời gian cho phản ứng dự đoán YX = Xi cho một giá trị biến cụ thể XTôiđược xác định bởi công thức:

Giả sử rằng, khi chọn địa điểm cho một cửa hàng bán lẻ, chúng ta muốn xây dựng khoảng tin cậy 95% cho doanh số bán hàng dự đoán hàng năm của một cửa hàng có diện tích là 4000 mét vuông. bàn chân:

Do đó, doanh số bán hàng hàng năm dự đoán cho một cửa hàng có diện tích 4000 m2. feet, với xác suất 95% nằm trong khoảng từ 5,433 đến 9,854 triệu đô la. Như chúng ta có thể thấy, khoảng tin cậy cho giá trị phản hồi được dự đoán rộng hơn nhiều so với khoảng tin cậy cho kỳ vọng toán học của nó. Điều này là do độ biến thiên trong việc dự đoán các giá trị riêng lẻ lớn hơn nhiều so với việc ước tính kỳ vọng toán học.

Cạm bẫy và các vấn đề đạo đức liên quan đến việc sử dụng hồi quy

Những khó khăn liên quan đến phân tích hồi quy:

  • Bỏ qua các điều kiện áp dụng của phương pháp bình phương tối thiểu.
  • Đánh giá sai các điều kiện áp dụng phương pháp bình phương tối thiểu.
  • Lựa chọn không đúng các phương pháp thay thế khi vi phạm các điều kiện áp dụng của phương pháp bình phương tối thiểu.
  • Áp dụng phân tích hồi quy mà không có kiến ​​thức sâu về chủ đề nghiên cứu.
  • Ngoại suy một hồi quy vượt quá phạm vi của biến giải thích.
  • Nhầm lẫn giữa mối quan hệ thống kê và quan hệ nhân quả.

Việc sử dụng rộng rãi bảng tính và phần mềm thống kê đã loại bỏ các vấn đề tính toán cản trở việc sử dụng phân tích hồi quy. Tuy nhiên, điều này dẫn đến thực tế là phân tích hồi quy được sử dụng bởi những người dùng không có đủ trình độ và kiến ​​thức. Làm sao người dùng có thể biết về các phương pháp thay thế nếu nhiều người trong số họ không biết gì về các điều kiện áp dụng của phương pháp bình phương tối thiểu và không biết cách kiểm tra việc thực hiện chúng?

Nhà nghiên cứu không nên bận tâm đến việc tính toán các con số - tính toán độ dịch chuyển, độ dốc và hệ số tương quan hỗn hợp. Anh ấy cần kiến ​​​​thức sâu hơn. Hãy minh họa điều này bằng một ví dụ cổ điển lấy từ sách giáo khoa. Anscombe đã chỉ ra rằng cả bốn bộ dữ liệu được hiển thị trong Hình. 23, có cùng tham số hồi quy (Hình 24).

Cơm. 23. Bốn bộ dữ liệu nhân tạo

Cơm. 24. Phân tích hồi quy của bốn bộ dữ liệu nhân tạo; thực hiện với Gói phân tích(bấm vào hình để phóng to hình ảnh)

Vì vậy, từ quan điểm phân tích hồi quy, tất cả các bộ dữ liệu này hoàn toàn giống nhau. Nếu việc phân tích kết thúc ở đó, chúng ta sẽ mất đi rất nhiều thông tin hữu ích. Điều này được chứng minh bằng các biểu đồ phân tán (Hình 25) và các biểu đồ dư (Hình 26) được xây dựng cho các bộ dữ liệu này.

Cơm. 25. Biểu đồ phân tán cho bốn bộ dữ liệu

Biểu đồ phân tán và biểu đồ dư chỉ ra rằng những dữ liệu này khác nhau. Tập hợp duy nhất phân bố dọc theo đường thẳng là tập hợp A. Đồ thị của phần dư được tính từ tập hợp A không có bất kỳ mẫu nào. Điều này không thể nói về các tập hợp B, C và D. Biểu đồ phân tán được vẽ cho tập hợp B cho thấy một mô hình bậc hai rõ rệt. Kết luận này được xác nhận bằng biểu đồ dư có dạng parabol. Biểu đồ phân tán và biểu đồ phần dư cho thấy tập dữ liệu B chứa giá trị ngoại lệ. Trong tình huống này, cần loại trừ giá trị ngoại lệ khỏi tập dữ liệu và lặp lại phân tích. Một phương pháp phát hiện và loại bỏ các giá trị bất thường trong các quan sát được gọi là phân tích ảnh hưởng. Sau khi loại bỏ ngoại lệ, kết quả ước lượng lại mô hình có thể khác hoàn toàn. Biểu đồ phân tán được vẽ từ dữ liệu từ tập G minh họa một tình huống bất thường trong đó mô hình thực nghiệm phụ thuộc đáng kể vào phản hồi riêng lẻ ( X 8 = 19, Y 8 = 12,5). Những mô hình hồi quy như vậy phải được tính toán đặc biệt cẩn thận. Vì vậy, biểu đồ phân tán và biểu đồ dư là một công cụ thiết yếu để phân tích hồi quy và phải là một phần không thể thiếu của nó. Không có chúng, phân tích hồi quy sẽ không đáng tin cậy.

Cơm. 26. Các ô dư cho bốn bộ dữ liệu

Làm thế nào để tránh những cạm bẫy trong phân tích hồi quy:

  • Phân tích mối quan hệ có thể có giữa các biến XY luôn bắt đầu bằng cách vẽ một biểu đồ phân tán.
  • Trước khi diễn giải kết quả phân tích hồi quy, hãy kiểm tra các điều kiện về khả năng áp dụng của nó.
  • Vẽ phần dư so với biến độc lập. Điều này sẽ giúp xác định mức độ phù hợp của mô hình thực nghiệm với các kết quả quan sát và phát hiện sự vi phạm hằng số phương sai.
  • Sử dụng biểu đồ, biểu đồ thân và lá, biểu đồ hình hộp và biểu đồ phân phối chuẩn để kiểm tra giả định về phân phối lỗi chuẩn.
  • Nếu các điều kiện để áp dụng phương pháp bình phương tối thiểu không được đáp ứng, hãy sử dụng các phương pháp thay thế (ví dụ: mô hình hồi quy bậc hai hoặc bội số).
  • Nếu đáp ứng các điều kiện áp dụng phương pháp bình phương tối thiểu thì cần kiểm tra giả thuyết về ý nghĩa thống kê của các hệ số hồi quy và xây dựng khoảng tin cậy chứa kỳ vọng toán học và giá trị phản hồi dự đoán.
  • Tránh dự đoán giá trị của biến phụ thuộc nằm ngoài phạm vi của biến độc lập.
  • Hãy nhớ rằng các mối quan hệ thống kê không phải lúc nào cũng là nguyên nhân và kết quả. Hãy nhớ rằng mối tương quan giữa các biến không có nghĩa là có mối quan hệ nhân quả giữa chúng.

Bản tóm tắt. Như được hiển thị trong sơ đồ khối (Hình 27), ghi chú mô tả mô hình hồi quy tuyến tính đơn giản, các điều kiện áp dụng và cách kiểm tra các điều kiện này. Được xem xét t-tiêu chí kiểm tra ý nghĩa thống kê của độ dốc hồi quy. Mô hình hồi quy được sử dụng để dự đoán giá trị của biến phụ thuộc. Một ví dụ được coi là liên quan đến việc lựa chọn địa điểm cho một cửa hàng bán lẻ, trong đó kiểm tra sự phụ thuộc của doanh số hàng năm vào diện tích cửa hàng. Thông tin thu được cho phép bạn chọn chính xác hơn vị trí cho cửa hàng và dự đoán doanh số hàng năm của cửa hàng đó. Các lưu ý sau đây sẽ tiếp tục thảo luận về phân tích hồi quy và cũng xem xét các mô hình hồi quy bội.

Cơm. 27. Lưu ý sơ đồ cấu trúc

Tài liệu từ cuốn sách Levin và cộng sự Thống kê dành cho nhà quản lý được sử dụng. – M.: Williams, 2004. – tr. 792–872

Nếu biến phụ thuộc là biến phân loại thì phải sử dụng hồi quy logistic.