Цел на регресивна анализа. Методи на математичка статистика

Главната цел на регресивната анализасе состои во определување на аналитичката форма на комуникација во која промената на ефективната карактеристика се должи на влијанието на еден или повеќе факторски карактеристики, а збирот на сите други фактори кои исто така влијаат на ефективната карактеристика се земаат како константни и просечни вредности.
Проблеми со регресивна анализа:
а) Воспоставување на форма на зависност. Во однос на природата и формата на односот меѓу појавите, се прави разлика помеѓу позитивна линеарна и нелинеарна и негативна линеарна и нелинеарна регресија.
б) Определување на функцијата на регресија во форма на математичка равенка од еден или друг тип и утврдување на влијанието на објаснувачките променливи врз зависната променлива.
в) Проценка на непознати вредности на зависната променлива. Користејќи ја функцијата за регресија, можете да ги репродуцирате вредностите на зависната променлива во интервалот на наведените вредности на објаснувачките променливи (т.е. да го решите проблемот со интерполација) или да го оцените текот на процесот надвор од наведениот интервал (т.е. реши проблемот со екстраполација). Резултатот е проценка на вредноста на зависната променлива.

Спарената регресија е равенка за врската помеѓу две променливи y и x: , каде y е зависната променлива (резултативен атрибут); x е независна објаснувачка променлива (фактор-фактор).

Постојат линеарни и нелинеарни регресии.
Линеарна регресија: y = a + bx + ε
Нелинеарните регресии се поделени во две класи: регресии кои се нелинеарни во однос на објаснувачките променливи вклучени во анализата, но линеарни во однос на проценетите параметри и регресии кои се нелинеарни во однос на проценетите параметри.
Регресии кои се нелинеарни во објаснувачките променливи:

Регресии кои се нелинеарни во однос на проценетите параметри: Конструкцијата на регресивна равенка се сведува на проценка на нејзините параметри. За да се проценат параметрите на регресиите линеарни во параметри, се користи методот на најмали квадрати (OLS). Методот на најмали квадрати овозможува да се добијат такви проценки на параметрите при кои збирот на квадратни отстапувања на вистинските вредности на резултантната карактеристика y од теоретските е минимален, т.е.
.
За линеарни и нелинеарни равенки сведени на линеарни, следниот систем е решен за a и b:

Можете да користите готови формули што следат од овој систем:

Блискоста на врската помеѓу феномените што се проучуваат се проценува со линеарниот коефициент на парна корелација за линеарна регресија:

и индекс на корелација - за нелинеарна регресија:

Квалитетот на конструираниот модел ќе се оценува со коефициентот (индексот) на определување, како и просечната грешка на приближување.
Просечна грешка при приближување - просечно отстапување на пресметаните вредности од вистинските:
.
Дозволената граница на вредности не е поголема од 8-10%.
Просечниот коефициент на еластичност покажува за колкав процент во просек резултатот y ќе се промени од неговата просечна вредност кога факторот x се менува за 1% од неговата просечна вредност:
.

Целта на анализата на варијансата е да се анализира варијансата на зависната променлива:
,
каде е вкупниот збир на квадратни отстапувања;
- збир на квадратни отстапувања поради регресија („објаснето“ или „факториелно“);
- преостаната сума на квадратни отстапувања.
Уделот на варијансата објаснет со регресија во вкупната варијанса на резултантната карактеристика y се карактеризира со коефициентот (индексот) на определување R2:

Коефициентот на определување е квадратот на коефициентот или индексот на корелација.

F-тестот - оценување на квалитетот на регресивната равенка - се состои од тестирање на хипотезата бр за статистичката незначајност на регресивната равенка и индикаторот за блискост на врската. За да го направите ова, се прави споредба помеѓу вистинскиот факт F и критичните (табеларни) вредности на табелата F на критериумот Fisher F. F факт се одредува од односот на вредностите на факторот и преостанатите варијанси пресметани по степен на слобода:
,
каде n е бројот на единици на население; m е бројот на параметри за променливите x.
Табела F е максималната можна вредност на критериумот под влијание на случајни фактори при дадени степени на слобода и ниво на значајност a. Нивото на значајност a е веројатноста за отфрлање на точната хипотеза, под услов да е вистинита. Обично a се зема еднакво на 0,05 или 0,01.
Ако F табела< F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл >F факт, тогаш хипотезата H o не се отфрла и се препознава статистичката безначајност и неверодостојност на регресивната равенка.
За да се процени статистичката значајност на коефициентите на регресија и корелација, се пресметуваат студентски т-тест и интервали на доверба за секој индикатор. Се поставува хипотеза за случајната природа на индикаторите, т.е. за нивната незначителна разлика од нула. Оценувањето на значајноста на коефициентите на регресија и корелација со помош на Студентскиот t-тест се врши со споредување на нивните вредности со големината на случајната грешка:
; ; .
Случајните грешки на параметрите на линеарна регресија и коефициентот на корелација се одредуваат со формулите:



Споредувајќи ги вистинските и критичните (табеларни) вредности на t-статистика - t табела и t факт - ја прифаќаме или отфрламе хипотезата H o.
Врската помеѓу Fisher F-тестот и Student t-статистиката се изразува со еднаквоста

Ако т табела< t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл >t е факт дека хипотезата H o не е отфрлена и се препознава случајната природа на формирањето на a, b или.
За да го пресметаме интервалот на доверба, ја одредуваме максималната грешка D за секој индикатор:
, .
Формулите за пресметување на интервали на доверба се како што следува:
; ;
; ;
Ако нулата спаѓа во интервалот на доверба, т.е. Ако долната граница е негативна, а горната граница е позитивна, тогаш проценетиот параметар се зема како нула, бидејќи не може истовремено да земе и позитивни и негативни вредности.
Вредноста на предвидувањето се одредува со замена на соодветната (прогнозирана) вредност во регресивната равенка. Просечната стандардна грешка на прогнозата се пресметува:
,
Каде
и се конструира интервал на доверба за прогнозата:
; ;
Каде .

Пример решение

Задача бр. 1. За седум територии на регионот на Урал во 199X година, познати се вредностите на две карактеристики.
Табела 1.
Потребно: 1. За да ја карактеризирате зависноста на y од x, пресметајте ги параметрите на следните функции:
а) линеарна;
б) моќност (прво мора да се изврши постапката на линеаризација на променливите со земање на логаритам на двата дела);
в) демонстративна;
г) рамностран хипербола (исто така треба да сфатите како да го прелинеаризирате овој модел).
2. Оценете го секој модел користејќи ја просечната грешка на приближување и Фишеровиот F тест.

Решение (Опција бр. 1)

За да се пресметаат параметрите a и b на линеарна регресија (пресметката може да се направи со помош на калкулатор).
реши систем на нормални равенки за АИ б:
Врз основа на првичните податоци, ние пресметуваме :
y x yx x 2 y 2 А и
л 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Вкупно 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
ср. значење (Вкупно/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
с 5,74 5,86 X X X X X X
с 2 32,92 34,34 X X X X X X


Регресивна равенка: y = 76,88 - 0,35X.Со зголемување на просечната дневна плата за 1 руб. учеството на трошоците за набавка на прехранбени производи се намалува во просек за 0,35 процентни поени.
Да го пресметаме коефициентот на корелација на линеарни парови:

Врската е умерена, инверзна.
Да го одредиме коефициентот на определување:

Варијацијата од 12,7% во резултатот се објаснува со варијацијата во факторот x. Замена на вистинските вредности во равенката за регресија X,да ги одредиме теоретските (пресметани) вредности . Ајде да ја најдеме вредноста на просечната приближна грешка:

Во просек, пресметаните вредности отстапуваат од реалните за 8,1%.
Да го пресметаме критериумот F:

од 1< Ф < ¥ , треба да се разгледа Ф -1 .
Добиената вредност укажува на потребата да се прифати хипотезата Но, охслучајната природа на идентификуваната зависност и статистичката безначајност на параметрите на равенката и индикаторот за близината на врската.
1б.На изградбата на модел на моќност и претходи постапката на линеаризација на променливите. Во примерот, линеаризацијата се изведува со земање логаритми од двете страни на равенката:


КадеY=lg(y), X=lg(x), C=lg(a).

За пресметки ги користиме податоците од табелата. 1.3.

Табела 1.3

Y X YX Y2 X 2 А и
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Вкупно 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Средна вредност 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Да ги пресметаме C и b:


Добиваме линеарна равенка: .
Откако го извршивме неговото потенцирање, добиваме:

Замена на вистинските вредности во оваа равенка X,добиваме теоретски вредности на резултатот. Користејќи ги, ќе ги пресметаме индикаторите: затегнатост на врската - индекс на корелација и просечна грешка при приближување

Карактеристиките на моделот моќ-закон укажуваат дека тој ја опишува врската нешто подобро од линеарната функција.

. Конструирање на равенката на експоненцијална крива

претходи постапка за линеаризирање на променливите со земање логаритми од двете страни на равенката:

За пресметки ги користиме податоците од табелата.

Y x Yx Y2 x 2 А и
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Вкупно 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
ср. zn. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Вредности на регресивните параметри А и ВОизнесуваше:


Добиената линеарна равенка е: . Дозволете ни да ја потенцираме добиената равенка и да ја напишеме во вообичаената форма:

Ќе ја оцениме блискоста на врската преку индексот на корелација:

Целта на регресивната анализа е да се измери односот помеѓу зависна променлива и една (парична регресивна анализа) или повеќе (повеќе) независни променливи. Независните променливи се нарекуваат и факторски, објаснувачки, детерминантни, регресорски и предикторни променливи.

Зависната променлива понекогаш се нарекува променлива определена, објаснета или „одговор“. Исклучително распространетата употреба на регресивна анализа во емпириското истражување не се должи само на фактот дека таа е погодна алатка за тестирање на хипотези. Регресијата, особено повеќекратната регресија, е ефективен метод за моделирање и предвидување.

Да почнеме да ги објаснуваме принципите на работа со регресивна анализа со поедноставен - методот на парови.

Спарена регресивна анализа

Првите чекори при користење на регресивна анализа ќе бидат речиси идентични со оние што ги презедовме при пресметувањето на коефициентот на корелација. За повеќекратна регресија релевантни се и трите главни услови за ефективноста на анализата на корелација со помош на Пирсоновиот метод - нормална дистрибуција на променливите, интервално мерење на променливите, линеарна врска помеѓу променливите. Соодветно на тоа, во првата фаза се конструираат распрскувачи, се врши статистичка и описна анализа на променливите и се пресметува регресивна линија. Како и во рамките на анализата на корелација, регресивните линии се конструирани со методот на најмали квадрати.

За појасно да ги илустрираме разликите помеѓу двата методи на анализа на податоците, да се свртиме кон примерот што веќе беше дискутиран со варијаблите „Поддршка на SPS“ и „удел на руралното население“. Изворните податоци се идентични. Разликата во распрснувачите ќе биде во тоа што во регресионата анализа е точно да се нацрта зависната променлива - во нашиот случај, „поддршка на SPS“ на Y-оската, додека во анализата на корелација тоа не е важно. По чистењето на оддалечените делови, дијаграмот изгледа вака:

Основната идеја на регресивната анализа е дека, имајќи општ тренд за променливите - во форма на регресивна линија - можно е да се предвиди вредноста на зависната променлива, со оглед на вредностите на независната.

Да замислиме обична математичка линеарна функција. Секоја права линија во Евклидовиот простор може да се опише со формулата:

каде што a е константа што го одредува поместувањето долж оската на ординатите; b е коефициент кој го одредува аголот на наклон на правата.

Знаејќи го наклонот и константата, можете да ја пресметате (предвидите) вредноста на y за кој било x.

Оваа наједноставна функција ја формираше основата на моделот за регресивна анализа со предупредување дека нема точно да ја предвидиме вредноста на y, туку во одреден интервал на доверба, т.е. приближно.

Константата е точката на пресек на регресивната линија и y-оската (пресек F, обично означен како „пресретнувач“ во статистичките пакети). Во нашиот пример со гласање за Унијата на десни сили неговата заокружена вредност ќе биде 10,55. Аголниот коефициент b ќе биде приближно -0,1 (како и во корелационата анализа, знакот го покажува типот на поврзување - директно или инверзно). Така, добиениот модел ќе има форма SP C = -0,1 x Sel. нас. + 10,55.

АТП = -0,10 x 47 + 10,55 = 5,63.

Разликата помеѓу оригиналните и предвидените вредности се нарекува остаток (веќе го сретнавме овој термин, кој е фундаментален за статистиката, кога се анализираат табелите за непредвидени ситуации). Значи, за случајот „Република Адигеја“ остатокот ќе биде еднаков на 3,92 - 5,63 = -1,71. Колку е поголема модуларната вредност на остатокот, толку помалку успешно е предвидената вредност.

Ги пресметуваме предвидените вредности и остатоци за сите случаи:
Се случува Седна. нас. благодарам

(оригинал)

благодарам

(предвидено)

Остатоци
Република Адигеја 47 3,92 5,63 -1,71 -
Република Алтај 76 5,4 2,59 2,81
Република Башкортостан 36 6,04 6,78 -0,74
Република Бурјатија 41 8,36 6,25 2,11
Република Дагестан 59 1,22 4,37 -3,15
Република Ингушетија 59 0,38 4,37 3,99
итн.

Анализата на односот на почетните и предвидените вредности служи за проценка на квалитетот на добиениот модел и неговата способност за предвидување. Еден од главните показатели на статистиката за регресија е повеќекратниот коефициент на корелација R - коефициентот на корелација помеѓу оригиналните и предвидените вредности на зависната променлива. Во спарената регресивна анализа, тој е еднаков на вообичаениот Пирсонов коефициент на корелација помеѓу зависните и независните променливи, во нашиот случај - 0,63. За значајно да се интерпретира повеќекратната R, таа мора да се претвори во коефициент на определување. Ова се прави на ист начин како и во корелација анализа - со квадрат. Коефициентот на определување R-квадрат (R 2) ја покажува пропорцијата на варијација во зависната променлива што се објаснува со независните променливи.

Во нашиот случај, R 2 = 0,39 (0,63 2); тоа значи дека променливата „удел на руралното население“ објаснува приближно 40% од варијацијата во променливата „поддршка на SPS“. Колку е поголем коефициентот на определување, толку е поголем квалитетот на моделот.

Друг показател за квалитетот на моделот е стандардната грешка во проценката. Ова е мерка за тоа колку широко точките се „расфрлани“ околу линијата на регресија. Мерката за ширење за интервални променливи е стандардното отстапување. Според тоа, стандардната грешка на проценката е стандардното отстапување на распределбата на остатоците. Колку е поголема неговата вредност, толку е поголема расејувањето и полош моделот. Во нашиот случај, стандардната грешка е 2.18. Токму во оваа сума нашиот модел ќе „греши во просек“ при предвидување на вредноста на променливата „SPS support“.

Статистиката за регресија вклучува и анализа на варијансата. Со негова помош дознаваме: 1) колкав дел од варијацијата (дисперзијата) на зависната променлива се објаснува со независната променлива; 2) колкав дел од варијансата на зависната променлива се пресметува со резидуалите (необјаснет дел); 3) колкав е односот на овие две величини (/"-однос).Статистиката за дисперзија е особено важна за примерок студии - покажува колку е веројатно дека постои врска помеѓу независните и зависните променливи во популацијата. Меѓутоа, за континуираните студии (како во нашиот пример) резултатите од студијата за анализа на варијансата не се корисни. Во овој случај, тие проверуваат дали идентификуваната статистичка шема е предизвикана од комбинација на случајни околности, колку е карактеристична за комплексот услови во кои популацијата што се испитува е лоцирана, односно се утврдува дека добиениот резултат не е вистинит за некој поширок општ агрегат, туку степенот на неговата регуларност, слобода од случајни влијанија.

Во нашиот случај, статистиката на АНОВА е како што следува:

СС дф ГОСПОЃИЦА Ф значење
Регресија. 258,77 1,00 258,77 54,29 0.000000001
Остаток 395,59 83,00 L, 11
Вкупно 654,36

F-односот од 54,29 е значаен на ниво 0,0000000001. Според тоа, можеме со сигурност да ја отфрлиме нултата хипотеза (дека врската што ја откривме се должи на случајност).

Критериумот t врши слична функција, но во однос на коефициентите на регресија (аголна и F-пресек). Со помош на критериумот / ја тестираме хипотезата дека кај општата популација коефициентите на регресија се еднакви на нула. Во нашиот случај, повторно можеме со сигурност да ја отфрлиме нултата хипотеза.

Повеќекратна регресивна анализа

Моделот на повеќекратна регресија е речиси идентичен со моделот на спарена регресија; единствената разлика е што неколку независни променливи се секвенцијално вклучени во линеарната функција:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ако има повеќе од две независни променливи, не можеме да добиеме визуелна идеја за нивната врска; во овој поглед, повеќекратната регресија е помалку „визуелна“ од регресијата во пар. Кога имате две независни променливи, може да биде корисно да се прикажат податоците во 3D расфрлање. Во професионалните статистички софтверски пакети (на пример, Statistica) постои опција за ротирање на тридимензионална табела, која ви овозможува визуелно добро да ја претставите структурата на податоците.

Кога се работи со повеќекратна регресија, за разлика од регресијата во пар, потребно е да се одреди алгоритмот за анализа. Стандардниот алгоритам ги вклучува сите достапни предвидувачи во конечниот регресивен модел. Алгоритмот чекор-по-чекор вклучува секвенцијално вклучување (исклучување) на независни променливи врз основа на нивната објаснувачка „тежина“. Чекорниот метод е добар кога има многу независни променливи; го „чисти“ моделот од искрено слаби предвидувачи, што го прави покомпактен и поконцизен.

Дополнителен услов за исправноста на повеќекратната регресија (заедно со интервалот, нормалноста и линеарноста) е отсуството на мултиколинеарност - присуство на силни корелации помеѓу независните променливи.

Интерпретацијата на статистиката за повеќекратна регресија ги вклучува сите елементи што ги разгледавме за случајот со парна регресија. Покрај тоа, постојат и други важни компоненти на статистиката на повеќекратна регресивна анализа.

Работата ќе ја илустрираме со повеќекратна регресија користејќи го примерот на тестирање хипотези кои ги објаснуваат разликите во нивото на изборна активност низ руските региони. Специфичните емпириски студии сугерираат дека нивото на излезност на гласачите е под влијание на:

Национален фактор (променлива „руско население“; операционализиран како удел на руското население во составните ентитети на Руската Федерација). Се претпоставува дека зголемувањето на уделот на руското население доведува до намалување на излезноста на гласачите;

Фактор на урбанизација (променлива „урбано население“; операционализиран како удел на урбаното население во составните ентитети на Руската Федерација; ние веќе работевме со овој фактор како дел од анализата на корелација). Се претпоставува дека зголемувањето на уделот на урбаното население доведува и до намалување на излезноста на гласачите.

Зависната променлива - „интензитет на изборна активност“ („активна“) се операционализира преку податоци за просечна излезност по региони на сојузните избори од 1995 до 2003 година. Почетната табела со податоци за две независни и една зависна променлива ќе биде следна:

Се случува Променливи
Средства. Гор. нас. Рус. нас.
Република Адигеја 64,92 53 68
Република Алтај 68,60 24 60
Република Бурјатија 60,75 59 70
Република Дагестан 79,92 41 9
Република Ингушетија 75,05 41 23
Република Калмикија 68,52 39 37
Карачајско-черкеска Република 66,68 44 42
Република Карелија 61,70 73 73
Република Коми 59,60 74 57
Република Мари Ел 65,19 62 47

итн. (по чистењето на емисиите, остануваат 83 од 88 случаи)

Статистика што го опишува квалитетот на моделот:

1. Повеќекратен R = 0,62; L-квадрат = 0,38. Следствено, националниот фактор и факторот на урбанизација заедно објаснуваат околу 38% од варијацијата во променливата „изборна активност“.

2. Просечната грешка е 3,38. Токму вака е „во просек погрешен“ конструираниот модел кога се предвидува нивото на излезност.

3. /l-односот на објаснета и необјаснета варијација е 25,2 на ниво 0,000000003. Нултата хипотеза за случајноста на идентификуваните врски е отфрлена.

4. Критериумот / за константни и регресивни коефициенти на варијаблите „градско население“ и „руско население“ е значаен на ниво од 0,0000001; 0,00005 и 0,007 соодветно. Нултата хипотеза дека коефициентите се случајни се отфрла.

Дополнителни корисни статистики во анализата на односот помеѓу оригиналните и предвидените вредности на зависната променлива се растојанието Mahalanobis и растојанието на Кук. Првата е мерка за единственоста на случајот (покажува колку комбинацијата на вредности на сите независни променливи за даден случај отстапува од просечната вредност за сите независни променливи истовремено). Второто е мерка за влијанието на случајот. Различни набљудувања имаат различни ефекти врз наклонот на линијата на регресија, а растојанието на Кук може да се користи за нивно споредување на овој индикатор. Ова може да биде корисно кога се чисти надворешноста (оддалеченоста може да се смета за премногу влијателен случај).

Во нашиот пример, единствени и влијателни случаи го вклучуваат Дагестан.

Се случува Оригинален

вредности

Предска

вредности

Остатоци Растојание

Махаланобис

Растојание
Адигеја 64,92 66,33 -1,40 0,69 0,00
Република Алтај 68,60 69.91 -1,31 6,80 0,01
Република Бурјатија 60,75 65,56 -4,81 0,23 0,01
Република Дагестан 79,92 71,01 8,91 10,57 0,44
Република Ингушетија 75,05 70,21 4,84 6,73 0,08
Република Калмикија 68,52 69,59 -1,07 4,20 0,00

Самиот регресивен модел ги има следните параметри: Y-пресек (константа) = 75,99; b (хоризонтално) = -0,1; Комерсант (руски нас.) = -0,06. Конечна формула.

Главната карактеристика на регресивната анализа: со нејзина помош можете да добиете конкретни информации за тоа каква форма и природа има врската помеѓу променливите што се испитуваат.

Низа на фази на регресивна анализа

Да ги разгледаме накратко фазите на регресивна анализа.

    Формулација на проблем. Во оваа фаза се формираат прелиминарни хипотези за зависноста на феномените што се проучуваат.

    Дефиниција на зависни и независни (објаснувачки) променливи.

    Збирка на статистички податоци. Мора да се соберат податоци за секоја од променливите вклучени во регресиониот модел.

    Формулирање на хипотеза за формата на поврзување (едноставна или повеќекратна, линеарна или нелинеарна).

    Дефиниција регресивни функции (се состои во пресметување на нумеричките вредности на параметрите на регресивната равенка)

    Проценка на точноста на регресивната анализа.

    Толкување на добиените резултати. Добиените резултати од регресивна анализа се споредуваат со прелиминарните хипотези. Се оценуваат исправноста и веродостојноста на добиените резултати.

    Предвидување непознати вредности на зависна променлива.

Со помош на регресивна анализа, можно е да се реши проблемот со предвидување и класификација. Предвидените вредности се пресметуваат со замена на вредностите на објаснувачките променливи во регресивната равенка. Проблемот со класификацијата е решен на овој начин: регресивната линија го дели целото множество објекти на две класи, а оној дел од множеството каде вредноста на функцијата е поголема од нула припаѓа на една класа, а делот каде што е помала од нула. припаѓа на друга класа.

Проблеми со регресивна анализа

Да ги разгледаме главните задачи на регресивната анализа: утврдување на формата на зависност, одредување регресивни функции, проценка на непознати вредности на зависната променлива.

Воспоставување на форма на зависност.

Природата и формата на врската помеѓу променливите може да ги формираат следниве видови на регресија:

    позитивна линеарна регресија (изразена во униформен раст на функцијата);

    позитивна рамномерно растечка регресија;

    позитивна рамномерно растечка регресија;

    негативна линеарна регресија (изразена како подеднакво опаѓање на функцијата);

    негативна рамномерно забрзана опаѓачка регресија;

    негативна рамномерно намалувачка регресија.

Сепак, опишаните сорти обично не се наоѓаат во чиста форма, туку во комбинација едни со други. Во овој случај, зборуваме за комбинирани форми на регресија.

Дефиниција на функцијата за регресија.

Втората задача се сведува на идентификување на ефектот врз зависната променлива на главните фактори или причини, при што другите работи се еднакви и се предмет на исклучување на влијанието на случајните елементи врз зависната променлива. Регресивна функцијасе дефинира во форма на математичка равенка од еден или друг вид.

Проценка на непознати вредности на зависната променлива.

Решението за овој проблем се сведува на решавање на проблем од еден од следниве типови:

    Проценка на вредностите на зависната променлива во рамките на разгледуваниот интервал на почетните податоци, т.е. недостасуваат вредности; во овој случај, проблемот со интерполација е решен.

    Проценка на идните вредности на зависната променлива, т.е. наоѓање вредности надвор од наведениот интервал на изворните податоци; во овој случај, проблемот на екстраполација е решен.

Двата проблема се решаваат со замена на пронајдените проценки на параметрите за вредностите на независните променливи во регресивната равенка. Резултатот од решавањето на равенката е проценка на вредноста на целната (зависна) променлива.

Ајде да погледнеме некои од претпоставките на кои се потпира регресивната анализа.

Претпоставка за линеарност, т.е. односот помеѓу променливите што се разгледуваат се претпоставува дека е линеарен. Така, во овој пример, ние исцртавме расфрлање и можевме да видиме јасна линеарна врска. Ако, на дијаграмот за расејување на променливите, видиме јасно отсуство на линеарна врска, т.е. Доколку постои нелинеарна врска, треба да се користат нелинеарни методи за анализа.

Претпоставка за нормалност остатоци. Се претпоставува дека распределбата на разликата помеѓу предвидените и набљудуваните вредности е нормална. За визуелно да ја одредите природата на дистрибуцијата, можете да користите хистограми остатоци.

Кога се користи регресивна анализа, треба да се земе предвид нејзиното главно ограничување. Се состои во тоа што регресивната анализа ни овозможува да откриеме само зависности, а не врските што се во основата на овие зависности.

Регресивната анализа ви овозможува да ја процените силата на врската помеѓу променливите со пресметување на проценетата вредност на променливата врз основа на неколку познати вредности.

Регресивна равенка.

Регресивната равенка изгледа вака: Y=a+b*X

Користејќи ја оваа равенка, променливата Y се изразува во однос на константа a и наклонот на правата (или наклонот) b, помножен со вредноста на променливата X. Константата a се нарекува и термин за пресек, а наклонот е коефициентот на регресија или Б-коефициентот.

Во повеќето случаи (ако не и секогаш) постои одредено расејување на набљудувања во однос на линијата на регресија.

Остаток е отстапување на една точка (набљудување) од линијата на регресија (предвидена вредност).

За да го решите проблемот со регресивна анализа во MS Excel, изберете од менито Сервис„Пакет за анализа“и алатката за анализа на регресија. Ги поставуваме влезните интервали X и Y. Влезниот интервал Y е опсегот на зависни анализирани податоци, тој мора да вклучува една колона. Влезен интервал X е опсегот на независни податоци што треба да се анализираат. Бројот на влезни опсези не треба да надминува 16.

На излезот од постапката во излезниот опсег го добиваме извештајот даден во табела 8.3а-8,3 V.

ЗАКЛУЧОК НА РЕЗУЛТАТИ

Табела 8.3а. Статистика за регресија

Статистика за регресија

Множина Р

Р-квадрат

Нормализиран R-квадрат

Стандардна грешка

Набљудувања

Ајде прво да го погледнеме горниот дел од пресметките претставени во табела 8.3а, - статистика за регресија.

Магнитуда Р-квадрат, наречена и мерка на сигурност, го карактеризира квалитетот на добиената регресивна линија. Овој квалитет се изразува со степенот на кореспонденција помеѓу изворните податоци и регресивниот модел (пресметани податоци). Мерката за сигурност е секогаш во интервалот.

Во повеќето случаи вредноста Р-квадрате помеѓу овие вредности, наречени екстремни, т.е. помеѓу нула и еден.

Доколку вредноста Р-квадратблиску до единство, тоа значи дека конструираниот модел ја објаснува речиси целата варијабилност во соодветните променливи. Спротивно на тоа, значењето Р-квадрат, блиску до нула, значи лош квалитет на конструираниот модел.

Во нашиот пример, мерката за сигурност е 0,99673, што укажува на многу добро вклопување на линијата за регресија со оригиналните податоци.

множина Р - коефициент на повеќекратна корелација R - го изразува степенот на зависност на независните променливи (X) и зависната променлива (Y).

Множина Ре еднаква на квадратниот корен на коефициентот на определување; оваа количина зема вредности во опсег од нула до еден.

Во едноставна линеарна регресивна анализа множина Реднаков на Пирсоновиот коефициент на корелација. Навистина, множина Рво нашиот случај, тој е еднаков на коефициентот на корелација на Пирсон од претходниот пример (0,998364).

Табела 8.3б. Коефициенти на регресија

Шансите

Стандардна грешка

т-статистичка

Y-пресек

Променлива X 1

* Обезбедена е скратена верзија на пресметките

Сега разгледајте го средниот дел од пресметките претставени во табела 8.3б. Овде се дадени коефициентот на регресија b (2,305454545) и поместувањето по оската на ординатите, т.е. константа a (2,694545455).

Врз основа на пресметките, можеме да ја напишеме регресивната равенка на следниов начин:

Y= x*2,305454545+2,694545455

Насоката на врската помеѓу променливите се одредува врз основа на знаците (негативни или позитивни) на коефициентите на регресија (коефициент б).

Ако знакот на коефициентот на регресија е позитивен, односот помеѓу зависната променлива и независната променлива ќе биде позитивен. Во нашиот случај, знакот на коефициентот на регресија е позитивен, затоа и односот е позитивен.

Ако знакот на коефициентот на регресија е негативен, врската помеѓу зависната променлива и независната променлива е негативна (инверзна).

ВО табела 8.3в. се претставени излезните резултати остатоци. За да се појават овие резултати во извештајот, мора да го активирате полето за избор „Остатоци“ кога ја извршувате алатката „Регресија“.

ПОВЛЕКУВАЊЕ НА ОСТАТОКОТ

Табела 8.3в. Остатоци

Набљудување

Предвидуваше Y

Остатоци

Стандардни салда

Користејќи го овој дел од извештајот, можеме да ги видиме отстапувањата на секоја точка од конструираната регресивна линија. Најголема апсолутна вредност остатокво нашиот случај - 0,778, најмалиот - 0,043. За подобро толкување на овие податоци, ќе го користиме графикот на оригиналните податоци и конструираната регресивна линија претставена во оризот. 8.3. Како што можете да видите, линијата за регресија е сосема точно „прилагодена“ на вредностите на оригиналните податоци.

Треба да се земе предвид дека примерот што се разгледува е прилично едноставен и не е секогаш можно квалитативно да се конструира линеарна регресивна линија.

Ориз. 8.3.Изворни податоци и регресивна линија

Проблемот со проценката на непознатите идни вредности на зависната променлива врз основа на познатите вредности на независната променлива остана неразгледан, т.е. проблем со предвидување.

Имајќи регресивна равенка, проблемот со предвидувањето се сведува на решавање на равенката Y= x*2.305454545+2.694545455 со познати вредности на x. Прикажани се резултатите од предвидувањето на зависната променлива Y шест чекори напред во табела 8.4.

Табела 8.4. Y променлива прогноза резултати

Y (предвидено)

Така, како резултат на користење на регресивна анализа во Microsoft Excel, ние:

    изградил регресивна равенка;

    воспостави форма на зависност и насока на поврзување помеѓу променливите - позитивна линеарна регресија, која се изразува во рамномерен раст на функцијата;

    ја утврди насоката на врската помеѓу променливите;

    го оцени квалитетот на добиената регресивна линија;

    беа во можност да ги видат отстапувањата на пресметаните податоци од податоците на оригиналниот сет;

    предвидените идни вредности на зависната променлива.

Ако регресивна функцијадефинирани, интерпретирани и оправдани, а проценката на точноста на регресивната анализа ги исполнува барањата, конструираниот модел и предвидените вредности може да се смета дека имаат доволна сигурност.

Предвидените вредности добиени на овој начин се просечните вредности што може да се очекуваат.

Во оваа работа ги разгледавме главните карактеристики дескриптивна статистикаа меѓу нив и такви концепти како средна вредност,медијана,максимум,минимуми други карактеристики на варијација на податоците.

Накратко беше разговарано и за концептот емисиите. Разгледаните карактеристики се однесуваат на таканаречената истражувачка анализа на податоци; нејзините заклучоци може да не се однесуваат на општата популација, туку само на примерок од податоци. Истражувачката анализа на податоци се користи за да се добијат примарни заклучоци и да се формираат хипотези за популацијата.

Беа дискутирани и основите на корелација и регресивна анализа, нивните задачи и можности за практична употреба.

Концептите на корелација и регресија се директно поврзани. Постојат многу вообичаени пресметковни техники во корелација и регресивна анализа. Тие се користат за да се идентификуваат причинско-последичните врски помеѓу појавите и процесите. Меѓутоа, доколку анализа на корелацијани овозможува да ја процениме јачината и насоката на стохастичката врска, тогаш регресивна анализа- исто така форма на зависност.

Регресијата може да биде:

а) во зависност од бројот на појави (променливи):

Едноставно (регресија помеѓу две променливи);

Повеќекратно (регресија помеѓу зависната променлива (y) и неколку објаснувачки променливи (x1, x2...xn);

б) во зависност од формата:

Линеарна (прикажана со линеарна функција и има линеарни врски помеѓу променливите што се проучуваат);

Нелинеарна (прикажана со нелинеарна функција; односот помеѓу променливите што се проучуваат е нелинеарен);

в) според природата на врската помеѓу променливите вклучени во разгледувањето:

Позитивна (зголемувањето на вредноста на објаснувачката променлива доведува до зголемување на вредноста на зависната променлива и обратно);

Негативно (како што се зголемува вредноста на објаснувачката променлива, вредноста на објаснетата променлива се намалува);

г) по тип:

Директно (во овој случај, причината има директно влијание врз ефектот, т.е. зависните и објаснувачките променливи се директно поврзани една со друга);

Индиректна (објаснувачката променлива има индиректен ефект преку трета или низа други променливи на зависната променлива);

Лажно (глупости регресија) - може да настане со површен и формален пристап кон процесите и појавите што се проучуваат. Пример за бесмислен е регресијата која воспоставува врска помеѓу намалувањето на количината на алкохол што се консумира кај нас и намалувањето на продажбата на прашок за перење.

При спроведување на регресивна анализа, се решаваат следниве главни задачи:

1. Определување на формата на зависност.

2. Дефиниција на функцијата за регресија. За да го направите ова, се користи математичка равенка од еден или друг тип, што овозможува, прво, да се утврди општиот тренд на промена на зависната променлива и, второ, да се пресмета влијанието на објаснувачката променлива (или неколку променливи) врз зависната променлива.

3. Проценка на непознати вредности на зависната променлива. Добиената математичка врска (равенка на регресија) ви овозможува да ја одредите вредноста на зависната променлива и во интервалот на наведените вредности на објаснувачките променливи и надвор од него. Во вториот случај, регресивната анализа делува како корисна алатка за предвидување на промените во социо-економските процеси и појави (под услов да се одржуваат постоечките трендови и односи). Вообичаено, должината на временскиот период за кој се врши прогнозирањето се избира да биде не повеќе од половина од временскиот интервал во кој се извршени набљудувањата на почетните индикатори. Можно е да се спроведе и пасивна прогноза, решавање на проблемот со екстраполација и активна, расудување според добро познатата шема „ако..., тогаш“ и замена на различни вредности во една или повеќе објаснувачки регресивни променливи. .



За регресивна конструкцијапосебен метод наречен метод на најмали квадрати. Овој метод има предности во однос на другите методи на измазнување: релативно едноставно математичко определување на потребните параметри и добро теоретско оправдување од веројатна гледна точка.

При изборот на регресивен модел, еден од основните барања за него е да се обезбеди најголема можна едноставност, што ќе ви овозможи да добиете решение со доволна точност. Затоа, за да се воспостават статистички врски, прво, по правило, разгледуваме модел од класата на линеарни функции (како наједноставен од сите можни класи на функции):

каде bi, b2...bj се коефициенти кои го одредуваат влијанието на независните променливи xij врз вредноста yi; ai - слободен член; ei - случајно отстапување, кое го рефлектира влијанието на неотсметаните фактори врз зависната променлива; n - број на независни променливи; N е бројот на набљудувања, а условот (N . n+1) мора да биде исполнет.

Линеарен моделможе да опише многу широка класа на различни задачи. Меѓутоа, во пракса, особено во социо-економските системи, понекогаш е тешко да се користат линеарни модели поради големи грешки при приближување. Затоа, често се користат нелинеарни повеќекратни регресивни функции кои можат да се линеаризираат. Тие ја вклучуваат, на пример, производната функција (функција на моќност Коб-Даглас), која најде примена во различни социо-економски студии. Изгледа како:

каде што b 0 е факторот на нормализација, b 1 ...b j се непознати коефициенти, e i е случајно отстапување.

Користејќи природни логаритми, можете да ја трансформирате оваа равенка во линеарна форма:

Добиениот модел овозможува користење на стандардни процедури за линеарна регресија опишани погоре. Со конструирање модели од два типа (додаток и мултипликативен), можете да го изберете најдобриот и да спроведете понатамошно истражување со помали грешки при приближување.

Постои добро развиен систем за избор на приближни функции - метод на групно сметководство на аргументи(MGUA).

Коректноста на избраниот модел може да се процени според резултатите од проучувањето на остатоците, кои се разликите помеѓу набљудуваните вредности y i и соодветните вредности y i предвидени со помош на регресивната равенка. Во овој случај да се провери соодветноста на моделотпресметан просечна грешка при приближување:

Моделот се смета за соодветен ако e е во рамките на не повеќе од 15%.

Посебно нагласуваме дека во однос на социо-економските системи не секогаш се исполнети основните услови за адекватност на класичниот регресивен модел.

Без да се задржуваме на сите причини за несоодветноста што се јавува, само ќе наведеме мултиколинеарност- најтешкиот проблем за ефективно примена на процедурите за регресивна анализа во проучувањето на статистичките зависности. Под мултиколинеарностсе подразбира дека постои линеарна врска помеѓу објаснувачките променливи.

Овој феномен:

а) го искривува значењето на коефициентите на регресија при нивното значајно толкување;

б) ја намалува точноста на оценувањето (дисперзијата на проценките се зголемува);

в) ја зголемува чувствителноста на проценките на коефициентите на податоците од примерокот (зголемувањето на големината на примерокот може многу да влијае на проценките).

Постојат различни техники за намалување на мултиколинеарноста. Најпристапен начин е да се елиминира една од двете променливи ако коефициентот на корелација помеѓу нив надминува вредност еднаква во апсолутна вредност на 0,8. Која од променливите да се задржи се одлучува врз основа на суштински размислувања. Потоа повторно се пресметуваат коефициентите на регресија.

Користењето на алгоритам за постепено регресија ви овозможува последователно да вклучите една независна променлива во моделот и да го анализирате значењето на коефициентите на регресија и мултиколинеарноста на променливите. Конечно, во односот што се проучува остануваат само оние променливи кои ја обезбедуваат потребната значајност на коефициентите на регресија и минималното влијание на мултиколинеарноста.

Во претходните објави, анализата често се фокусираше на една нумеричка променлива, како што се враќање на заеднички фондови, времиња на вчитување на веб-страници или потрошувачка на безалкохолни пијалоци. Во оваа и следните белешки, ќе ги разгледаме методите за предвидување на вредностите на нумеричка променлива во зависност од вредностите на една или повеќе други нумерички променливи.

Материјалот ќе биде илустриран со вкрстен пример. Прогнозирање на обемот на продажба во продавница за облека.Синџирот на продавници за облека со попуст на Sunflowers постојано се шири веќе 25 години. Сепак, компанијата во моментов нема систематски пристап за избор на нови продажни места. Локацијата на која компанијата има намера да отвори нова продавница се одредува врз основа на субјективни размислувања. Критериумите за избор се поволни услови за изнајмување или идејата на менаџерот за идеалната локација на продавницата. Замислете дека сте раководител на одделот за специјални проекти и планирање. Имате задача да развиете стратешки план за отворање нови продавници. Овој план треба да содржи прогноза за годишна продажба за новоотворените продавници. Вие верувате дека малопродажниот простор е директно поврзан со приходите и сакате да го вклучите ова во вашиот процес на донесување одлуки. Како да развиете статистички модел за да ја предвидите годишната продажба врз основа на големината на новата продавница?

Вообичаено, регресивната анализа се користи за предвидување на вредностите на променливата. Неговата цел е да развие статистички модел кој може да ги предвиди вредностите на зависната променлива или одговор од вредностите на најмалку една независна или објаснувачка променлива. Во оваа белешка, ќе разгледаме едноставна линеарна регресија - статистички метод кој ви овозможува да ги предвидите вредностите на зависната променлива Yпо вредности на независни променливи X. Следните белешки ќе опишат повеќекратен регресивен модел дизајниран да ги предвиди вредностите на независна променлива Yврз основа на вредностите на неколку зависни променливи ( X 1, X 2, ..., X k).

Преземете ја белешката во или формат, примери во формат

Видови регресивни модели

Каде ρ 1 – коефициент на автокорелација; Ако ρ 1 = 0 (без автокорелација), Д≈ 2; Ако ρ 1 ≈ 1 (позитивна автокорелација), Д≈ 0; Ако ρ 1 = -1 (негативна автокорелација), Д ≈ 4.

Во пракса, примената на критериумот Дурбин-Ватсон се заснова на споредување на вредноста Дсо критички теоретски вредности dLИ dUза даден број на набљудувања n, број на независни променливи на моделот к(за едноставна линеарна регресија к= 1) и ниво на значајност α. Ако Д< d L , хипотезата за независноста на случајните отстапувања се отфрла (оттука, постои позитивна автокорелација); Ако D>dU, хипотезата не се отфрла (односно, нема автокорелација); Ако dL< D < d U , нема доволно основи за донесување одлука. Кога пресметаната вредност Днадминува 2, потоа со dLИ dUНе се споредува самиот коефициент Д, и изразот (4 - Д).

За да ја пресметаме статистиката на Дурбин-Ватсон во Excel, да се свртиме кон долната табела на Сл. 14 Повлекување на рамнотежа. Бројачот во изразот (10) се пресметува со помош на функцијата =SUMMAR(низа1;низа2), а именителот =SUMMAR(низа) (сл. 16).

Ориз. 16. Формули за пресметување на статистиката на Дурбин-Ватсон

Во нашиот пример Д= 0,883. Главното прашање е: која вредност на статистиката на Дурбин-Вотсон треба да се смета за доволно мала за да се заклучи дека постои позитивна автокорелација? Неопходно е да се поврзе вредноста на D со критичните вредности ( dLИ dU), во зависност од бројот на набљудувања nи ниво на значајност α (сл. 17).

Ориз. 17. Критични вредности на статистиката на Дурбин-Ватсон (фрагмент од табела)

Така, во проблемот со обемот на продажба во продавница која доставува стока до дома, постои една независна променлива ( к= 1), 15 набљудувања ( n= 15) и ниво на значајност α = 0,05. Оттука, dL= 1,08 и гУ= 1,36. Затоа што Д = 0,883 < dL= 1,08, постои позитивна автокорелација помеѓу резидуалите, методот на најмали квадрати не може да се користи.

Тестирање хипотези за наклон и коефициент на корелација

Погоре, регресијата се користеше исклучиво за предвидување. Да се ​​утврдат коефициентите на регресија и да се предвиди вредноста на променливата Yза дадена вредност на променливата XБеше користен методот на најмали квадрати. Дополнително, ја испитавме коренската средна квадратна грешка на проценката и мешаниот коефициент на корелација. Доколку анализата на резидуалите потврди дека условите за применливост на методот на најмали квадрати не се прекршени, а едноставниот линеарен регресивен модел е соодветен, врз основа на податоците од примерокот, може да се тврди дека постои линеарна врска помеѓу променливите во популација.

Апликацијат -критериуми за наклон.Со тестирање дали наклонот на популацијата β 1 е еднаков на нула, можете да одредите дали постои статистички значајна врска помеѓу променливите XИ Y. Ако оваа хипотеза се отфрли, може да се тврди дека помеѓу променливите XИ Yпостои линеарна врска. Нултата и алтернативната хипотеза се формулирани на следниов начин: H 0: β 1 = 0 (нема линеарна зависност), H1: β 1 ≠ 0 (постои линеарна зависност). А-приоритет т- статистиката е еднаква на разликата помеѓу наклонот на примерокот и хипотетичката вредност на наклонот на популацијата, поделена со коренската средна квадратна грешка на проценката на наклонот:

(11) т = (б 1 β 1 ) / S b 1

Каде б 1 – наклон на директна регресија на податоците од примерокот, β1 – хипотетички наклон на директна популација, , и тест статистика тТоа има т-дистрибуција со n – 2степени на слобода.

Ајде да провериме дали постои статистички значајна врска помеѓу големината на продавницата и годишната продажба на α = 0,05. т-критериумот се прикажува заедно со другите параметри кога се користи Пакет за анализа(опција Регресија). Целосните резултати од Пакетот за анализа се прикажани на сл. 4, фрагмент поврзан со t-статистика - на Сл. 18.

Ориз. 18. Резултати од апликацијата т

Од бројот на продавници n= 14 (види слика 3), критична вредност т- статистиката на ниво на значајност од α = 0,05 може да се најде со помош на формулата: tL=STUDENT.ARV(0,025,12) = –2,1788, каде што 0,025 е половина од нивото на значајност, и 12 = n – 2; т У=СТУДЕНТ.ОБР(0.975,12) = +2.1788.

Затоа што т-статистика = 10,64 > т У= 2,1788 (сл. 19), нулта хипотеза H 0одбиено. На другата страна, Р-вредност за X= 10,6411, пресметано со формулата =1-STUDENT.DIST(D3,12,TRUE), е приближно еднаква на нула, така што хипотезата H 0повторно одбиен. Фактот дека Р-Вредноста од речиси нула значи дека ако нема вистинска линеарна врска помеѓу големината на продавниците и годишната продажба, практично би било невозможно да се открие со помош на линеарна регресија. Затоа, постои статистички значајна линеарна врска помеѓу просечната годишна продажба на продавницата и големината на продавницата.

Ориз. 19. Тестирање на хипотезата за наклонот на населението на ниво на значајност од 0,05 и 12 степени на слобода

АпликацијаФ -критериуми за наклон.Алтернативен пристап за тестирање на хипотезите за наклонот на едноставна линеарна регресија е да се користи Ф-критериуми. Да ве потсетиме дека Ф-тест се користи за тестирање на врската помеѓу две варијанси (за повеќе детали, види). При тестирање на хипотезата за наклон, мерката на случајните грешки е варијансата на грешката (збирот на квадратните грешки поделен со бројот на степени на слобода), така што Ф-критериумот го користи односот на варијансата објаснет со регресијата (т.е. вредноста РБС, поделено со бројот на независни променливи к), до варијансата на грешката ( MSE = S YX 2 ).

А-приоритет Ф- статистиката е еднаква на средниот квадрат на регресија (MSR) поделен со варијансата на грешката (MSE): Ф = MSR/ MSE, Каде MSR=РБС / к, MSE =ЈЈИ/(n– к – 1), к– број на независни променливи во регресиониот модел. Тест статистика ФТоа има Ф-дистрибуција со кИ n– k – 1степени на слобода.

За дадено ниво на значајност α, правилото за одлучување се формулира на следниов начин: ако F>FУ, нултата хипотеза се отфрла; во спротивно не се отфрла. Резултатите, претставени во форма на збирна табела на анализа на варијанса, се прикажани на сл. 20.

Ориз. 20. Табела за анализа на варијанса за тестирање на хипотезата за статистичката значајност на коефициентот на регресија

Исто така т-критериуми Ф-критериумот се прикажува во табелата кога се користи Пакет за анализа(опција Регресија). Целосни резултати од работата Пакет за анализасе прикажани на сл. 4, фрагмент поврзан со Ф-статистика – на Сл. 21.

Ориз. 21. Резултати од апликацијата Ф-критериуми добиени со помош на пакетот за анализа на Excel

Статистиката F е 113,23, и Р-вредност блиску до нула (ќелија ЗначењеФ). Ако нивото на значајност α е 0,05, определи ја критичната вредност Ф-со формулата може да се добијат распределби со еден и 12 степени на слобода F U=F.OBR(1-0.05;1;12) = 4.7472 (сл. 22). Затоа што Ф = 113,23 > F U= 4,7472, и Р- вредност блиску до 0< 0,05, нулевая гипотеза H 0се отфрла, т.е. Големината на продавницата е тесно поврзана со нејзината годишна продажба.

Ориз. 22. Тестирање на хипотезата за наклон на населението на ниво на значајност од 0,05 со еден и 12 степени на слобода

Интервал на доверба кој содржи наклон β 1 .За да ја тестирате хипотезата дека постои линеарна врска помеѓу променливите, можете да конструирате интервал на доверба што го содржи наклонот β 1 и да потврдите дека хипотетичката вредност β 1 = 0 припаѓа на овој интервал. Центарот на интервалот на доверба што го содржи наклонот β 1 е наклонот на примерокот б 1 , а нејзините граници се количините b 1 ±tn –2 S b 1

Како што е прикажано на сл. 18, б 1 = +1,670, n = 14, S b 1 = 0,157. т 12 =STUDENT.ARV(0,975,12) = 2,1788. Оттука, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. Така, постои веројатност од 0,95 дека наклонот на населението лежи помеѓу +1.328 и +2.012 (т.е. 1.328.000 до 2.012.000 долари). Бидејќи овие вредности се поголеми од нула, постои статистички значајна линеарна врска помеѓу годишната продажба и површината на продавницата. Ако интервалот на доверба содржи нула, нема да има врска помеѓу променливите. Дополнително, интервалот на доверба значи дека секое зголемување на површината на продавницата за 1.000 квадратни. ft резултира со зголемување на просечниот обем на продажба помеѓу 1.328.000 и 2.012.000 долари.

Употребат -критериуми за коефициентот на корелација.беше воведен коефициент на корелација р, што е мерка за односот помеѓу две нумерички променливи. Може да се користи за да се утврди дали постои статистички значајна врска помеѓу две променливи. Да го означиме коефициентот на корелација помеѓу популациите на двете променливи со симболот ρ. Нултата и алтернативната хипотеза се формулирани на следниов начин: H 0: ρ = 0 (без корелација), H 1: ρ ≠ 0 (постои корелација). Проверка на постоење на корелација:

Каде р = + , Ако б 1 > 0, р = – , Ако б 1 < 0. Тестовая статистика тТоа има т-дистрибуција со n – 2степени на слобода.

Во проблемот за синџирот продавници „Сончоглед“. r 2= 0,904, а б 1- +1,670 (види слика 4). Затоа што б 1> 0, коефициентот на корелација помеѓу годишната продажба и големината на продавницата е р= +√0,904 = +0,951. Ајде да ја тестираме нултата хипотеза дека не постои корелација помеѓу овие променливи користејќи т- статистика:

На ниво на значајност од α = 0,05, нултата хипотеза треба да се отфрли бидејќи т= 10,64 > 2,1788. Така, може да се тврди дека постои статистички значајна врска помеѓу годишната продажба и големината на продавницата.

Кога се дискутираат заклучоците во врска со наклонот на популацијата, интервалите на доверба и тестовите за хипотези се користат наизменично. Сепак, пресметувањето на интервалот на доверба што го содржи коефициентот на корелација се покажува како потешко, бидејќи типот на дистрибуција на примерок на статистиката рзависи од вистинскиот коефициент на корелација.

Проценка на математичко очекување и предвидување на поединечни вредности

Овој дел ги разгледува методите за проценка на математичкото очекување на одговорот Yи предвидувања на индивидуалните вредности Yза дадени вредности на променливата X.

Конструирање интервал на доверба.Во примерот 2 (види дел погоре Метод на најмал квадрат) равенката на регресија овозможи да се предвиди вредноста на променливата Y X. Во проблемот со избор на локација за малопродажба, просечниот годишен обем на продажба во продавница со површина од 4000 кв. стапки беше еднакво на 7,644 милиони долари.Сепак, оваа проценка на математичкото очекување на општата популација е точка-мудра. За да се процени математичкото очекување на населението, беше предложен концептот на интервал на доверба. Слично на тоа, можеме да го воведеме концептот интервал на доверба за математичкото очекување на одговоротза дадена вредност на променливата X:

Каде , = б 0 + б 1 X i– предвидената вредност е променлива Yна X = X i, S YX- корен средна квадратна грешка, n- големина на примерокот, Xјас- одредена вредност на променливата X, µ Y|X = Xјас– математичко очекување на променливата Yна X = Кси, SSX =

Анализата на формулата (13) покажува дека ширината на интервалот на доверба зависи од неколку фактори. На дадено ниво на значајност, зголемувањето на амплитудата на флуктуации околу линијата на регресија, мерено со користење на коренската средна квадратна грешка, доведува до зголемување на ширината на интервалот. Од друга страна, како што би се очекувало, зголемувањето на големината на примерокот е придружено со стеснување на интервалот. Покрај тоа, ширината на интервалот се менува во зависност од вредностите Xјас. Ако вредноста на променливата Yпредвидени за количини X, блиску до просечната вредност , интервалот на доверба се покажува како потесен отколку кога се предвидува одговорот за вредности далеку од просекот.

Да речеме дека при изборот на локација на продавницата, сакаме да изградиме интервал на доверба од 95% за просечната годишна продажба на сите продавници чија површина е 4000 квадратни метри. стапала:

Затоа, просечниот годишен обем на продажба во сите продавници со површина од 4.000 кв. стапки, со 95% веројатност лежи во опсег од 6,971 до 8,317 милиони долари.

Пресметајте го интервалот на доверба за предвидената вредност.Покрај интервалот на доверба за математичкото очекување на одговорот за дадена вредност на променливата X, често е неопходно да се знае интервалот на доверба за предвидената вредност. Иако формулата за пресметување на таков интервал на доверба е многу слична со формулата (13), овој интервал ја содржи предвидената вредност наместо проценката на параметарот. Интервал за предвидениот одговор YX = Ксиза одредена променлива вредност Xјасопределено со формулата:

Да претпоставиме дека, при изборот на локација за малопродажба, сакаме да изградиме интервал на доверба од 95% за предвидениот годишен обем на продажба за продавница чија површина е 4000 квадратни метри. стапала:

Според тоа, предвидениот годишен обем на продажба за продавница со површина од 4000 кв. стапки, со 95% веројатност се наоѓа во опсег од 5,433 до 9,854 милиони долари Како што можеме да видиме, интервалот на доверба за предвидената вредност на одговорот е многу поширок од интервалот на доверба за неговите математичко очекување. Тоа е затоа што варијабилноста во предвидувањето на поединечните вредности е многу поголема отколку во проценката на математичкото очекување.

Замки и етички прашања поврзани со користење на регресија

Тешкотии поврзани со регресивна анализа:

  • Игнорирање на условите за применливост на методот на најмали квадрати.
  • Погрешна проценка на условите за применливост на методот на најмали квадрати.
  • Неправилен избор на алтернативни методи кога се прекршени условите за применливост на методот на најмали квадрати.
  • Примена на регресивна анализа без длабоко познавање на предметот на истражување.
  • Екстраполирање на регресија надвор од опсегот на објаснувачката променлива.
  • Конфузија помеѓу статистичките и причинско-последичните врски.

Широката употреба на табеларни пресметки и статистички софтвер ги елиминираше пресметковните проблеми што ја попречуваа употребата на регресивна анализа. Сепак, ова доведе до фактот дека регресивната анализа ја користеа корисници кои немаа доволно квалификации и знаење. Како можат корисниците да знаат за алтернативните методи ако многу од нив воопшто немаат идеја за условите за применливост на методот на најмали квадрати и не знаат како да ја проверат нивната имплементација?

Истражувачот не треба да се занесува со крцкави бројки - пресметување на поместувањето, наклонот и мешаниот коефициент на корелација. Нему му треба подлабоко знаење. Ајде да го илустрираме ова со класичен пример земен од учебници. Анскомб покажа дека сите четири множества на податоци прикажани на сл. 23, ги имаат истите параметри за регресија (сл. 24).

Ориз. 23. Четири вештачки збирки на податоци

Ориз. 24. Регресивна анализа на четири вештачки множества на податоци; направено со Пакет за анализа(кликнете на сликата за да ја зголемите сликата)

Значи, од гледна точка на регресивна анализа, сите овие збирки на податоци се целосно идентични. Ако анализата завршеше таму, ќе изгубивме многу корисни информации. Ова е потврдено со графиците на расејување (Слика 25) и преостанатите парцели (Слика 26) конструирани за овие збирки на податоци.

Ориз. 25. Скатер за четири групи податоци

Растераните и преостанатите парцели покажуваат дека овие податоци се разликуваат едни од други. Единственото множество распределено по права линија е поставено A. Заплетот на резидуалите пресметани од множеството А нема никаков образец. Ова не може да се каже за множествата B, C и D. Заплетот на расејување нацртан за множеството B покажува изразена квадратна шема. Овој заклучок е потврден со резидуалната парцела, која има параболична форма. Графикот на расејување и преостанатата графика покажуваат дека множеството податоци Б содржи оддалеченост. Во оваа ситуација, неопходно е да се исклучи оддалеченоста од збирот на податоци и да се повтори анализата. Методот за откривање и елиминирање на оддалечените во набљудувањата се нарекува анализа на влијание. По елиминирањето на надворешноста, резултатот од повторното проценување на моделот може да биде сосема поинаков. Скатерплатот нацртан од податоците од множеството G илустрира необична ситуација во која емпирискиот модел е значително зависен од индивидуалниот одговор ( X 8 = 19, Y 8 = 12,5). Ваквите модели на регресија мора да се пресметуваат особено внимателно. Значи, расеаните и резидуалните парцели се суштинска алатка за регресивна анализа и треба да бидат составен дел од неа. Без нив, регресивната анализа не е веродостојна.

Ориз. 26. Преостанати парцели за четири податочни групи

Како да избегнете замки во регресивната анализа:

  • Анализа на можните врски помеѓу променливите XИ Yсекогаш започнувајте со цртање на распрскувач.
  • Пред да ги толкувате резултатите од регресивната анализа, проверете ги условите за нејзината применливост.
  • Нацртај ги остатоците наспроти независната променлива. Ова ќе овозможи да се одреди колку добро емпирискиот модел се совпаѓа со резултатите од набљудувањето и да се открие повреда на константноста на варијансата.
  • Користете хистограми, графици на стеблото и листот, графиците на кутии и графиците за нормална дистрибуција за да ја тестирате претпоставката за нормална дистрибуција на грешки.
  • Доколку условите за применливост на методот на најмали квадрати не се исполнети, користете алтернативни методи (на пример, модели на квадратна или повеќекратна регресија).
  • Доколку се исполнети условите за применливост на методот на најмали квадрати, потребно е да се тестира хипотезата за статистичката значајност на коефициентите на регресија и да се конструираат интервали на доверба кои ги содржат математичкото очекување и предвидената вредност на одговорот.
  • Избегнувајте предвидување вредности на зависната променлива надвор од опсегот на независната променлива.
  • Имајте на ум дека статистичките врски не се секогаш причинско-последични. Запомнете дека корелацијата помеѓу променливите не значи дека постои причинско-последична врска меѓу нив.

Резиме.Како што е прикажано на блок дијаграмот (Слика 27), забелешката го опишува едноставниот линеарен регресивен модел, условите за неговата применливост и како да се тестираат овие услови. Се смета т-критериум за тестирање на статистичката значајност на наклонот на регресија. Се користеше регресивен модел за предвидување на вредностите на зависната променлива. Се разгледува пример поврзан со изборот на локација за малопродажба, во кој се испитува зависноста на годишниот обем на продажба од областа на продавницата. Добиените информации ви овозможуваат попрецизно да изберете локација за продавница и да го предвидите нејзиниот годишен обем на продажба. Следниве белешки ќе ја продолжат дискусијата за регресивна анализа и исто така ќе разгледаат повеќекратни регресивни модели.

Ориз. 27. Забелешка структура дијаграм

Користени се материјали од книгата Левин и др.Статистика за менаџери. – М.: Вилијамс, 2004. – стр. 792–872

Ако зависната променлива е категорична, мора да се користи логистичка регресија.