Нехай у нас є набір значень (набір даних, спостережень) двох змінних. .
Насправді, для одного і того ж X ми можемо спостерігати різні значення Y.
Приклад 3.11. Якщо X - вік працівника, а Y - його зарплата, то працівники мають однаковий вік цілком реально можуть мати різну заробітну плату.
Приклад 3.12. Якщо X - дохід сім'ї, а Y - витрати сім'ї на харчування, то сім'ї з однаковим доходом цілком реально можуть витрачати на харчування різні суми.
Вибір складу і формули зв'язку змінних називається специфікацією моделі (специфікацією рівняння регресії).
Специфікація моделі відображає наше уявлення про механізм залежності Y від X і сам вибір пояснює змінної X.
Наприклад, Кейнсом була запропонована наступна формула залежності приватного (індивідуального) споживання «С» від наявного доходу «»:
,
- величина автономного споживання;
- гранична схильність до споживання.
В даному випадку обрана лінійна формула. Однак до тих пір, поки не оцінені кількісні значення параметрів і b. не перевірена надійність зроблених оцінок. ця формула залишається лише гіпотезою. Оцінка значень параметрів обраної формули статистичного зв'язку змінних називається параметризацією рівняння регресії і проводиться методом найменших квадратів.
Як же перевірити надійність оцінок параметрів?
Запишемо рівняння моделі. відбиває залежність від. у вигляді:
- значення змінних і помилки в i -тому спостереженні;
- невипадкова (детермінована) величина;
- істинні значення параметрів моделі.
Рівняння (3.6) - це специфікація моделі.
Яка природа помилки?
Зазвичай припускають, що все обурення, що впливають на що пояснюється змінну і не враховані явно в економетричної моделі, надають на що пояснюється змінну деякий результуюче вплив. величина якого невідома заздалегідь і пов'язана з випадковістю. Для її опису в модель додають (зазвичай адитивним чином) випадкову складову ( «Ксі»), інтегруючу в собі вплив всіх неврахованих явно в моделі збурень.
Найбільш суттєві причини обов'язкової присутності в моделях випадковості наступні:
1.Невключеніе в модель всіх пояснюють змінних.
Наша модель є спрощенням дійсності і насправді є ще інші змінні (пропущені змінні), від яких залежить Y.
Зарплата, наприклад, може залежати не тільки від віку працівника, а й від рівня освіти працівника, стажу роботи, статі, типу фірми (державна, приватна) і т.п.
Витрати на харчування - не тільки від доходу сім'ї, а й від розміру сім'ї, загального рівня цін, регіону проживання і т.п.
2.Трудності в вимірі даних (в даних присутні помилки вимірювань).
Наприклад, дані по витратах сім'ї на харчування складаються на підставі записів учасників опитувань, які, як передбачається, ретельно фіксують свої щоденні витрати. Зрозуміло, при цьому можливі помилки.
3.Ограніченность обсягу статистичних даних (обмеженість обсягу масиву спостережень).
Компонента є сумарним проявом всіх цих причин.
Таким чином, можна вважати, що - випадкова величина з деякою функцією розподілу, якій відповідає функція розподілу випадкової величини. Зауважимо, що оцінки параметрів моделі. будучи функціями випадкових спостережень, також є випадкові величини.
З оціненого за вибіркою рівняння регресії передбачене значення в точці (прогноз значення в точці) складе:
,
- оцінки істинних значень параметрів. моделі (3.6) (оцінки параметрів регресії).
Залишки регресії (відхилення теоретичних значень від спостережуваних) визначаються з рівняння:
.
Не слід плутати остаткірегрессіі з ошібкамірегрессіі в рівнянні моделі. Різниця полягає в тому, що залишки. на відміну від помилок. спостережувані.
Залишки регресії - це спостережувані значення помилок в рівнянні моделі.
Перевірка надійності оцінок параметрів моделі передбачає:
- перевірку статистичної значимості оцінок параметрів моделі;
- визначення довірчих інтервалів для параметрів моделі.
t-тест Стьюдента для перевірки на значимість оцінок параметрів регресії, визначених методом найменших квадратів
Можна показати, що оцінки параметрів, визначені методом найменших квадратів, розподілені по нормальному закону розподілу.
Визначимо дисперсії оцінок параметрів регресії.
Для цього необхідно знати дисперсію помилок.
Але оскільки на практиці, як правило, дисперсія помилок невідома і оцінюється за спостереженнями одночасно з оцінюванням параметрів регресії. замість дисперсії оцінок ми можемо отримати лише оцінки дисперсії оцінок.
1. Несмещенная оцінка дисперсії помилок:
,
- залишки регресії (відхилення теоретичних значень від спостережуваних)
;
- i -тая точка на регресійній прямий, яка відповідає спостережуваному значенням;
n - розмір вибірки (кількість спостережень);
k - кількість оцінених параметрів (в разі парної регресії. тому оцінюється два параметри: і).
2. Оцінки дисперсії оцінок параметрів регресії:
;
- оцінка дисперсії оцінки;
- оцінка дисперсії оцінки;
- середнє по вибірці значення X..
Оцінки стандартних відхилень (оцінки стандартних помилок) оцінок параметрів регресії, які наводяться в результатах регресії в статистичних пакетах, обчислюються на основі цих формул:
.
Зауваження. Припустимо, що ми вивчаємо залежність Y від X і число спостережень n задано, але ми можемо вибирати набір. Як вибрати так, щоб точність оцінки кутового коефіцієнта була найбільшою? Оцінка дисперсії оцінки задається формулою (3.7), звідки видно, що чим більше. тим менше величина оцінки дисперсії. Тому бажано вибирати таким чином, щоб їх розкид навколо середнього значення був великим.