3
Розрахунок параметрів лінійної регресії за методом найменших квадратів.
Звернемося до прикладу простої економетричної моделі, де потрібно кількісно оцінити зв'язок між витратами на споживання та доходами сім'ї. Припустимо, що економетрична модель споживання будується для тієї групи людей, в якій зі збільшенням доходів зростають витрати на споживання, тобто модель має вигляд
Y = a0 + a1X + u
Щоб оцінити параметри моделі необхідно сформувати вхідну, сукупність спостережень, кожна одиниця якої характеризуватиметься витратами на споживання і доходами сімей.
Зобразимо кожну пару спостережень у системі координат, де величина витрат на споживання відкладається на осі ординат, а доходів – на осі абцис. У результаті дістанемо кореляційне поле точок (рис. 1).
Рис.1. Кореляційне поле точок
На підставі гіпотези про лінійність зв'язку між витратами на споживання і доходом сімей (див. рис.1), через кореляційне поле точок можна провести безліч прямих ліній, які різняться між собою параметрами . Так,
· якщо витрати на споживання описуватимуться прямою I, то відхилення їх фактичних значень від розрахункових матимуть переважно знак «мінус».
· Якщо вони описуватимуться прямою III, то ці відхилення будуть переважно додатними,
· якщо прямою II, то кількість від'ємних і додатних відхилень буде приблизно однаковою.
Наявність серед відхилень переважно від'ємних чи додатних значень підтверджує, що вони мають невипадковий характер. А це означає: певна пряма лінія не адекватно описує фактичну залежність між витратами на споживання і доходом сімей. Звідси постає задача – застосувати метод найменших квадратів для оцінювання параметрів моделі, щоб відхилення фактичних витрат від розрахункових на основі прямої мали приблизно однакову суму від'ємних і додатніх значень, а також були б найменшими. Останнє буде свідчити про те, що розрахункові значення витрат на споживання максимально наближені до фактичних, а це є гарантом вірогідності моделі.
Не доцільно знаходити параметри економетричної моделі, мінімізуючи суму лінійних відхилень фактичних витрат на споживання від розрахункових, бо вона може дорівнювати нулю, якщо сума від'ємних і додатних відхилень буде однаковою. Тому мінімізації підлягає сума квадратів відхилень, і величина її залежатиме безпосередньо від розсіювання точок навколо лінії регресії, а саме:
.
Принцип найменших квадратів відхилень полягає в знаходженні таких
для яких найменша. Необхідна умова для цього – перетворення на нуль похідних цієї функції за кожним із параметрів . Метод, який реалізує принцип найменших квадратів, називається методом найменших квадратів (1МНК). Оскільки
то
Виконавши елементарні перетворення, дістанемо систему нормальних рівнянь
(1)
Підставимо в систему (1) значення які можна дістати на підставі сукупності спостережень, і розв'яжемо її відносно невідомих параметрів :
(2)
Оскільки оцінки найменших квадратів такі, що лінія регресії обов'язково проходить через точку середніх значень , то оцінку параметра можна обчислити, використавши співвідношення
(3)
Оцінки параметрів можна дістати також, записавши відхилення кожної змінної від її середнього арифметичного значення, згадавши при цьому, що сума таких відхилень завжди дорівнює нулю.
(4)
Розглянемо .
Скористаємося матричним записом моделі
Y = XA + u,
для якої виконуються умови
M(u)=0,
var(u) = M(uu') = s2E = s2u,
M (X'u)=0,
щоб оцінити параметри методом 1МНК.
Рівняння Y = XA + u, подамо у вигляді:
u = Y - ХА.
Тоді суму квадратів залишків u можна записати так:
Продиференціюємо цю умову за А і прирівняємо похідні до нуля:
або
(5)
Тут X' – матриця, транспонована до матриці незалежних змінних X.
Звідси
= (X'X)-1X'Y
(6)
Рівняння (5) дає матричну форму запису системи нормальних рівнянь, а формула (6) показує, що значення вектора є розв'язком системи таких рівнянь. Неважко показати, що оцінки , обчислені за (5), мінімізують суму квадратів залишків u. При цьому значення вектору є розв'язком системи нормальних рівнянь.
Якщо незалежні змінні в матриці Х взяті як відхилення кожного значення від свого середнього, то матрицю X'X називають матрицею моментів.
Числа, що розміщені на її головній діагоналі, характеризують величину дисперсій незалежних змінних, інші елементи відповідають взаємним коваріаціям. Отже, структура матриці моментів відбиває зв'язки між незалежними змінними. Чим ближчі показники коваріацій до величини дисперсій, тим ближчий визначник матриці X'X до нуля і тим гірші оцінки параметрів . Далі буде показано, що стандартні помилки параметрів прямо пропорційні до значень, розміщених на головній діагоналі матриці (X'X)-1.
Для фактичних значень незалежної змінної модель має вигляд:
Y = a0 + a1X + u,
а для розрахункових:
Тому залишки обчислюються згідно з рівністю .
Незміщена оцінка дисперсії залишків подається так:
(7)
Розглянемо оцінювання параметрів моделі 1МНК.