гіпотез. Часто необхідно знати закон розподілу генеральної сукупності. Якщо закон розподілу невідомий, то є підстави припустити, що він має визначений вид (назвемо його А), висувають гіпотезу: генеральна сукупність розподілена по закону А. Таким чином, в цій гіпотезі мова йде про вид розподілу, що припускається.
Можливий випадок, коли закон розподілу відомий, а його параметри невідомі. Якщо є підстави припустити, що невідомий параметр И дорівнює певному значенню И0, висувають гіпотезу: И=И0. Таким чином, в цій гіпотезі мова йде про величину параметру, що припускається, одного відомого розподілу.
Можливі й інші гіпотези: про рівність двох або декількох розподілів, про незалежність вибірок та багато інше.
Статистичною називають гіпотезу про вид невідомого розподілу, або про параметри відомих розподілів.
Наприклад, статистичними будуть гіпотези:
“генеральна сукупність розподілена по закону Пуасона”;
“дисперсії двох нормальних сукупностей рівні між собою”.
Гіпотеза ж “У 2004 р. Президентом України буде обраний В.А.Ющенко” не є статистичною, оскільки в ній не йде мова ні про вид, ні про параметри розподілу.
Наряду із висунутою гіпотезою розглядається і суперечлива їй гіпотеза. Якщо висунута гіпотеза буде відкинутою, то має місце суперечна їй гіпотеза. З цих причин ці гіпотези доцільно розрізняти.
Нульовою (основною) називають висунуту гіпотезу Н0.
Конкуруючою (альтернативною) називають гіпотезу Н1, що суперечить нульовій.
Наприклад, якщо нульова гіпотеза полягає у припущенні, що математичне очікування нормального розподілу дорівнює 10, то конкуруюча гіпотеза, зокрема, може бути у припущенні, що a ? 10.
Коротко це записується так:
Н0 : а = 10; Н1 : а ? 10.
Відрізняють гіпотези, що містять тільки одне і більше одного припущення.
Простою називають гіпотезу, що містить тільки одне припущення. Наприклад, якщо л - параметр показового розподілу, то гіпотеза Н0 : л = 5 – проста.
Складною називають гіпотезу, що складається із скінченого або безкінечного числа простих гіпотез. Наприклад, складна гіпотеза Н : л >5 складається із незчисленної множини простих виду Ні : л = b і, де b і – довільне число, більше за 5.
Помилки першого та другого роду.
Висунута гіпотеза може бути правильною чи неправильною, тому виникає необхідність її перевірки. Оскільки перевірку виконують статистичними методами, її називається статистичною. В результаті статистичної перевірки гіпотези у двох випадках може бути прийнятим неправильне рішення, тобто можуть бути допущені помилки двох родів.
Помилка першого роду полягає у тому, буде відкинута правильна гіпотеза,
Помилка другого роду полягає у тому, що буде прийнятою неправильна гіпотеза.
Підкреслимо, що наслідки цих помилок можуть статися дуже різними. Наприклад, якщо відкинуте правильне рішення “збити літак”, то ця помилка першого роду призведе до матеріальних та людських втрат (в разі бомбування, якщо літак був ворожим); якщо ж було прийнятим неправильне рішення “продовжити політ літака”, не дивлячись на загрозу бомбування, то ця помилка другого роду знову таки призведе до матеріальних та людських втрат.
Ймовірність зробити помилку першого роду прийнято позначати через б; її називають рівнем значущості. Найбільш часто рівень значущості приймається рівним .05 або .01.
Запитання для роздумів, самоконтролю, повторення
Лекція 7. Послідовний аналіз.
Послідовний аналіз – розділ математичної статистики, характерною рисою котрого є те, що число виконуваних спостережень (момент зупинки спостережень) не фіксується зараннє, а вибирається в ході спостережень в залежності від значень даних. Висновок про закінчення експерименту залежить на кожній даній стадії експерименту від результатів попередніх спостережень. Достойність даного метода, вживаного при перевірці статистичних гіпотез, заключається в тому, що він дозволяє сконструювати таку методику перевірки, котра вимагає, в середньому, суттєво меншого числа спостережень, ніж рівна їй по надійності перевірка, що основана на зараннє визначеній кількості спостережень.
Вперше послідовний підхід був використаний в задачах приймального контролю у 1929 р. Стимулом до інтенсивного розвитку і застосуванню у статистичній практиці послідовних методів під час 2-ї Світової війни послужили роботи американського математика А.Вальда (A.Wald). Їм було встановлено, що в задачах розрізнення (по результатах незалежних спостережень) двох простих гіпотез так званий послідовний критерій відношення імовірностей дає значний виграш у середньому числі виконуваних спостережень порівняно з найбільш потужним класичним способом розрізнення з фіксованим об’ємом вибірки і тими ж імовірностями хибних рішень.
Метод послідовної перевірки гіпотези H можна викласти наступним чином. Установлюється деяке правило, яким керуються при прийнятті на кожній стадії експерименту (при m–му випробуванні, де m - довільне ціле число) одного з наступних трьох рішень: 1) прийняти гіпотезу H, 2) відхилити гіпотезу H, 3) продовжити експеримент і провести додаткове. Таким чином, перевірка проводиться послідовно. На основі першого спостереження приймається одне з трьох рішень, що вказані вище. Якщо приймається перше чи друге рішення, то перевірка на цьому закінчується. Якщо приймається третє рішення, то виконується друге спостереження. На основі двох спостережень знову приймається одне з трьох можливих рішень. Якщо приймається третє рішення, то виконується третє спостереження і т. д. Перевірка продовжується до тих пір, поки не буде прийняте перше чи друге рішення. Кількість спостережень, що необхідні при такій методиці перевірки, являється випадковою величиною, оскільки величина залежить від результату спостережень.
Позначимо через Mm множину всіх можливих виборів (x1,x2,…,xm) об’єму m, де m - довільне додатне ціле число. При цьому Mm можна тлумачити і як m- мірний простір вибірок. Правило, згідно якому виконується прийняття одного з трьох можливих рішень на кожній стадії експерименту, можна викласти наступним чином. Для кожного цілого m m-мірний простір вибірок розбивається на три попарно непересічні області R0m,R1m,та Rm,. Після того як в результаті першого спостереження буде