– 0,5 –0,6. – високий – більше 0,6.
РОЗДІЛ 2
Адаптивні тести: статистичні методи аналізу результа-тів тестового контролю знань
2.1. Класичні статистичні методи аналізу результатів тес-тування
Історично виділяють два основні підходи до створення тестів. Перший з них набув широкого розвитку в рамках класичної теорії тестів. Згідно з ним рівень знань учасників тестування оцінюється за допомогою їх індивідуальних балів. Бал обчислюють як алгебраїчну суму оцінок виконання кожного завдання тесту.
Класична теорія тестів ґрунтується на статистичних методах аналізу результатів тестування [15, 39]. Розглянемо найпростіші й необхідні процедури статистичної обробки результатів тестування знань і методи оцінки якості тесту.
В усіх відомих теоріях тестування розглядається як процес протистояння учасника із запропонованими йому завданнями [16]. Позначимо через xij числову оцінку успішності виконання j-ого завдання i-им студентом. Результати тестування звичайно подають-ся у вигляді матриці {xij} з п рядками та т стовпцями (i=, j=). Матриця тестових результатів показує результат виконання всіх завдань учасниками тестування. На практиці прийнято, як правило, використовувати дихотомічну шкалу оцінок результатів. Унаслідок правильного виконання завдання студент отримує один бал, xij = 1, у протилежному разі - нуль балів, xij =0.
Якщо за правильне виконання завдання студент отримує оди-ницю, а за неправильне - нуль, то бал виражає кількість правильно виконаних завдань. Результат можна оцінювати не лише нулем чи одиницею, але й присвоювати певний ваговий коефіцієнт, що відповідає складності завдання.
Процес статистичної обробки матриці результатів тестування будемо розглядати послідовно. На першому кроці обчислюємо індивідуальні початкові бали всіх студентів yi, i=.
yi= - результат (індивідуальний бал) i-го студента після проходження тесту (кількість усіх правильних відповідей).
Обчислюємо середній результат сумарних балів учасників тестування та середній результат студентів за кожним завданням:
, .
Важливою вимогою до тестових завдань є їх об'єктивний рівень складності [157]. У тесті немає місця завданням з невідомою мірою складності. Завдання стають тестовими лише після емпі-ричної перевірки міри їх складності.
Складність завдань можна визначати двома способами [18]:
- на основі оцінки передбачуваної кількості й характеру
розумових операцій, необхідних для вдалого виконання завдань;
- на основі емпіричної перевірки завдань із підрахунком част-ки неправильних відповідей.
У класичній теорії тестів багато років розглядалися тільки емпіричні показники складності [28]. У сучасних теоріях навчаль-них тестів, які використовуються в дистанційному навчанні, більше уваги приділяється характеру розумової діяльності в процесі виконання тестових завдань різних форм.
Емпірично складність завдання визначається додаванням еле-ментів матриці за рядками і дорівнює кількості правильних відповідей, отриманих за кожним завданням (Rj). Чим більше правиль-них відповідей на завдання, тим воно легше для даної групи студентів [22].
У силу простоти показник Rj зручний, але до тих пір, поки не з'являться інші групи з іншою кількістю студентів. Тому для одер-жання об'єктивних характеристик й, ділять на кількість студентів у кожній групі (об'єм вибірки):
.
У результаті отримаємо нормований статистичний показник – частку правильних відповідей, pj. Статистика рj довго викорис-товувалася як показник рівня складності завдання в класичній теорії тестів. Пізніше була усвідомлена певна її неточність: адже збільшення значення рj означає не зростання складності завдання, а, навпаки, зростання легкості. Тому з показником складності завдань стали асоціювати протилежну статистику - частку неправильних відповідей, qj.Вона обчислюється як відношення кількості неправильних відповідей Wj (від англ. wrong – неправильний) до кількості учасників тестування п:
, .
Наступною вимогою до тестових завдань є варіація балів.
Якщо на деяке завдання правильно відповідають усі студенти, то таке завдання стає нетестовим. Учасники тестування відпові-дають на нього однаково: між ними немає варіації. Відповідно даним завданням в матриці будуть стояти лише одиниці. Не тесто-вим вважається завдання, на яке немає жодної правильної відповіді. Варіація щодо нього теж дорівнює нулю. Нульова варіація означає практичну необхідність викидання завдання з тесту [33].
Зручною мірою варіації є значення дисперсії і стандартне відхилення sу сумарних балів учасників тестування:
,
та дисперсія - дисперсія результатів студентів з j-го завдання:
, .
Якщо успішність виконання j-ого завдання оцінюється балами 0 чи 1, то міра варіації визначається формулою: або .
Обчисливши дисперсію, можна знайти й стандартне відхи-лення .
Завдання в тестовій формі не можна назвати тестовим, якщо воно не корелює із сумою балів з усього тесту [166]. Для'цього можна використовувати коефіцієнт кореляції Пірсона:
або бісеріальний коефіцієнт кореляції
,
де - кількість студентів, що одержали за даним завданням 1 бал;
- кількість студентів, що відповіли неправильно на j-те завдання;
Мj1 - середнє арифметичне сум балів з усього тесту для тих студентів, які одержали за даним завданням 1 бал, Мj0 - нуль балів:
, .
Попарний кореляційний зв'язок завдань між собою можна обчислити за формулою
,
де - кількість учасників тестування, що вірно виконали завдання j та k;
- вірно виконали завдання j та невірно k.
Аналогічно , .
Зі збірника завдань викидаємо завдання, що не володіють дискримінативністю: pj >0,9 (надто легкі), pj <0,2 (надто важкі). Виключають завдання, що погано корелюють із сумою балів (В <0,15), і негативні коефіцієнти кореляції. Для зменшеного списку завдань складається нова впорядкована таблиця, для якої пе-рераховуються вищезгадані показники.
Крім того, отримані тестові завдання повинні задовольняти критерій надійності та валідності.
Надійність тесту тим вища, чим більш погоджені результати
учасника тестування при повторній перевірці знань за допомогою
того самого тесту [17]. Погодженість можна вимірювати коефі-цієнтом надійності Кьюдера-Річардсона:
.
Якщо 0,8 0,89 - тест має високу надійність, якщо 0,9 - надійність дуже висока. Чим вищий показник надійності, тим менша помилка виміру індивідуального результату.
Валідність тесту показує,