наскільки добре тест робить те, для чого він був створений [8]. Визначити коефіцієнт валідності тесту означає встановити, як виконання тесту співвідноситься з іншими незалежно зробленими оцінками знань учасників тестування. Для визначення валідності необхідним є незалежний зовнішній критерій, тобто оцінка експерта (викладача). За коефіцієнт валідності приймають коефіцієнт кореляції результатів тестових вимірів і критерію. Якщо експертна оцінка знань студентів, отримана незалежно від процедури тестування, представлена числовою послідовністю Y1, Y2 , …, Yn, то коефіцієнт валідності тесту може бути обчислений так:
,
де , - cтандартне відхилення експертних оцінок.
2.2. Математична теорія параметричної оцінки тестових завдань
Штучність низки припущень класичної теорії тестів і деякі її практичні недоліки помітно вплинули на ріст критичних тенденцій. Цьому, в першу чергу, сприяли сумніви в об'єктивності емпіричних оцінок складності завдань тесту, а саме: виникло питання про правомірність традиційного оцінювання складності завдань із допо-могою частки правильних чи неправильних відповідей.
При традиційному підході до зміни рівня складності завдань на різних щодо підготовки вибірках студентів залишається відкри-тим питання про об'єктивність значень параметра складності завдань тесту [41]. Спроба введення вагових коефіцієнтів, що відображають вклад завдання в індивідуальний бал студента, суттєво не виправляє такі недоліки. Значення цих коефіцієнтів можна, у свою чергу, поставити під сумнів. Деякі з них визна-чаються суб'єктивно, на основі думки педагога про складність завдання. Оцінки решти з них базуються на емпіричних даних тестування і, відповідно, залежать від рівня знань вибірки студентів.
Таким чином, можна відзначити, що нестійкість статистик і їх взаємний вплив помітно знижують якість тестових результатів. З допомогою цих статистик не можна об'єктивно оцінити значення параметрів, що характеризують складність завдання тесту, а також виразити значення цих параметрів на інтервальній шкалі [5].
Другий підхід до створення тестів та обробки їх результатів поданий в так званій сучасній теорії тестування, що набула широкого розвитку в 1960-1980 роках у багатьох західних країнах [31].
Сучасний етап розвитку й функціонування тестового контролю характеризується застосуванням до вирішення психолого-педагогічних задач методології латентно-структурного аналізу (LSА) [14]. Одним із напрямків LSА є Item Response Theory (ІRТ) – математична теорія параметричної оцінки тестових завдань і тих, хто проходить тестування. Відповідно до цієї теорії встановлено, що між результатом виконання, що спостерігається, і латентним параметром учасників тестування є деяка залежність, яку можна виразити за допомогою функції. Для ІRТ характерне прагнення до фундаментального теоретичного підходу й разом із цим до корект-ного розв'язання низки практичних задач.
ІRТ спрямована на оцінювання латентних якостей особистості та параметрів завдань тесту на основі математичних моделей [4, 25].
До найбільш вагомих переваг ІRТ відносять:
стійкі об'єктивні оцінки параметра складності завдань, що не залежать від властивостей вибірки студентів, які виконують тест;
вимірювання значень параметрів студентів і завдань тесту в одній і тій же шкалі, що дозволяє поставити у відповідність рівень знань кожного учасника тестування з рівнем складності кожного завдання тесту;
можливість оцінити ефективність різних за рівнем склад-ності завдань для вимірювання даного значення латентного пара-метра студента.
На відміну від класичної теорії тестів, де індивідуальний бал розглядається як стале число, в ІRТ латентний параметр трактується як деяка змінна. Початкове значення параметра отримується безпо-середньо на основі емпіричних даних тестування. Змінний характер вимірюваної величини вказує на можливість послідовного набли-ження до об'єктивних оцінок параметрів із допомогою ітераційних методів.
Латентні параметри, точніше, взаємодія двох множин їх значень породжує результати виконання тесту. Елементи першої множини – це значення латентного параметра, що визначає рівень знань п учасників тестування де . Другу множину утворюють значення латентного параметра де , що відповідають рівням складності т завдань тесту.
На практиці ставиться задача: за відповідями студентів на завдання тесту оцінити значення латентних параметрів і [12]. Для її вирішення потрібно відповісти на два питання:
Як вибрати співвідношення між
і
?
Як правильно вибрати математичну модель, тобто таку мо-дель, яка пов'язує емпіричні результати тестування та латентні параметри
і
?
У рамках ІRТ датським математиком Джорджем Рашем у 1957 році була запропонована модель контролю знань [9], яку часто називають простою логістичною моделлю. Модель Раша опирається на поняття "складність завдання" та "рівень підготовки студентів". Так, одне завдання вважається складнішим, ніж друге, якщо ймовірність правильної відповіді на перше завдання менша, ніж на друге, незалежно від того, хто його виконує.
Таким чином, оцінка складності тестових завдань не залежить від вибірки учасників тестування. Крім того, модель Раша харак-теризується найменшим числом параметрів: один параметр рівня знань для всіх випробуваних і тільки один параметр складності для всіх завдань.
Раш запропонував увести співвідношення між і у вигляді різниці - , вважаючи, що параметри і оцінюються в одній шкалі. Якщо - від'ємна величина й велика за модулем, то завдання складності є надто важким для студента з рівнем знань і воно не буде корисним для виміру рівня знань i-ого студента, якщо ця різниця додатня і велика за модулем, то завдання надто легке, це завдання давно засвоєне студентом.
У такій математичній моделі параметри і виражаються як показники, задані в одній шкалі логітів. Уведення однієї шкали для елементів двох множин і дозволяє ввести взаємозв'язок між змінними у вигляді різниці - , коректно порівняти результати студентів, отримані з допомогою різних тестів, оцінити рівень складності завдань незалежно від рівня підготовки груп студентів.
Можна розглядати умовну ймовірність правильного виконання j-ого завдання з рівнем складності різними студентами [37]. Тут
незалежною змінною є , а - параметр, що визначає складність j-ого завдання:
, .
У