система використовує множину понять, визначену на множині обраних тем, які містяться в моделі користувача.
Відобразимо на площині \|/ релевантність документів, наданих системою за результатом виконання пошукового запиту. Визначимо на площині місце окремих документів. Вказана площина показує рівень, який бажано досягти з метою отримання документів, здатних задовольнити інформаційну потребу аналітика.
Оцінка VMk (Pk ) визначає релевантність знайденого документа від-
J і , v
повідно до запита аналітика: Умк(рк)= s j)
j=i і=і
де J- кількість понять, які належать до моделі користувача; І- кількість понять, які належать документу G к; О.- значущість поняття в моделі користувача; - значущість поняття в документі; 5S (нt, Н - релевантність і-го поняття J-му.
Зокрема, зростання значення Умк(рк) свідчить про збільшення
пертинентності знайдених документів. Чисельне значення Чмк(рк), яке відповідає документу Gk , вважатимемо критеріальною оцінкою, а отриману внаслідок цього шкалу - критеріальною. Таким чином, документи, пошук яких відбувається за запитом аналітика, утворюють множину, що задовольняє такій умові: max V|f (Gk ) - варіанти,
які мають максимальну критеріальну оцінку при порівнянні з усіма іншими варіантами документів, що належать до моделі досліджуваної предметної галузі.
Наведена вище функція оцінки Умк(рк) може використовуватись як при звичайному, так і при розширеному способі пошуку інформації.
Проведення розширеного пошуку інформації передбачає використання коефіцієнтів для розрахунку функції оцінки. Зокрема, для цільового списку понять встановлюється коефіцієнт р задається користувачем та міститься в межах від 0 до 1.
Функція оцінки в загальному випадку має такий вигляд:
Ц PjSji&SAip,, hJ
j=l V i=l J
у разі коли «і» та «j» поняття належать цільовому списку, використовуємо р, у іншому - Р = 1 – Р.
З наведеного видно, що збільшення важливості понять із цільового списку понять відбувається, якщо Р > Р , у даному випадку
знайдені документи стають більш значущими. При Р < Р відбувається зменшення важливості понять із цільового списку понять, і знайдені документи стають менш значущими. При Р = 1 маємо звичайний пошук, р = 0 - максимально розширений пошук з використанням усіх понять досліджуваної предметної галузі. За допомогою даного способу можливо шукати документи, які близькі до понять із ключової теми та переглядати документи, які мають побічний зв'язок з поняттями, що визначають ціль пошуку.
Водночас при проведенні розширеного пошуку аналітику можуть надаватися документи згідно з ключовою темою пошуку, а також доку менти, які були знайдені відповідно до тем пошуку, що містяться на нижчих рівнях ієрархії відносно ключової теми та належать до досліджуваної предметної галузі (рис. 4).
тема для (ь*>) І Додаткові теми для
пошуку k І розширеного
пошуку
V І/ V 1J V J VV Sr
і G2y (. G22 ) (G23 ) ( G24 ) (625)--'
Рис.4. Додаткові теми для розширеного пошуку
При проведенні звичайного пошуку передбачається розгляд понять, які належать тільки до списку понять із ключової теми пошуку. Документи, що не містять понять із ключової теми , виключаються з подальшого розгляду, а функції оцінки обчислюються так само, як і при розширеному пошуку.
Зокрема, використання понять, заданих ключовою темою пошуку, дає можливість, по-перше, знаходити тільки ті документи, що пов'язані з цими поняттями, по-друге, проводити візуалізацію отриманих результатів за релевантністю (на основі моделі користувача). Процес візуалізації передбачає формування наочної моделі, яка дає змогу аналітику провести комплексну оцінку знайдених інформаційною системою документів з огляду на їх значущість для дослідження предметної галузі.
Для якісного проведення групування документів необхідно визначити такі властивості тем для пошуку [3]:
щільність теми - характеризує інтенсивність розташування документів у просторі моделі предметної галузі;
дисперсія теми - характеризує ступінь розсіювання документів у просторі відносно теми і показує , наскільки близько один до одного розташовані в семантичній мережі документи;
розмір теми - визначає кількість документів, що належать до теми.
Формування масиву документів за темою пошуку відбувається на
основі аналізу множини документів з досліджуваної предметної галузі. Алгоритм відбору документів із простору семантичної мережі пошукової системи складається з таких етапів: розподіл моделі предметної галузі на теми для пошуку; створення груп документів, близьких до заданої теми (використовується функція оцінки); порівняння кожного документа з утвореними групами, центром яких є тема для пошуку.
Як характеристика відхилення документа в групі використовується середня сума квадратів відхилень від теми пошуку:
1 J ( 1
j=i v j і=і I
де As - середнє відхилення документів у групах від теми пошуку, J - кількість тем пошуку в моделі предметної галузі, Nj - кількість
документів у j – й темі, V|/n(Dj) - нормалізована функція оцінки близькості документів до теми пошуку:
1 р 1 Pd ? ч
де Pt - кількість понять у темі пошуку,
Pd - кількість понять у документі Dj.
Після визначення теми відбувається первинна вибірка документів, які надаються аналітику для подальшого опрацювання. У результаті вибору користувача визначається належність знайденого документа до теми пошуку, і за допомогою функції оцінки з групи документів відбираються остаточні інформаційні матеріали.
Аналітик визначає для себе значущість знайденого документа. Вказане враховується системою, унаслідок чого модель користувача адаптується до його потреб. Зокрема, позитивна відповідь збільшує значущість понять у моделі користувача, що належать знайденому документу, а негативна, відповідно, зменшує. Кількісна оцінка значущості розраховується за такою формулою:
де Ф - значущість і-го поняття для користувача, 8d(P,Dj) - близькість поняття до знайденого документа, і - коефіцієнт, обирається залежно від