Формування моделі користувача в інтелектуальній інформаційній системі - система використовує множину понять, визначену на множині обраних тем, які містят...

Стаття - Формування моделі користувача в інтелектуальній інформаційній системі

система використовує множину понять, визначену на множині обраних тем, які містяться в моделі користувача.

Відобразимо на площині \|/ релевантність документів, наданих системою за результатом виконання пошукового запиту. Визначимо на площині місце окремих документів. Вказана площина показує рівень, який бажано досягти з метою отримання документів, здатних задовольнити інформаційну потребу аналітика.

Оцінка VMk (Pk ) визначає релевантність знайденого документа від-

J і , v

повідно до запита аналітика: Умк(рк)= s j)

j=i і=і

де J- кількість понять, які належать до моделі користувача; І- кількість понять, які належать документу G к; О.- значущість поняття в моделі користувача; - значущість поняття в документі; 5S (нt, Н - релевантність і-го поняття J-му.

Зокрема, зростання значення Умк(рк) свідчить про збільшення

пертинентності знайдених документів. Чисельне значення Чмк(рк), яке відповідає документу Gk , вважатимемо критеріальною оцінкою, а отриману внаслідок цього шкалу - критеріальною. Таким чином, документи, пошук яких відбувається за запитом аналітика, утворюють множину, що задовольняє такій умові: max V|f (Gk ) - варіанти,

які мають максимальну критеріальну оцінку при порівнянні з усіма іншими варіантами документів, що належать до моделі досліджуваної предметної галузі.

Наведена вище функція оцінки Умк(рк) може використовуватись як при звичайному, так і при розширеному способі пошуку інформації.

Проведення розширеного пошуку інформації передбачає використання коефіцієнтів для розрахунку функції оцінки. Зокрема, для цільового списку понять встановлюється коефіцієнт р задається користувачем та міститься в межах від 0 до 1.

Функція оцінки в загальному випадку має такий вигляд:

Ц PjSji&SAip,, hJ

j=l V i=l J

у разі коли «і» та «j» поняття належать цільовому списку, використовуємо р, у іншому - Р = 1 – Р.

З наведеного видно, що збільшення важливості понять із цільового списку понять відбувається, якщо Р > Р , у даному випадку

знайдені документи стають більш значущими. При Р < Р відбувається зменшення важливості понять із цільового списку понять, і знайдені документи стають менш значущими. При Р = 1 маємо звичайний пошук, р = 0 - максимально розширений пошук з використанням усіх понять досліджуваної предметної галузі. За допомогою даного способу можливо шукати документи, які близькі до понять із ключової теми та переглядати документи, які мають побічний зв'язок з поняттями, що визначають ціль пошуку.

Водночас при проведенні розширеного пошуку аналітику можуть надаватися документи згідно з ключовою темою пошуку, а також доку менти, які були знайдені відповідно до тем пошуку, що містяться на нижчих рівнях ієрархії відносно ключової теми та належать до досліджуваної предметної галузі (рис. 4).

тема для (ь*>) І Додаткові теми для

пошуку k І розширеного

пошуку

V І/ V 1J V J VV Sr

і G2y (. G22 ) (G23 ) ( G24 ) (625)--'

Рис.4. Додаткові теми для розширеного пошуку

При проведенні звичайного пошуку передбачається розгляд понять, які належать тільки до списку понять із ключової теми пошуку. Документи, що не містять понять із ключової теми , виключаються з подальшого розгляду, а функції оцінки обчислюються так само, як і при розширеному пошуку.

Зокрема, використання понять, заданих ключовою темою пошуку, дає можливість, по-перше, знаходити тільки ті документи, що пов'язані з цими поняттями, по-друге, проводити візуалізацію отриманих результатів за релевантністю (на основі моделі користувача). Процес візуалізації передбачає формування наочної моделі, яка дає змогу аналітику провести комплексну оцінку знайдених інформаційною системою документів з огляду на їх значущість для дослідження предметної галузі.

Для якісного проведення групування документів необхідно визначити такі властивості тем для пошуку [3]:

щільність теми - характеризує інтенсивність розташування документів у просторі моделі предметної галузі;

дисперсія теми - характеризує ступінь розсіювання документів у просторі відносно теми і показує , наскільки близько один до одного розташовані в семантичній мережі документи;

розмір теми - визначає кількість документів, що належать до теми.

Формування масиву документів за темою пошуку відбувається на

основі аналізу множини документів з досліджуваної предметної галузі. Алгоритм відбору документів із простору семантичної мережі пошукової системи складається з таких етапів: розподіл моделі предметної галузі на теми для пошуку; створення груп документів, близьких до заданої теми (використовується функція оцінки); порівняння кожного документа з утвореними групами, центром яких є тема для пошуку.

Як характеристика відхилення документа в групі використовується середня сума квадратів відхилень від теми пошуку:

1 J ( 1

j=i v j і=і I

де As - середнє відхилення документів у групах від теми пошуку, J - кількість тем пошуку в моделі предметної галузі, Nj - кількість

документів у j – й темі, V|/n(Dj) - нормалізована функція оцінки близькості документів до теми пошуку:

1 р 1 Pd ? ч

де Pt - кількість понять у темі пошуку,

Pd - кількість понять у документі Dj.

Після визначення теми відбувається первинна вибірка документів, які надаються аналітику для подальшого опрацювання. У результаті вибору користувача визначається належність знайденого документа до теми пошуку, і за допомогою функції оцінки з групи документів відбираються остаточні інформаційні матеріали.

Аналітик визначає для себе значущість знайденого документа. Вказане враховується системою, унаслідок чого модель користувача адаптується до його потреб. Зокрема, позитивна відповідь збільшує значущість понять у моделі користувача, що належать знайденому документу, а негативна, відповідно, зменшує. Кількісна оцінка значущості розраховується за такою формулою:

де Ф - значущість і-го поняття для користувача, 8d(P,Dj) - близькість поняття до знайденого документа, і - коефіцієнт, обирається залежно від

Сторінки: 1 2 3 4