У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент





НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

ІНСТИТУТ БІООРГАНІЧНОЇ ХІМІЇ ТА НАФТОХІМІЇ

Ковалішин Василь Володимирович

УДК 544.165+519.688

ПРОГНОЗУВАННЯ БІОЛОГІЧНОЇ АКТИВНОСТІ СПОЛУК ЗА ЇХ

ПРОСТОРОВОЮ БУДОВОЮ МЕТОДОМ ШТУЧНИХ НЕЙРОННИХ МЕРЕЖ

02.00.10-біоорганічна хімія

автореферат

дисертації на здобуття наукового ступеня

кандидата хімічних наук

Київ - 2001

Дисертацією є рукопис.

Робота виконана в Інституті біоорганічної хімії та нафтохімії НАН України.

Наукові керівники : член-кореспондент НАН України,

доктор медичних наук, професор О.І.Луйк

кандидат хімічних наук Тетко Ігор Володимирович,

Інститут біоорганічної хімії та нафтохімії НАН України,

старший науковий співробітник

Офіційні опоненти: доктор хімічних наук, професор

Ільченко Андрій Якович,

Інститут органічної хімії НАН України,

провідний науковий співробітник

доктор фізико-математичних наук, професор

Макаренко Олександр Сергійович,

Науково - навчальний комплекс “Інститут прикладного системного аналізу” НАН України та Міносвіти України, доцент кафедри математичних методів системного аналізу

Провідна організація : Фізико – хімічний інститут ім. О. В. Богатського НАН України, відділ молекулярної структури, м. Одеса

Захист відбудеться “ 30 ” листопада 2001 р. о 10 год. на засіданні спеціалізованої вченої ради Д 26.220.01 в Інституті біоорганічної хімії та нафтохімії НАН України (02094, Київ, вул. Мурманська, 1).

З дисертацією можна ознайомитись у бібліотеці Інституту біоорганічної хімії та нафтохімії НАН України (02004, Київ, вул. Мурманська, 1).

Автореферат розісланий “ 30 ” жовтня 2001 р.

Вчений секретар

спеціалізованої вченої ради Д.М.Федоряк

загальна характеристика Роботи

Актуальність теми. Пошук зв'язку між активністю різноманітних лікарських препаратів та структурою молекул є однією з найбільш важливих задач сучасної медичної хімії. У більшості випадків відкриття нової біологічно активної сполуки на даний час є результатом емпіричного скринінгу десятків тисяч нових сполук. Незважаючи на великі зусилля, що спрямовані на вивчення механізму дії біологічно активних речовин на живі організми, дослідження в цій області поки що не дали бажаних результатів. Створення нових лікарських препаратів потребує великих затрат як людських, так і матеріальних ресурсів. Тому пошук та використання методів, що дозволяють зменшити ці затрати, є одним з важливих напрямків дослідження при конструюванні нових фізіологічно активних речовин. Актуальність даного дослідження визначається інтенсивним використанням біологічно активних сполук у різних сферах життєдіяльності людини і необхідністю розробки найбільш оптимальних підходів для прогнозування їхньої активності та цілеспрямованого синтезу нових речовин.

Фундаментальні дослідження в області вивчення кількісного зв'язку структура - активність (КЗСА) базуються на комбінованому застосуванні методів теоретичної та експериментальної хімії і досягнень в області штучного інтелекту. За останнє десятиліття швидкого розвитку набули тривимірні (3D) методи пошуку КЗСА, що враховують просторову структуру молекули. Основна увага в цих методах приділяється виявленню фармакофорних структур, що детермінують селективність впливу на рецептори, визначенню геометрії біологічно активних речовин та моделюванню міжмолекулярних комплексів. Існує досить велика кількість методів і моделей для виявлення 3D-КЗСА. Використання методів розпізнавання образів завжди є одним з ключових етапів при дослідженні зв'язку структура - активність. Серед методів розпізнавання образів, що найчастіше застосовуються для розв'язання просторових задач, можна відзначити метод часткових найменших квадратів (ЧНК), генетичні алгоритми, метод k-найближчих сусідів та методи штучних нейронних мереж (ШНМ). Однак кількість публікацій, присвячених використанню цих методів, за винятком ЧНК, дуже обмежена. Хоча слід зазначити, що використання ШНМ є одним з найбільш перспективних підходів для розв'язання задач 3D-КЗСА, оскільки вони мають значні переваги перед ЧНК. Ці методи успішно використовувались для рішення задач розпізнавання рукописних знаків, мови, фільтрації відображення від шуму та ін. Однак безпосередньо застосовувати методи ШНМ для розв'язання проблем 3D-КЗСА неможливо, оскільки необхідно аналізувати велику кількість вхідних ознак. Швидкість навчання ШНМ зменшується пропорційно m чи навіть m2 (де m - кількість вхідних ознак), тому пряме використання ШНМ для аналізу просторової структури молекул, що характеризуються тисячами чи десятками тисяч ознак, призведе до тривалих обчислень.

У зв'язку з вищевикладеним, актуальною є розробка нових методів заснованих на моделях ШНМ та здатних аналізувати великі масиви структурної інформації про сполуки без істотної втрати надійності моделі.

Зв'язок роботи з науковими програмами, планами, темами. Дана робота є розвитком досліджень в області конструювання нових фізіологічно активних речовин та аналізу зв'язку структура - активність хімічних сполук.

Робота виконувалась згідно з тематикою відділу медико-біологічних досліджень ІБОНХ НАН України (тема № 2.1.10.18(36)-95 № держ. реєстрації 0195U025780) та міжнародного проекту INTАS - Україна (грант INTAS-UA 95-0060).

Мета і задачі дослідження. Мета роботи полягала у створенні принципово нового методу комп'ютерного прогнозування фізіологічної активності речовин, виходячи з їх просторової будови.

Основні задачі дослідження:

1) Створити алгоритм навчання ШНМ для аналізу даних великої вимірності.

2) Розробити методи для пошуку зон навколо молекул, що відповідають за активність сполук, та розрахункового прогнозування фізіологічної дії речовин, виходячи з їх хімічної структури.

3) Створити програму для графічного відображення отриманих результатів та побудови карт активності досліджуваних сполук.

4) Перевірити ефективність розроблених методів на задачах по виявленню активності аміноалкіліндолів та похідних N-бензилпіперидинів та порівняти отримані результати з відомими літературними даними.

Об'єкт дослідження – фізіологічно активні речовини.

Предмет дослідження – зв'язок між активністю та просторовою будовою ФАР.

Методи дослідження. В дисертації використовувались методи комп'ютерного моделювання, зокрема, методи розрахункового моделювання тривимірної структури молекул, методи квантовомеханічних розрахунків параметрів молекул, метод штучних нейронних мереж, кластерного аналізу та математичної статистики.

Наукова новизна одержаних результатів. Розроблено стратегію, що поєднує в собі переваги двох типів ШНМ для виявлення кількісного зв'язку структура - активність 3D даних. Запропоновано методику пошуку активних зон в просторі навколо молекул за допомогою спеціальних методів відбору ознак ШНМ. Створено програму, що дозволяє будувати та візуально аналізувати карти розподілу активних зон навколо молекул. Показано переваги нового підходу при розв'язанні задач 3D-КЗСА порівняно з методом ЧНК, який традиційно використовується в цій галузі досліджень.

Теоретична цінність одержаних результатів. Результати роботи підтверджують доцільність та раціональність застосування запропонованих розрахункових методів дослідження зв'язку структура-активність, заснованих на методах ШНМ. Запропоновано новий алгоритм навчання ШНМ, що використовує інформацію про молекули, на основі їх просторової будови. Створений метод може використовуватися в інших областях науки, де потрібен аналіз даних великої вимірності та розподіл об'єктів на класи (розпізнавання рукописних знаків, мови, зображень та ін.).

Практичне значення одержаних результатів. Запропоновані методи дозволяють швидко будувати прогнозуючі моделі для різноманітних видів біологічної активності хімічних речовин. Розроблені в рамках даної роботи методи відбору та відображення фізіологічно активних зон сполук, що досліджуються дозволяють візуально аналізувати механізми взаємодії лігандів з їх біологічними мішенями. Створений метод був успішно використаний для аналізу та побудови карт активності аміноалкіліндолів та похідних N-бензилпіперидинів.

Особистий внесок здобувача. Комп'ютерне дослідження даних і створення програм аналізу та візуалізації результатів для 3D-КЗСА даних здійснені особисто здобувачем.

Автор щиро вдячний професору Вільяму Велшу (Університет м. Сент Луїс, США), професору Жаку Кретьєну (Університет м. Орлеан, Франція) за надання CoMFA (Comparative Molecular Field Analysis) даних та співробітникам Фізико-хімічного інституту ім. О.В. Богатського НАН України д.х.н. Кузьміну В. Є. та к.х.н. Артеменко А. Г. за розрахункове моделювання даних на основі граткової моделі молекул.

Апробація роботи. Основні результати роботи були представлені на міжнародному симпозіумі з ліпофільності (International Symposium on LogP, March 1995, Lausanne, Switzerland); 12 Європейському симпозіумі по дослідженню зв'язку структура - активність (12-th European Symposium on Quantitative Structure-Activity Relationships, August 1998, Copengagen, Denmark); п'ятому всесвітньому конгресі хіміків-теоретиків (5-th World Congress of Theoretically Oriented Chemists, WATOC'99, August 1999, London, UK); 13 Європейському симпозіумі по дослідженню зв'язку структура - активність (13-th European Symposium on Quantitative Structure-Activity Relationships, August 2000, Dusseldorf, Germany); конференції, присвяченій підходам і методам, що використовуються в токсикології та оцінці безпеки навколишнього середовища (Issues and Applications in Toxicology and Risk Assessment, April 2001, Fairborn, USA).

Публікації. Основні результати роботи викладено в 9 статтях (8 – у наукових фахових журналах) та 7 тезах доповідей.

Структура та обсяг роботи. Дисертація складається з вступу, огляду літератури (1 розділ), опису методів досліджень (1 розділ), викладу та обговорення одержаних результатів (2 розділи), висновків та списку літератури, який включає 155 найменувань. Робота викладена на 132 сторінках машинописного тексту (з додатком), ілюстрована 23 малюнками та 16 таблицями.

ОСНОВНИЙ ЗМІСТ РОБОТИ

1. Розробка алгоритму просторового навчання штучних нейронних мереж

1.1. Штучні нейронні мережі з прямим розповсюдженням сигналів

Найпростіша складова ШНМ є штучний нейрон (рис.1), який відображає властивості біологічного аналога - підсумовування та нелінійне перетворення сигналів, можливість адаптації зв'язків нейрона. На вхід нейрона надходить вектор вхідних сигналів, кожна компонента якого є виходом іншого нейрона. Вхідне збудження нейрона визначається як зважена сума його входів, де W - вектор ваг зв'язків. Для задач пошуку зв'язку “структура - активність” вхідна інформація являє собою вектор параметрів молекули (кожний нейрон на вхідному рівні відповідає одному параметру молекули), а вихідна інформація є вектор активностей молекули (кожний нейрон на вихідному рівні відповідає одному типу активності молекули). Вхідний та цільовий вектор складають навчальну пару. При проходженні через приховані рівні (як правило, використовується один такий рівень) вхідний потік інформації нелінійно трансформується.

Навчання мережі полягає в такому регулюванні ваг (Wj) мережі, коли кожне вхідне збудження (вектор параметрів молекули) призводить до появи на виході нейронної мережі бажаного цільового вектора (вектора активності молекул). Перед навчанням вхідний набір даних розподіляється на два піднабори - набір навчання та набір контролю. Якість отриманих моделей оцінюється з допомогою методу ковзаючого контролю (МКК). Прогнозуюча здатність нейронних мереж оцінюється за допомогою коефіцієнта перехресної оцінки q2, запропонованого Крамером та ін.:

; де Oi - розрахунковий вектор активності молекули i; Yi - цільовий вектор активності молекули i; Ymean - середнє значення Yi ;N - кількість сполук.

1.2. Мережа Кохонена

Основне призначення мережі Кохонена - це створення нелінійної проекції даних великої мірності на область малої мірності. По суті, вона являє собою двовимірний масив елементів, причому кожний елемент пов'язаний із усіма n вхідними вузлами (рис.2). Алгоритм Кохонена реалізує навчання без учителя. Кожному нейрону j відповідає вектор вагових елементів Wj. Перед навчанням кожний компонент вектора ваг ініціалізується випадковим чином. На вхід нейрона надходить вхідний вектор Х, що кодує будову молекул. Всі вхідні вектори навчального набору по черзі представляються кожному нейрону мережі і використовуються для настроювання коефіцієнтів ваг (Wj) мережі. Навчальний алгоритм настроює вектори ваг нейронів таким чином, щоб вони були максимально схожими на вхідний вектор Х.

Після закінчення процесу навчання весь набір даних представляється по черзі кожному нейрону і для кожного вхідного вектора визначається нейрон-переможець, відстань між вагами (Wj) якого та вхідним вектором (Xi) найменша. Такі нейрони визначають проекції вхідних даних на двовимірну карту Кохонена. Таким чином, в результаті процесу самоорганізації мережі формується карта, на якій вхідні вектори розташовуються згідно їхній близькості в багатовимірному просторі.

1.3. Опис алгоритму просторового навчання штучних нейронних мереж

Алгоритм просторового навчання (АПН) реалізує циклічну ітераційну процедуру, що комбінує послідовне застосування мережі Кохонена та штучних нейронних мереж. Загальна блок-схема алгоритму показана на рис. 3.

Процес аналізу даних умовно можна розділити на дванадцять кроків. Вхідні дані, сформовані на кроці 1, надходять на входи мережі Кохонена (блоки 3,4). В результаті навчання мережі на виході формується карта розподілу ознак на кластери. Кластери перевіряються на наявність розривів в геометричному просторі (блок 7) і при їх наявності здійснюється додаткова кластеризація методами кластерного аналізу. Дані стискуються шляхом заміни вхідної вибірки середньоарифметичним значенням ознак, що входять у кластери. Отриманий кластерний розподіл тестується за допомогою ШНМ. При цьому ваги нейронів вхідного рівня записуються в таблицю, яка використовується на наступних циклах навчання замість вхідних даних (блок 6). Число рядів та колонок в карті Кохонена зменшується на одиницю (блок 5) і весь процес стиснення даних повторюється. Попередні кроки повторюються до тих пір, доки розмір карти Кохонена не зменшується до мінімального розміру, рівного 8 вузлам. Із всіх моделей кластерного розподілу даних вибирається модель з найменшою помилкою (блок 10), яка використовується для навчання ШНМ та прогнозування активності нових сполук (блоки 11, 12).

1.4. Розробка методів відбору найбільш інформативних ознак

Для того, щоб оцінити інформативність знайдених кластерів, ми використовували спеціальні методи відбору ознак, які відомі в літературі як "pruning methods". Видалення найменш інформативних ознак підвищує надійність результатів та збільшує швидкість навчання ШНМ. Методи відбору ознак дозволяють також виділити в просторі навколо молекул зони, відповідальні за прояв біологічної активності.

Адекватність даних методів була перевірена на ряді теоретичних задач розпізнавання образів. Позитивні результати такого аналізу дозволили нам використовувати ці методи для знаходження зон активності досліджуваних молекул.

2. Аналіз та прогнозування активності хімічних сполук

2.1 Дослідження зв'язку між структурою та біологічною активністю аміноалкіліндолів

Ефективність створеного алгоритму була перевірена на ряді аміноалкіліндолів (ААІ) похідних правадоліну. Аміноалкіліндоли являють собою новий клас агоністів, які мають широкий спектр біологічної активності і вважаються перспективними речовинами для пошуку нових високоефективних лікарських препаратів. Дані численних спостережень свідчать, що механізм дії ААІ полягає в зв'язуванні з канабіноїдним CB1-рецептором та активації відповіді клітинною системою сигнальної трансдукції. В медицині ААІ широко використовують як знеболюючі та протизапальні препарати, що виступають інгібіторами циклооксигенази мозку.

Вибірка даних. В роботі використовувались дві вибірки з 70 сполук, вибраних на основі даних літератури. Шість сполук не включали в набір навчання – з них був сформований тестовий набір, який використовувався для оцінки якості моделі (табл. 1). Ступінь активності сполук оцінювалась величиною константи pKi, яка характеризує здатність сполуки зв'язуватися з рецептором. Перший набір складався з молекул, у яких атом азоту морфоліну був непротонований, тоді як другий набір містив протоновані атоми азоту. Розрахунки параметрів проводились за допомогою CoMFA та граткової моделі молекул.

Таблиця 1

Структури і значення pKi для AAI, що використовувалися для тестування CoMFA-моделі і граткової моделі.

Сп. R1 R2 R3 pKi pKi (розрахована)

Непротоновані ААІ Протоновані ААІ

CoMFA-модель Граткова модель CoMFA-модель Граткова модель

АПН2 ЧНК АПН ЧНК АПН ЧНК АПН ЧНК

1 Me p-OМe-феніл H -3,40 -3,0 -3,26 -2,93 -3,21 -2,94 -3,22 -3,01 -3,21

2 H p-OМe-феніл H -2,49 -1,52 -2,02 -2,26 -1,87 -2,26 -2,01 -2,27 -1,81

4 H 7-бензофурил H -1,15 -0,75 -1,51 -1,64 -1,59 -1,60 -1,18 -1,56 -1,70

9 H 1-нафтил H -0,78 -1,38 -1,54 -1,75 -1,47 -1,30 -1,50 -1,47 -1,46

11 Me 1-нафтил H -1,18 -1,46 -1,70 -1,59 -1,35 -1,70 -1,88 -1,62 -1,50

121 H 1-нафтил H -0,38 -0,41 -0,48 -0,65 -1,47 -0,78 -0,36 -0,48 -1,14

1Замість замісника 2-(4-морфолініл) етил при атомі N1 використовувався [3-(4-Me-морфолініл)] метил.

2Результати для сумарних наборів даних, отримані методами відбору ознак.

CoMFA модель. До всіх наборів даних застосована стандартна CoMFA-процедура. Кожна з молекул була змодельована за допомогою програми Sybyl 6.3 на робочій станції Silicon Graphics R4000 Indigo Elan. Початкові конформації лігандів оптимізовані за допомогою алгоритму молекулярної механіки з використанням силового поля Tripos. Часткові атомні заряди та необхідні обчислення електростатичних взаємодій розраховувались на основі формул Гастейгера-Марсілі. Кожна молекула з фіксованою просторовою структурою вміщувалась в просторовий паралелепіпед, складений із кубічних комірок розміром 2A. Для інваріантного розміщення структури в гратках всі молекули суміщались з молекулою-шаблоном (сполука № 46), яка акумулює в собі всі ключові особливості досліджуваного ряду. Між кожною молекулою й атомом вуглецю ("щупом") із зарядом +1 обчислювалася електростатична і стерична енергія взаємодії в кожному вузлі гратків. Стерична взаємодія була обмежена величиною 30 ккал/моль, а електростатична +/- 30 ккал/моль.

Граткова модель. ААІ з фіксованою просторовою структурою суміщались по загальному індольному структурному фрагменту (див. табл. 1) і вміщувались в паралелепіпед, що складався з кубічних комірок розміром 1A.

Для кожної комірки розраховувалися 7 типів структурних параметрів: електростатичний потенціал; потенціал ліпофільності; імовірність того, що комірка незайнята; імовірність заселення пустої комірки атомом вуглецю; імовірність заселення пустої комірки атомом хлору; імовірність заселення пустої комірки атомом азоту; імовірність заселення пустої комірки атомом кисню.

2.1.1. Результати аналізу активності сполук на основі CoMFA моделі

Процес навчання проводився на вибірці даних, що містила 64 сполуки. Дослідження здійснювали як за допомогою АПН, так і класичним методом ЧНК.

При навчанні мережі Кохонена використано два підходи. При першому підході використовувалися тільки вхідні дані, а при другому – вхідні дані замінялись після першого кроку навчання на таблицю ваг нейронної мережі (див. рис. 3). Результати аналізу ААІ на основі обох підходів наведені в табл. 2.

Таблиця 2

Загальний статистичний аналіз результатів для аміноалкіліндолів

Тип поля АПН ЧНК

Кластеризація на основі таблиці даних Кластеризація на основі таблиці ваг Аналіз методами відбору ознак Кільк. латент. змінн. q2 коеф.

Кільк. класт. q2 коеф. Кільк. класт. q2 коеф. Кільк. класт. q2 коеф.

1. Аміноалкіліндоли (непротоновані)

Стеричне 18 0,48±0,02 (0,77±0,03)1 14 0,78±0,02 (0,72±0,02) 9 0,78±0,02 (0,71±0,02) 5 0,53 (0,76)

Електро-статичне 9 0,34±0,03 (0,73±0,03) 8 0,43±0,02 (0,78±0,02) 5 0,48±0,01 (0,83±0,02) 4 0,31 (0,56)

Ст.+Ел. 27 0,41±0,04 (0,78±0,04) 22 0,77±0,02 (0,73±0,02) 12 0,79±0,02 (0,73±0,02) 6 0,56 (0,83)

2. Аміноалкіліндоли (протоновані)

Стеричне 19 0,60±0,04 (0,59±0,04) 15 0,72±0,02 (0,81±0,01) 6 0,74±0,02 (0,83±0,01) 5 0,59 (0,75)

Електро-статичне 68 0,43±0,02 (0,71±0,04) 8 0,61±0,02 (0,75±0,02) 5 0,63±0,02 (0,76±0,03) 4 0,45 (0,67)

Ст.+Ел. 87 0,62±0,02 (0,61±0,04) 23 0,71±0,02 (0,81±0,01) 8 0,73±0,01 (0,80±0,02) 6 0,59 (0,78)

1У дужках подані результати для тестової вибірки даних.

Результати свідчать, що використання для навчання мережі Кохонена таблиці ваг значно покращило здатність алгоритму до прогнозування. Дійсно, точність прогнозів, що була отримана тільки на основі польових характеристик для всіх 6 наборів, значно нижча за результати, знайдені за допомогою таблиці ваг нейронів. Використання ваг для навчання алгоритму приводить до більш якісної кластеризації даних, бо число кластерів при даному підході значно менше. Точність прогнозу, отримана з допомогою АПН для навчальної вибірки, вища для всіх наборів даних, ніж при аналізі даних ЧНК-методом. Результати прогнозу активності екзаменаційної вибірки були приблизно рівні результатам, отриманим за допомогою методу ЧНК.

Застосування методів відбору ознак дозволило нам відібрати найбільш інформативні кластери, що обумовлюють активність досліджуваних сполук (див. табл. 2). Результати прогнозу активності екзаменаційної вибірки наведено табл. 1. Результати, наведені в табл. 2, свідчать, що прогнозуюча здатність ШНМ для стеричних ознак, була набагато вища, ніж для електростатичних ознак.

 

а) б) в) г)

Рис. 4. Карта розподілу кластерів навколо молекули № 46 для сумарного набору ААІ: а) стеричний тип ознак (непротоновані ААІ); б) електростатичний тип ознак (непротоновані ААІ); в) стеричний тип ознак (протоновані ААІ); г) електростатичний тип ознак (протоновані ААІ).

Цей висновок також підтверджується і розподілом кластерів у просторі. На рис. 4 показані кластери, що були знайдені при аналізі обох піднаборів ААІ. Темно-сірим кольором зображено області, пов'язані зі збільшенням стеричного об'єму (рис. 4,а,в) та зменшенням негативного заряду (рис. 4,б,г), а світло-сірим – області, пов'язані зі зменшенням стеричного об'єму і збільшенням негативного заряду. Присутність темно-сірого кластера у районі арильної групи сполуки (кластер у нижній частині рис. 4,а) для непротонованих ААІ свідчить про те, що присутність ліпофільного угрупування сприяє зв'язуванню з рецептором. Також слід відзначити стеричну активність більшості замісників в R2 положенні (див. табл. 1), оскільки на рис. 4,а присутні аж чотири темно-сірих кластера. Присутність як світло-сірих, так і темно-сірих областей в районі гетероциклічного кільця також свідчить про важливість даного регіону. Наприклад, темно-сірий кластер свідчить, що присутність метильної групи (наприклад сполуки 32(S), 72) в даному положенні підвищує активність молекул, тоді як присутність замісників у світло-сірій зоні призводить до зниження активності. Темно-сірий кластер на рис. 4,б в районі нафтильної частини молекули 46 підкреслює важливість основності для зв'язування з рецептором. Тут також присутній і світло-сірий кластер, що відображає електронегативність, обумовлену атомом кисню деяких замісників сполук.

Аналогічно для протонованих ААІ (рис. 4,в) три світло-сірих кластери свідчать, що район морфолінового кільця є стерично забороненим для зв'язування з рецептором, а світло-сірий кластер на рис.4,г підкреслює електронегативність даної частини молекули. Наявність темно- сірого кластеру біля нафтильної групи (рис. 4,в) свідчить, що вона сприяє зв'язуванню з рецептором. Для електростатичного набору (рис. 4,г) було відібрано лише три кластери, - кластер, що охоплює область морфолінового кільця, та два кластери біля нафтильної групи молекули.

2.1.2. Аналіз активності аміноалкіліндолів за допомогою граткової моделі

На основі граткової моделі було проаналізовано по 8 наборів даних як для непротонованих ААІ, так і для протонованих ААІ. Результати аналізу ААІ приведені в табл. 3.

Таблиця 3

Загальний статистичний аналіз результатів для аміноалкіліндолів

Тип поля АПН ЧНК

Аналіз всіх ознак Аналіз методами відбору ознак q2 коеф. Тесто-вий набір

Кільк. класт. q2 коеф. Тестовий набір Кільк. класт. q2 коеф. Тестовий набір

1. Аміноалкіліндоли (непротоновані)

Набір 11 9 0,39±0,02 0,77±0,02 7 0,39±0,03 0,77±0,03 0,30 0,56

Набір 22 6 0,54±0,02 0,68±0,02 4 0,56±0,02 0,68±0,02 0,48 0,69

Набір 33 36 0,66±0,04 0,70±0,02 11 0,69±0,02 0,74±0,02 0,29 0,56

Набір 44 37 0,79±0,02 0,77±0,02 9 0,82±0,03 0,72±0,03 0,54 0,78

Набір 55 25 0,69±0,03 0,78±0,03 8 0,73±0,02 0,77±0,02 0,52 0,75

Набір 66 22 0,78±0,01 0,85±0,03 9 0,77±0,02 0,82±0,03 0,55 0,80

Набір 77 26 0,74±0,02 0,74±0,02 9 0,78±0,03 0,77±0,02 0,55 0,82

Набір 88 161 0,74±0,02 0,77±0,02 10 0,84±0,01 0,77±0,02 0,50 0,78

2. Аміноалкіліндоли (протоновані)

Набір 1 36 0,37±0,01 0,68±0,02 26 0,37±0,02 0,67±0,04 0,37 0,50

Набір 2 19 0,55±0,02 0,82±0,02 5 0,64±0,02 0,75±0,04 0,52 0,75

Набір 3 22 0,80±0,01 0,80±0,02 12 0,81±0,01 0,82±0,02 0,62 0,73

Набір 4 15 0,73±0,01 0,84±0,02 10 0,74±0,03 0,87±0,03 0,63 0,72

Набір 5 24 0,72±0,01 0,80±0,03 17 0,74±0,03 0,77±0,03 0,58 0,66

Набір 6 12 0,79±0,01 0,76±0,02 9 0,78±0,02 0,76±0,02 0,63 0,74

Набір 7 24 0,79±0,01 0,80±0,02 12 0,80±0,02 0,80±0,02 0,63 0,76

Набір 8 152 0,80±0,01 0,80±0,02 9 0,82±0,01 0,80±0,02 0,57 0,70

1електростатичний потенціал в комірці; 2потенціал ліпофільності в комірці; 3імовірність того, що комірка незайнята; 4імовірність заселення комірки вуглецем; 5імовірність заселення комірки хлором; 6імовірність заселення комірки азотом; 7імовірність заселення комірки киснем; 8сукупний набір даних.

Найкращий результат отримано для набору 4 (q2 = 0,79±0,02 ) та набору 6 (q2 = 0,78±0,01) для непротонованих ААІ. Цікаво, що для протонованих ААІ найкращий прогноз (приблизно рівний q2 = 0,79±0,01) отримано для чотирьох наборів ознак. Це набори 3, 6, 7 та 8. Аналіз свідчить, що найменш інформативні набори 1 та 2. Точність прогнозів, отримана методом ковзаючого контролю для вибірки навчання, вища для АПН, ніж ЧНК для всіх наборів даних. Передбачення активності тестового набору, отримані за допомогою АПН, близкі до результатів ЧНК.

Застосування методів відбору параметрів дало непогані результати. В більшості випадків число кластерів зменшилось вдвічі. Для наборів 4, 5, 7 та 8 для непротонованих ААІ та наборів 2, 8 протонованих ААІ спостерігалось підвищення прогнозуючої здатності АПН (див. табл. 1, 3).

На рис. 5 наведені контурні карти, що відображають розподіл найбільш інформативних кластерів у просторі навколо молекули 46 для двох найкращих наборів ААІ. Темно-сірим кольором позначені кластери, що сприяють зв'язуванню, а світло-сірим – кластери, що перешкоджають взаємодії молекули з рецептором.

 

а) б) в) г)

Рис. 5. Карта розподілу кластерів навколо молекули № 46 для ААІ: а) імовірність заселення комірки вуглецем (непротоновані ААІ); б) імовірність заселення комірки азотом (непротоновані ААІ); в) імовірність того, що комірка незайнята (протоновані ААІ); б) імовірність заселення комірки киснем (протоновані ААІ).

Більшість кластерів зосередились в районі нафтильної групи і практично відсутні в районі морфолінового кільця. Ця група незмінна практично для всіх молекул (див. табл. 1) і тому була визначена алгоритмом як малоінформативна. Інша характерна особливість знайдених кластерів полягає в тому, що розміри кластерів та місця їх локалізації досить близькі та подібні для кожного з наборів даних. Оскільки параметри даних наборів включають імовірність, яка в сумі дорівнює одиниці для кожної з комірок, то цілком закономірно, що АПН однотипну інформацію об'єднав у подібні кластери.

При розгляді кластерів, можна зробити висновки щодо їх інформативного значення. Так світло-сірі кластери в районі нафтильної групи свідчать про низьку імовірність того, що комірки будуть зайняті C, N чи O. Наприклад, світло-сірий кластер біля карбонільного кисню (рис. 5,б) свідчить про малу імовірність присутності азоту, тоді як ряд темно-сірих кластерів в районі атомів С2-C4 нафтильної групи для всіх малюнків, свідчать про важливість цього фрагменту молекули для зв'язування з рецептором.

2.2. Прогнозування активності похідних N-бензилпіперидинів

Встановлено, що деякі інгібітори ацетилхолінестерази (AchE) позитивно впливають на процес відновлення функцій пам'яті в людей, що страждають хворобою Альцгеймера. Серед різноманітних класів AchE-інгібіторів похідні N-бензилпіперидинів мають більш високий рівень активності і більш низьку токсичність в порівнянні з аналогічними інгібіторами інших типів. Завдяки цим властивостям імовірність знаходження речовин, перспективних для лікування хвороби Альцгеймера, серед похідних N-бензилпіперидинів є досить високою.

Вибірка даних. Для аналізу було використано 66 сполук, отриманих на основі літературних джерел. Тринадцять сполук (кожна п'ята) не включали в початковий набір навчання – з них був сформований тестовий набір, який використовувався для оцінки якості отриманої моделі (табл. , ). Інгібіторна властивість сполук оцінювалось величиною log(1/IC50).

CoMFA модель. Кожний із 66 лігандів був змодельований за допомогою програми Sybyl .3 на робочій станції Silicon Graphics INDY R5000. Оскільки дані ліганди взаємодіють з ферментом при pH 8, то всі сполуки розглядалися в їхній протонованій формі. Кожна молекула з фіксованою просторовою структурою вміщувалась в просторовий паралелепіпед, складений із кубічних комірок розміром 0.5A. Між кожною молекулою та атомом вуглецю ("щупом") із зарядом +1 обчислювалася електростатична та стерична енергія взаємодії в кожному вузлі гратків. Якщо енергія стеричної, або електростатичної взаємодії була більша ніж +/- 30 ккал/моль, то вона обмежувалась цим пороговим значенням. У результаті розрахунків сформовані два набори даних, що складались з енергії стеричної або електростатичної взаємодії в даному вузлі гратків.

Таблиця 4

Структури і значення log(1/IC50)(µM) для похідних N-бензилпіперидинів, що використовувались для тестування CoMFA та граткової моделі

Спо-лука R1 R2 Log (1/IC50) Log (1/IC50) (розрахована)

CoMFA-модель Граткова модель

АПН1 ЧНК АПН1 ЧНК

5 o-NO2 PhCO H 0,06 -0,15 -0,16 0,26 0,38

10 p-Cl PhCO H 0,74 0,77 0,78 0,80 1,03

15 m-pyridineCO H 1,16 0,54 1,06 0,46 0,39

20 PhCO C2H5 0,89 1,06 0,87 0,74 1,05

25 p-(PhCH2SO2)PhCO Ph 3,22 2,98 3,25 2,63 3,06

30 C6H11CO Ph -0,97 0,48 0,91 0,45 0,72

35 CH3CO m-F Ph 1,19 0,68 0,81 1,10 0,83

1Результати для сумарних наборів даних, отримані методами відбору ознак.

Таблиця 5

Структури та значення log(1/IC50) (µM) для похідних N-бензилпіперидинів, що використовувалися для тестування CoMFA та граткової моделі.

Спо-лука R3 Log(1/IC50) Log (1/IC50) (розрахована)

CoMFA-модель Граткова модель

АПН1 ЧНК АПН1 ЧНК

40 PhCO(CH2)3 0,28 0,28 0,29 1,42 0,38

45 1,90 2,63 2,15 2,04 1,92

50 2,66 2,69 2,54 2,45 2,73

55 1,89 1,44 1,90 2,03 1,58

60 1,64 1,53 1,72 1,87 2,03

65 2,35 1,96 1,88 1,97 2,27

1Результати для сумарних наборів даних, отримані методами відбору ознак.

Граткова модель. При побудові граткової моделі похідні N-бензилпіперидинів з фіксованою просторовою структурою суміщувались по піперидину і розташовувались в просторових гратках, що складалися з кубічних комірок розміром 1A. Для кожної комірки розраховувалися 7 типів параметрів. В результаті для похідних N-бензилпіперидинів отримано 7 наборів даних, що складалися з 5796 ознак.

2.2.1. Прогноз активності похідних N-бензилпіперидинів за допомогою CoMFA моделі

Результати аналізу похідних N-бензилпіперидинів за допомогою АПН та ЧНК методу подані в табл. 6. Результати свідчать, що величини статистичних коефіцієнтів, отриманих методом АПН та ЧНК, практично однакові для набору навчання. Однак, для тестового набору ці величини вищі для АПН ніж ЧНК-результати. Аналіз похідних N-бензилпіперидинів за допомогою методів відбору ознак виявив більший вплив на прояв активності електростатичних ознак, що підтверджено статистичними коефіцієнтами для цього типу поля. Порівнюючи величини q2 в табл. 6, слід відмітити підвищення точності прогнозу для набору навчання та практично ті ж результати для тестового набору даних. Результати прогнозу активності наведено в табл. 4, 5.

Таблиця 6

Загальний статистичний аналіз похідних N-бензилпіперидинів.

Тип поля АПН ЧНК

Аналіз всіх ознак Аналіз методами відбору ознак

Кільк. класт. q2 коеф. Тестовий набір Кільк. класт. q2 коеф. Тестовий набір q2 коеф. Тест. набір

Стеричне 10 0,58±0,02 0,76±0,02 5 0,62±0,02 0,75±0,02 0,42 0,66

Електрост. 35 0,65±0,02 0,64±0,02 8 0,77±0,02 0,60±0,02 0,53 0,59

Ст.+Ел. 45 0,58±0,03 0,75±0,02 6 0,73±0,02 0,77±0,02 0,59 0,69

Отримані результати по розподілу активних кластерних зон узгоджуються з результатами попередніх досліджень для похідних N-бензилпіперидинів. Обидві моделі свідчать, що активність сполук обумовлена, в більшості випадків, взаємодією карбонільних груп фталімідного фрагменту молекул з ферментом (див. табл. 4, 5). Наприклад, сполуки 42, демонструють високий рівень активності, оскільки одна з карбонільних груп формує водневі зв'язки з Tyr124. Однорідні сполуки 56, , є неактивними, оскільки не можуть формувати водневі зв'язки. Гіпотеза про необхідність водневих зв'язків з Tyr124 також підтвердилась при аналізі іншої групи сполук, в яких відсутня фталімідна група, але присутні карбонільні групи. Наприклад, активність сполуки 22, що є потенційним інгібітором, частково пов'язана з карбонільним киснем, який формує водневі зв'язки з Tyr124.

 

а) б)

Рис. 6. Карта розподілу кластерів навколо молекули № 48 для сумарного набору похідних N-бензилпіперидинів: а) стеричний тип ознак; б) електростатичний тип ознак. Темно-сірим кольором зображено області, пов'язані зі збільшенням стеричного об'єму та зменшенням негативного заряду, а світло-сірим – області, пов'язані зі зменшенням стеричного об'єму і збільшенням негативного заряду.

Дані висновки також підтверджують і результати, знайдені за допомогою АПН. Наприклад, на рис. 6 стерично сприятливі зони близько розміщені біля фенільної групи, тоді як стерично заборонений регіон знаходиться над площиною фталімідної групи (див. рис. 6,а). Світло-сіра область навколо карбонільних киснів фталімідної групи молекули 48 підкреслює, що наявність негативно зарядженого угруповання у цьому районі підвищує інгібіторну активність сполук (див. рис. 6,б). Аналогічно світло-сірий кластер біля фенільного кільця підкреслює наявність негативно заряджених карбонільних груп в положенні R1 для молекул 1-39 (див. табл. 4).

2.2.2. Прогноз активності похідних N-бензилпіперидинів за допомогою граткової моделі

Результати аналізу наборів даних для похідних N-бензилпіперидинів для граткової моделі наведено в табл. 7. Результати свідчать, що моделі, знайдені на основі АПН, дають більш якісний прогноз, ніж результати ЧНК для набору навчання. Однак, для тестового набору величини q2 коефіцієнтів нижчі для АПН (за винятком першого набору), ніж для ЧНК. За допомогою аналізу всіх наборів методами відбору ознак вдалося відібрати найбільш інформативні кластери для кожного набору.

Таблиця 7

Загальний статистичний аналіз похідних N-бензилпіперидинів

Тип поля АПН ЧНК

Аналіз всіх ознак Аналіз методами відбору ознак

Кільк. класт. q2 коеф. Тестовий набір Кільк. класт. q2 коеф. Тестовий набір q2 коеф. Тест. набір

Набір 1 22 0,61±0,01 0,60±0,02 5 0,63±0,03 0,60±0,03 0,30 0,56

Набір 2 7 0,60±0,02 0,55±0,02 5 0,61±0,03 0,56±0,04 0,48 0,69

Набір 3 24 0,66±0,03 0,27±0,05 13 0,71±0,03 0,35±0,03 0,55 0,77

Набір 4 24 0,51±0,03 0,56±0,03 10 0,55±0,05 0,61±0,05 0,54 0,78

Набір 5 24 0,61±0,03 0,59±0,03 7 0,71±0,03 0,51±0,03 0,52 0,75

Набір 6 21 0,72±0,02 0,59±0,03 10 0,72±0,04 0,61±0,04 0,55 0,80

Набір 7 8 0,66±0,02 0,51±0,03 6 0,70±0,03 0,49±0,04 0,55 0,82

Набір 8 130 0,63±0,03 0,62±0,03 9 0,82±0,02 0,75±0,03 0,50 0,78

На рис. 7 наведені контурні карти для двох наборів даних. Отримані результати схожі на результати, знайдені для CoMFA-моделі (див. розділ 2.2.1). Наприклад, темно-сірий кластер (див. рис. 7,а) коло фенільної частини молекули та карбонільного кисню свідчить про важливість електронегативно зарядженої групи для прояву інгібіторної активності. Світло-сірі ж кластери показують, що присутність груп з підвищеною електронегативністю в цих зонах призведе до зниження активності даної сполуки. Відсутність електронегативно заряджених груп в положенні R2 для сполук 1-20 (табл. 4) призводить до зниження активності даних сполук. Аналогічно, темно-сірі кластери (рис 7,б) показують, що присутність в даному районі атомів азоту (можливі фрагменти ферменту) буде підвищувати інгібіторну активність сполук. Світло-сірі кластери, навпаки, показують, що присутність даних атомів в цих регіонах призведе до зниження інгібіторної активності.

а) б)

Рис 7. Карта розподілу кластерів навколо молекули № 48 для похідних N-бензилпіперидинів: а) електростатичний потенціал в комірці; б) імовірність заселення комірки азотом. Темно-сірим кольором показані кластери, що сприяють прояву активності, а світло-сірим - ті, що перешкоджають прояву активності.

Прогнозуючу здатність моделей, отриманих за допомогою АПН та ЧНК, можна порівняти, використовуючи непараметричний критерій знаків. Таке порівняння 33 пар спостережень табл. 2,3,6,7 дало такі результати: Якщо відкинути пари з однаковими величинами для q2, то для наборів навчання 30 коефіцієнтів з 30, знайдених МКК на основі АПН, вищі, ніж для ЧНК. Аналогічно 18 коефіцієнтів з 28, отриманих для тестового набору на основі АПН, також вищі, ніж результати, знайдені для ЧНК. Звідси, згідно з критерієм знаків, слідує з імовірністю p > 0,90, що прогнозуюча здатність моделей, отриманих за допомогою АПН, краща, ніж - ЧНК-моделей.

Таким чином, на основі результатів аналізу аміноалкіліндолів та похідних N-бензилпіперидинів ми можемо зробити висновок, що отримана прогнозуюча система є ефективним засобом відбору потенційно активних сполук і може використовуватися для розрахункового скринінгу при конструюванні нових лікарських засобів.

ВИСНОВКИ

1. У дисертації наведене нове вирішення наукової задачі, що виявляється в дослідженні фізіологічної активності речовин за допомогою методів комп'ютерного моделювання. Розроблено комп'ютерну експертну систему на основі методу штучних нейронних мереж, яка дозволяє аналізувати дані великої вимірності. Результати, отримані за допомогою нового методу, продемонстрували його високу прогнозуючу здатність.

2. Розроблено методи відбору інформативних ознак та показано їх ефективність як на прикладі класичних задач теорії розпізнавання образів, так і практичних задачах пошуку КЗСА. Методи використані для автоматичного знаходження інформативних кластерних зон, що дозволило локалізувати області навколо молекул, які обумовлюють біологічну активність досліджуваних сполук.

3. Створено комп'ютерну графічну програму, що дозволяє візуально спостерігати та аналізувати зони активності навколо молекул. Результати візуалізації можуть використовуватися дослідниками для оцінки впливу фрагментів сполук на прояв біологічної активності та прогнозування активності нових молекул.

4. В результаті аналізу аміноалкіліндолів та похідних N-бензилпіперидинів виявлені зони активності навколо досліджуваних молекул, які дозволили пояснити дію цих класів сполук на їх біологічні мішені.

5. Статистичні результати, отримані запропонованим методом для досліджених сполук, були поліпшені (p > 0,90 ) порівняно з методом часткових найменших квадратів, який традиційно використовується в 3D-КЗСА дослідженнях.

Список праць, опублікованих за темою дисертації

1. Tetko I.V., Kovalishyn V.V., Luik A.I. Neural Network Pruning Algorithm that Estimates the Input Parameter Performances // Доповіді НАН України. - 1995. - № 7. – C. 63-66.

2. Холодович В.В., Танчук В.Ю., Ковалішин В.В., Пояркова С.О., Метелиця Л.О., Луйк О.І. Розрахункове прогнозування імуномодулюючої активності пептидних речовин – аналогів тафцину // Доповіді НАН України. – 1997. - №6. – С. 170-175.

3. Холодович В.В., Танчук В.Ю., Ковалишин В.В., Тетко И.В., Пояркова С.А., Метелица Л.А., Луйк А.И. Применение топологических индексов для предсказания иммуномодулирующей активности новых пептидных соединений // Теорет. и эксперим. xимия. – 1997. – 33, №2. – С. .

4. Kovalishyn V.V., Tetko I.V., Luik A.I., Kholodovych V.V., Villa A.E.P., Livingstone D.J. Neural Network Studies. 3. Variable Selection in the Cascade-Correlation Learning Architecture // J. Chem. Inf. Comput. Sci. – 1998. – 38. - P. 651-659.

5. Ивахненко А.Г., Ковалишин В.В., Тетко И.В., Луйк А.И., Ивахненко Г.А., Ивахненко Н.А. Самоорганизация нейросетей с активными нейронами для прогнозирования активности химических соединений на основе алгоритма поиска аналогов // Проблемы управления и информатики. – 1999. - №1. – С. 69-77.

6. Ковалишин В.В., Тетко И.В., Луйк А.И., Артеменко А.Г., Кузьмин В.Е. Алгоритм пространственного обучения искусственных нейронных сетей на основе решеточного моделирования молекулярной структуры для решения задач QSAR // Хим. Фарм. Журн. – 2001. – 35, №2. – С. 18-23.

7. Tetko I.V., Kovalishyn V.V., Luik A.I., Livingstone D.J. Application of Volume Learning Artificial Neural Network to Calculate 3D QSAR Models with Enhanced Predictive Properties // Rational Approaches to Drug Design / Eds. H.-D. Holtje and W. Sippl.- Barcelona:Prous Science, . - .

8. Ковалишин В.В., Тетко


Сторінки: 1 2