Pfam-В.
Рис. 3.9 подає структуру статті у Pfam-А. Вона подібна до такої у PROSITE. Тут є АС – номер доступу (у формі PFOOOOO) i ІD – код – як ключове слово, DE – назва або опис родини, і AU – вказує на автора статті. У лінійках AL і AM вказані методи, використані для отримання результатів (seed) і повного автоматичного порівняння відповідно. У лінійках SE, DR, GA подані відповідно база даних, звідки отримана інформація про те, чого члени порядку входять до однієї родини, перехресні підходящі бази даних і пошукова програма з використаним способом відкидання, що була використана для побудови повної подібності. Більшість статей у Pfam ще не доступна для пошуку через Web-сервер у центрі Сенджера (Hinxton Gevone Campus).
IDENTIFY
Це третинне джерело автоматично генероване із баз даних BLOCKS і PRINTS на кафедрі біохімії Стенфордського університету. Для цього використана програма eMOTIF, базована на генеруванні консенсусних експресій із консервативних ділянок порівнянь сіквенсів. Проте, тут не кодується точна інформація, виявлена у кожній позиції вирівнювання (чи мотиву). Швидше – реалізований підхід, в якому альтернативні залишки „терпляться” у відповідності до набору передбаченого групування. Воно показане в табл. 3.4. Ці групи відповідають різним біохімічним властивостям, таким як заряд і розмір. Це дає теоретичну ймовірність того, що отримані мотиви мають розумну біохімічну інтерпретацію. Отримані моделі виявляють більше дійсно позитивних подібностей, а також фальш-позитивних.
База даних IDENTIFY і її пошукова програма eMOTIF доступна для використання через білкову функцію Web-сервера кафедри біохімії Стенфорда.
Композитні бази даних структури білків
Зараз аналіз сіквенсів вимагає роботи з багатьма базами даних і „причісування” результатів з метою отримання узгоджених результатів. У майбутньому вторинні бази даних стануть більш направленими. Куратори PROSITE, Profiles, PRINTS, Pfam співпрацюють з метою створення уніфікованої бази даних родин білків. Кінцевою метою співпраці є створення єдиного центрального джерела анотацій родин у Женеві на основі існуючої документації у PROSITE і PRINTS. Кожна стаття буде містити різні дискримінатори батьківських баз даних: PROSITE, Profiles, PRINTS, Pfam. Співпрацюють у даному проекті і куратори бази даних BLOCKS, створюючи Web-сайт proWeb. Первинним завданням кураторів proWeb створити щось подібне до письмових оглядів, але з тією перевагою, що вони можуть легко поновлюватись і включати, наприклад, аніміційні матеріали.
Бази даних з класифікацією структури
Це складніше питання ніж аналіз послідовності. Воно вимагає доброго розуміння взаємозв’язків між сіквенсом і структурою. Найчастіше використовуються дві класифікаційні схеми.
SCOP- Structural Classification of Proteins. Вона підтримується MRC-лабораторією молекулярної біології і центром конструювання білків. У SCOP описані структурні і еволюційні взаємозв’язки між білками з відомою структурою. База даних сконструйована поєднанням ручних і автоматичних методів. Складність проблеми полягає в високій різноманітності структури від малих одиничних доменів до великої кількості багатодоменних ансамблів. У ряді випадків є сенс обговорити структуру білка як на мультидоменному рівні, та і на рівні його індивідуального домену.
Білки, класифіковані у спосіб, який відображає структурні і еволюційні зв’язки. Ієрархія має багато рівнів, але принципово тут описується родина, надродина і складки. Зв’язки між рівнями можуть бути суб’єктивними, але вищі рівні, на загал, віддзеркалюють ближчі структурні подібності.
Родина – білки поміщуються у родини зі зрозумілими еволюційними взаємозв’язками, якщо їх сіквенси ідентичні ?30%. Проте, це правило не абсолютне. Наприклад, у випадку глобінів деякі члени родини мають тільки 15% ідентичності. У цьому випадку працює наявність спільного предка, що виводиться через подібність структури і функцій.
Надродини – білки поміщуються в надродини, не дивлячись на низьку ідентичність сіквенсів, але, коли структурні і функціональні характеристики, допускають спільне еволюційне походження.
Складки – білки класифікуються як такі, що мають спільні складки, якщо вони мають організації і з тією же топологією. При цьому не зважають на наявність чи відсутність спільного еволюційного походження. У цих випадках структурні подібності могли виникнути як результат фізичних принципів, які задають часткову організацію укладки і топологію складок.
Web-сервер MRC Laboratory.
CATH – Class Apchitecnupe, Topology, Homology. Ця база даних містить ієрархічну класифікацію доменів білкових структур і підтримується UCL. Джерело, в основному, створене автоматичними методами, але ручна перевірка необхідна у випадку, коли не спрацьовують автоматичні методи. Різні категорії цієї класифікації ідентифікуються як унікальні номери (по аналогії з класифікацією ферментів – Е.С.system) і описовими назвами. Такі цифрові схеми дозволяють ефективно маніпулювати даними з допомогою комп’ютера. Ієрархія має 5 рівнів:
Клас (class) – походить від змісту вториної структури і упаковки. Розрізняють чотири класи доменів: 1 – переважно б; 2 – переважно в; 3 – б-в, який включає обидва альтернативні б/в і б+в структури і 4 – ті, які містять мало елементів вторинної структури.
Архітектура (architecture) описує великі організації вторинних структур, ігноруючи їх зв’язки. Зараз вони надаються вручну, використовуючи простий опис організації вторинних структур, таких як бочка, сендвіч, клубок тощо.
Топологія (topology) описує як загальну форму, так і зв’язки вторинних структур. Це досягається шляхом використання алгоритмів порівняння структури, які застосовують емпірично. Виведені параметри для кластеризації доменів. Структури, в яких, щонайменше, 60 % подібності, відносять до одного рівня топології.
Гомологія (Homology) групує домени, які поділяють ?35% ідентичності сіквенсів і, вважається, що мають спільного попередника. Спочатку подібності виявляють з порівняння сіквенсів, а далі – алгоритмами порівняння структури.
Послідовність (Sequence) забезпечує кінцевий рівень у єрархії. Тут структури у гомологічних групах далі кластеризуються на основі ідентичності сіквенсів. На цьому рівні домени мають ідентичність сіквенсів >35%, що вказує на високу подібність структур і