Джерела інформації про білки
Загальна організація баз даних.
Первинні бази даних.
Композитні бази даних білкових сіквенсів.
Композитні бази даних структури білків.
1. Загальна організація баз даних
В цій лекції ми ознайомимось з багатьма базами даних, різницею між ними, принципами їх організації. І яким чином вони функціонують і підтримуються. Будуть обговорені бази даних – первинні, вторинні і третинні.
Сіквенування геномів технічно досить просто, відносно дешеве і мало трудоємне. На відміну від цього, сіквенування білків, а тим більше встановлення вторинної, третинної і четвертинної структури значно складніше. Визначення тримірної (3D – 3-dimentional) структури білків досить повільний і складний процес. У зв’язку зі складністю 3D-структури білків систематизація і використання даної інформації також непросте завдання.
Перший крок – депонування інформації про сіквенси в центральних базах у формі, доступній для широкого використання. Ця інформація зберігається в електронній формі. За природою інформації існує багато баз даних (сіквенси, первинна чи вторинна структури). Вони можуть бути і у формі flat-files (прості файли), relational databases – у формі таблиць, чи object-oriented – за об’єктами. Тут ми, в основному, будемо акцентувати увагу в першу чергу на різних типах баз даних, а не на певних типах зберігання чи механізмах оперування.
В контексті аналізу сіквенсу білків будемо мати справу з наступними базами даних: первинні, складні і вторинні. Ресурси про організацію білків на різних рівнях зберігаються у абсолютно різних форматах. Новітні комп’ютерні технології забезпечують відносно нескладні, орієнтовані на користувача прозорий доступ до баз даних через Internet.
Первинні і вторинні бази даних використовуються для роботи з даними по сіквенсу і просторовій організації білків. Тому необхідно знати коли і як використовувати їх для побудови ефективної системи аналізу.
У первинній базі даних первинна структура білка зберігається в формі послідовності амінокислотних залишків.
У вторинній базі даних зберігається інформація про локальну організацію (б-спіралі, в-складки). Часто це висококонсервативні мотиви. Дані щодо вторинної структури білків подаються як регулярні (систематичні) вислови, відбитки пальців, блоки, профілі, тощо.
Інформація про третинну структуру білків зберігається в структурних базах даних у формі наборів атомних координат. Третинна структура виникає
Рис. 4.1. Рівні білкових послідовностей і їх структурної організації.
внаслідок просторової організації елементів структурної організації вторинної структури і невпорядкованих фрагментів. В них формуються дискретні домени складок (а, b, с), або автономні одиниці укладки чи модулі (@, *, #), чи й повна укладка.
2. Первинні бази даних
Первинні бази даних почали формуватись на початку 1980-х років на базі кількох лабораторій, де було усвідомлено, що існує потреба у централізованому збиранні і зберіганні інформації про сіквенси білків. У різних частинах світу були створені проекти кількох первинних баз даних. Деякі з цих баз приведені в табл. 4.1.
Табл. 4.1 Бази даних по первинній структурі нуклеїнових кислот і білків
Нуклеїнові кислоти | Білки
Gen Bank
EMBL
DDBJ | PIR
MIPS
SWISS-PRO
Tr EMВL
NRL-3D
Головними базами даних щодо сіквенсу нуклеїнових кислот є Gen Bank (США), EMBL (European Mob Dial Laboratory, Європа) і DDBJ (Японія). Вони щоденно обмінюються інформацією для кращого виконання покладених на них функцій. Тут ми не зупиняємось на базах даних, де зберігається інформація по нуклеїнових кислотах, і сконцентруємось на базах даних по білках.
PІR – Protein Information Resource
Ця база бере свій початок на початку 1960-х років. Вона була розроблена Margaret Day Hoff (як Protein Sequence Database (PSD)) у Національному фонді біомедичних досліджень –National Biomedical Reserch Foundation (NBRF). Первинно це була колекція сіквенсів для дослідження еволюційних взаємозв’язків між білками. З 1988 року PSD підтримувалась PІR-International – асоціацією центрів колекцій даних по сіквенсу макромолекул. Сюди входять PІR при NBRF, міжнародною японською базою даних пo інформації про білки Японії (International Protein Information Database of Japan) і Мартінсрідський інститут для білкових сіквенсів (Martinsried Institute for Protein Sequence - MIPS).
У сучасній формі ця база даних розділена на 4 секції, які позначені як PІR1-PІR4. PІR1 містить повністю класифіковані і анотовані статті. PІR2 включає первинні статті, які ще повністю не проаналізовані і можуть містити надлишок інформації. PІR3 містить неперевірені статті, які ще не були проаналізовані. До PІR4 віднесені чотири категорії: 1) концептуальний переклад автофактних сіквенсів; 2) концептуальний переклад послідовностей, які не транскрибуються або не транслюються; 3) білкові сіквенси чи концептуальні переклади, які екстенсивно генетично сконструйовані; 4) сіквенси, які генетично не кодуються і не продукуються на рибосомах. Розроблені програми для доступу до даних і пошуку сіквенсів через Internet у web-сайті NBRF- PІR FD.
MІPS
The Martinsried Institute for Protein Sequences збирає і обробляє дані сіквенсів для PІR International Protein Sequence Project. Дані розповсюджуються PATCHX, забезпечені неперевіреними білковими сіквенсами з зовнішніх джерел. Доступ до баз даних забезпечується через web-сервер. Результати FastA-пошуку подібностей всіх білків у PІR-International і PATCHX зберігаються у базі даних, яка динамічно підтримується. Це дозволяє швидкий доступ до результатів FastA-аналізу.
SWISS-PROT
Вона почала функціонувати у 1986 р. ЇЇ спочатку розробляли сумісно дослідники департаменту медичної біохімії Женевського університету і ЄМБЛ. Після 1994 р. співпраця перейшла до Великобританської ЄМБЛ –EBІ. З квітня 1998 р. вона підтримувалася Швейцарським інститутом біоінформатики (Swiss Institute of Bioinformaties; SІB, а зараз сумісно SІB і EBІ/EMBL). База даних забезпечує анотації високого рівня, які виключають описи функції білків, структуру їх доменів, пострансляційні модифікації, варіанти тощо. SWISS-PROT має метою мінімальну неоднозначність і зв’язана з багатьма іншими ресурсами. У 1996 р. було створено анотоване комп’ютерне забезпечення, назване Tr EMBL. Зараз ми детальніше подивимось