щотижневе з SWISS-PROT.
На сьогодні з відносно легким доступом до Web найкраще шукати у багатьох базах даних для того, щоб бути переконаним, що нічого важливого не опущено. На час, поки не існує повних баз даних без помилок тільки такий шлях вирішення питань. Альтернативою може бути створення власних баз даних з використанням програм nr із NCBІ.
4. Вторинні бази даних
Вторинні бази даних (pattern) містять плоди аналізу сіквенсів з первиних джерел. Через те, що існує кілька різних первинних баз даних і багато шляхів аналізу білкових сіквенсів.
Їхні формати також відрізняються. Нетривіальним є і питання щодо використовуваних програмних інструментів, інтерпретації статей і біологічного значення результатів.
Картина сучасних баз даних досить складна і ще немає загальноприйнятих стандартів. Для побудови вторинних баз даних найчастіше використовують SWISS-PROT. Деякі з найважливіших вторинних бази даних приведені у табл. 3.3.
З табл. 3.3 зрозуміло, що кожна вторинна база даних містить різну інформацію. Гомологічні сіквенси можуть компонуватись разом у множинних порівняннях (Multiple alignments) у яких згруповані консервативні ділянки, які мають незначні або й зовсім не мають відмінностей у сіквенсі. Ці консервативні ділянки, або мотиви, зазвичай, пов’язані з життєво важливою біологічною функцією. Наприклад, щось критичне для структури чи функції білка.
Мотиви використовуються по-різному для побудови діагностичних моделей певних родин білків. Ідея полягає в тому, чи невідомий сіквенс можна пошукати проти бібліотеки відомих і відповісти не питання – містить чи ні даний сіквенс будь-яку з очікуваних характеристик і чи можна віднести його до якоїсь з відомих родин. Якщо відповідь позитивна, то з’являється можливість про певну біологічну функцію. Оскільки вторинні бази даних побудовані на основі багатьох первинних джерелах інформації, то працювати з ними краще, ніж з первинними базами даних. Проте, оскільки жодна з вторинних баз даних не повна, то вони повинні використовуватись тільки як доповнення до первинних баз даних, а не заміщати їх. Надалі ми зупинимось на основних вторинних базах даних.
PROSITE
Це перша вторинна база даних зараз підтримується Швейцарським інститутом біоінформатики (Swiss Institute of Bioinformatics). Суть, закладена в основу цієї бази даних, полягає в тому, що родини білків можуть бути просто і ефективно охарактеризовані одним найбільш консервативним мотивом серед багатьох відомих гомологів. Такий мотив, зазвичай, кодує ключову біологічну функцію, як-то – активний центр фермента, зв’язуючий центр ліганда чи металу тощо. Пошук у такій базі даних може, в принципі, допомогти визначити до якої родини білків новий сіквенс може належати чи домен (домени) чи функціональні центри може містити.
У PROSITE мотиви закодовані як регулярні експресії (regular expressions). Їх часто також називають моделями (pattern). Процес використання включає в себе конструювання множинних порівнянь і ручну перевірку для ідентфікації косервативних ділянок. Інформація щодо сіквенсу в індивідуальному мотиві зведена до одиничних консенсусних експресій і результатні дані використовуються для пошуку у SWISS-PROT. Результати перевіряються вручну з метою оцінки наскільки вдало використана модель. В ідеалі повинні бути лишень коректні подібності (так звані дійсно позитивні – true – positives) і некоректні подібності (false – positives). Пошуки у яких багато некоректних подібностей піддаються сумніву і тому необхідно повторно просканувати SWISS-PROT. Цей процес повторюється до тих пір, поки отримають оптимальні результати.
Іноді повна родина білків не може бути охарактеризована одним мотивом. У цьому випадку проводиться робота з другою висококонсервативною ділянкою. Процес пошуку повторюється до тих пір, поки всі або більшість представників родини з даної версії SWISS-PROT не дадуть мало, або й ні одної коректної подібності.
Тепер проаналізуємо структуру статей PROSITЕ статті організовані у двох різних файлах. Перший містить структуру і перелік всіх подібностей у батьківській версії SWISS-PROT. Як показано на рис. 3.3 дані структуровані у відповідності до статей SWISS-PROT, де кожне поле пов’язане зі специфічним типом інформації. Другий файл – документаційний. Він дає деталі охарактеризованої родини і, якщо відомо, опис біологічної ролі вибраного мотиву і відповідну бібліографію. З рис. 3.4 видно, що це текстовий файл довільного формату.
Структуру файлу даних легко зрозуміти. Подібно до SWISS-PROT кожна стаття містить ідентифікатор (ІD), який, зазвичай, є акронімом родини, і номер доступу, який має форму PSOOOOO. Лінійка ІD також вказує тип дискримінатора очікуваного файла.
Слово PATTERN у даному прикладі говорить нам, що очікується регулярна експресія. Назва, або опис родини міститься у лінійці DЕ. Лінійки NR забезпечують технічні деталі про (diagnostic performance) отримання і діагностичну надійність (діагностичну силу – diagnostic power) моделі. У цьому відношенні NR лінійки, ймовірно, є найбільш важливими для перевірки при першому огляді статті PROSITE. Велика кількість фальш-позитивних і фальш-негативних результатів свідчить про слабкість використаної моделі. У прикладі з рис. 3.3 можна встановити, що модель була виведена з версії (release) 32 бази даних SWISS-PROT, вона містила 49340 сіквенсів. Вона містить загалом 53 сіквенси, всі з яких, дійсно, позитивні. Іншими словами – це добрий зразок, без фальшивих послідовностей.
Лінійки СС (коментарні) забезпечують інформацією щодо таксономічного ряду родини (тут – як еукаріот), максимальної кількості повторів структури (тут тільки один), анотації функціональних ділянок (тут - сітківка) тощо. Надалі подані коментарі переліку номерів доступу та ідентифікаційні коди SWISS-PROT. Всіх позитивних подібностей структури (позначені Т) і будь-які можливі подібності (позначені Р). Вони часто є фрагментами. В нашому прикладі немає фальш-позитивних чи фальш-негативних подібностей, у випадку їх наявності вони проводяться і позначаються буквами F i N відповідно. Кількість фальшивих і загублених подібностей приводяться у лінійках