на 1000 і діленням на оцінку 99,5. Середня стандартизована оцінка для істинно позитивних подібностей називається силою. На рис. 3.6 приведено типову структуру статті BLOCKS. Вона сумісна з використовуваною у PROSITE. Тут кожен блок ідентифікований загальним кодом (ІD), номером доступу у формі BLOOOOX (Буква Х вказує який є блок у наборі блоків родини). Так блок BL60327C є третім блоком бактеріального родопсину. Лінійка ІD вказує на тип дискримінатора, очікуваного у файлі. Тут слово BLOCK сигналізує про очікування блоку. Лінійка АС вказує мінімальну і максимальну відстані блоку від попереднього сусіда, або від N-кінця для першого блоку в групі. Лінійка DE містить назву, або опис родини. Лінійка BL – вказує на діагностичну силу і деякі фізичні деталі блоку. Це включає триплети амінокислот (тут R, V, A), ширину блоку і кількість сіквенсів, які він містить, з рівнем оцінки 99,5%, і, накінець, силу.
При розділенні істинно позитивних від істинно негативних, сильні блоки більш ефективні, ніж слабкі (з силою менше, ніж 1100). Далі слідує інформація, яка вказує ІD даного сіквенсу у SWISS-PROT, стартову позицію фрагменту, сам сіквенс фрагменту і оцінку або вагу, яка забезпечує величину близькості взаємозв’язку даного сіквенсу з іншими у блоці (100 – найдалі). Фрагменти сіквенсів подібних менше, ніж на 80% розділюються порожньою лінійкою.
Оскільки BLOCKS створюється повністю автоматизованим методом, блоки не анотовані, але зате є зв’язки до відповідних документальних файлів PROSITE. Ця база даних доступна через ключові слова „пошук послідовностей на Web-сервері Blocks y FHCRC”. Даний сервер також забезпечує базу даних PRINTS у форматі BlOCKS. Рис.3.7 ілюструє типовий мотив у форматі BlOCKS. Cтруктура статті ідентична тій, яка використовується у BlOCKS, з незначною різницею у лінійках АС і ВL. Тут на лінійці АС дається номер доступу з буквою, яка вказує яким є даний компонент у відбитку пальців. Так PROO238A свідчить, що це є перший мотив. На лінійці BL інформація про триплет заміщена словом „адаптована” (adapted), що вказує на те, що дані мотиви взяті з іншої бази даних.
Оскільки BlOCKS –format PRINTS гепаровані автоматично з PRINTS, його блоки не анотовані. Документація про родини і мотиви може бути отримана через зв’язки до відповідних статей PRINTS. База даних доступна через ключові слова і пошук послідовностей через Web-сервер Blocks у FHCRC. Понад 50% закодованих у PRINTS родин не представлені у PROSITE. Тому робота у двох базах даних BLOCKS дасть надійніший результат, ніж з кожним зокрема.
Profiles (профілі)
У попередніх частинах характеристика родин білків грунтувалась на філософії консервативних ділянок. Проте, існує й альтернативний підхід, а саме: варіабельні ділянки між консервативними мотивами також містять цінну інформацію. Тут дискримінатором стає порівняння повного сіквенсу. Дискримінатор, який називають профілем (profile) зважають для того, щоб показати де дозволені вставки і делеції (INDELs), які типи залишків дозволені для цих позицій і де знаходяться найбільш консервативні ділянки. Профілі також називають матрицями ваги чи ваговими матрицями (weight matrices). Вони забезпечують чутливий спосіб визначення далеких взаємозв’язаних сіквенсів, де є тільки дуже мала кількість добре консервативних залишків. У цих умовах регулярні експресії не можуть забезпечити доброї дискримінації і тому або буде знайдено багато фальш-позитивів, або втрачено дійсно-позитивів.
Обмеженість регулярних експресій у ідентифікації віддалених гомологів призвела до створення короткого, але детального і повного набору профілів у Швейцарському інституті eкспериментальких досліджень раку (JSREC) – в Лозані. Кожен профіль містить окремі дані і анотації родин у формі такій самій, як PROSITE, і файли документації. Це дозволило використовувати Profiles як складову частину PROSITE.
Рис. 3.8 демонструє структуру файлу даних профілю. Вона близька до структури у PROSITE, але має й певні відмінності. Так, у лінійці ІD слово MATRIX вказує, що типом дискримінатора є профіль. Лінійки РА (структура) замінені лінійками МА (matrix). Вони перераховують різні параметри специфікації, використані для створення і опису профілю. Тут включені деталі використаного алфавіту (для нуклеїнових кислот – {ACGT}) чи амінокислот ({АВ...Z}), довжини профілю, оцінки відрізання (відтинання), які сконструйовані так, щоб, де можливо, виключити випадкові подібності тощо. Поле І містить інформацію про оцінки місця специфічних профілів для вставок, а М – про місця подібностей. Профілі, які не відповідають стандартам анотацій, необхідних для включення в PROSITE, ніколи недоступні для пошуку через Web-сервер JSREC.
Pfam
Є альтернативою до використання профілів кодування порівнянь у формі моделей Гідена-Маркова (Hidden-Markov Models – HMMs). Вони базуються на статистичній обробці, яка аналізує вміст лінійних ланцюгів подібності, місця делецій і вставок щодо кодування консервативності сіквенсів у аналізованій родині. Набір HMMs для білкових доменів зберігається у базі даних Pfam, яка підтримується центром Сенджера (Sanger Centre). База даних, базована на двох різних класах порівнянь: Pfam-A – досить точні відкориговані вручну порівняння і Pfam-B – менш надійні, отримані автоматичною кластеризацією SWISS-PROT.
Високоякісні результати впорядковані, і порівняння використовуються для побудови HMMs, з якими автоматично порівнюються сіквенси для отримання кінцевих повних порівнянь. Якщо вихідні порівняння не дають діагностично значимих HMMs, порядок покращується і повторюються інтеграції до моменту отримання доброго результату. Методи, які дають найкращі повні порівняння можуть змінюватись у залежності від родини. Тому зберігаються параметри для можливості відтворення результатів. Набір порядків і повні подібності, пов’язані з мінімальними анотаціями. База даних і перехресне реферування літератури, як і самі HMMs, входять до складу Pfam-А. Всі домени сіквенсів, які не ввійшли до Pfam-А, автоматично кластеризуються і зберігаються у