NR. Остання лінійка файлу (DО) направляє до файлу родини повязаної інформації.
Структура файлу документації значно простіша. Кожна стаття ідентифікована її персональним номером доступу, який має форму PSOOOOO і забезпечує перехресне реферування до номеру доступу та ідентифікатора цього файлу даних. Далі у вільному форматі іде опис родини. Він включає деталі структури і, якщо відомо, біологічне значення. У файлі також містяться відповідні бібліографічні посилання. База даних PROSITE, доступна для пошуку через ключові слова і послідовності через Web-сервер Ex PASy.
PRINTS
Більшість родин білків характеризується не одним, а кількома консервативними мотивами. Тому є сенс побудови діагностичних характеристик членів родини. За цим принципом була розроблена база даних PRINTS fingerprint (відбитки пальців). Вона до 1993 р. підтримувалась кафедрою біохімії і молекулярної біології університетського коледжу Лондона. Відбитки пальців покращують діагностичну надійність у порівнянні з одномотивним методом, бо аналізуються і сусідні мотиви. Тобто, якщо пошук не дав позитивних подібностей у даному відбитку пальців, структура подібностей решти мотивів дозволяє користувачеві зробити розумно надійний діагноз.
У PRINTS мотиви закодовані у вигляді невідкритих і незважених локальних порівнянь. Тут інформація сіквенсів у наборі мотивів проведена через інтерактивний процес сканування баз даних. Тобто, із малих початкових множинних порівнянь ідентифікують консервативні мотиви і вручну вирізаються для пошуку баз даних. Зараз PRINTS отримують скануванням OWL, але надалі будуватимуються з пошуків у SWISS-PROT + SP + Tr EMBL. Результати перевіряються для визначення, які сіквенують подібності до всіх мотивів відбитків пальців. Якщо є більше повторів, ніж було у вихідному порівнянні, то додаткова інформація із цих нових сіквенсів, додається до мотивів і база даних сканується знову. Такий інтерактивний процес повторюється до тих пір, поки не можна буде знайти нових подібностей відбитків пальців. На кінець, результати анотуються для включення у базу даних.
Рис. 3.5. ілюструє три різних аспекти статті PRINTS. Нагорі файлу (а) кожному відбитку пальців дається ідентифікаційний код, зазвичай, акронім білка, який дав назву родині. Тут дано відбиток пальців, або позначення описів, закодованих як OPSIN. Всі статті також мають номери доступів у формі PROOOOO (не показано). Далі вказується кільість мотивів у відбитку пальців (тут – 3), кількість перехресних зв’язків бази даних і дата, коли стаття була введена у базу даних, і коли востаннє модифікована. Це дозволяє дістатися до додаткової інформації про родину у пов’язаних біологічних ресурсах. І, на кінець, – подано бібліографічну інформацію, коротку характеристику родини, пов’язану з технічними деталями відносно отримання відбитку пальців (не показано). Якщо можливо, то опис містить деталі структурного і/чи функціонального значення консервативних мотивів.
У другій секції статті у PRINTS (рис. 3.5 (б)) подана інформація стосовно діагностичної надійності як цілих відбитків пальців, так і мотивів, які входять до їх складу. Резюме містить інформацію про кількість подібних сіквенсів і скільки виявлено часткових подібностей. У нашому прикладі видно, що 73 сіквенси подібні у всіх трьох елементах відбитків пальців і один сіквенс подібний тільки у двох мотивах. Надалі в таблиці подана додаткова іноформація, що підтверджує ці результати. Тут деталізується скільки сіквенсів були подібні до кожного індивідуального мотиву. У цьому прикладі отримуємо важливу інформацію, що даний підхід не виявив подібності до мотиву 1.
В останній частині статті (рис. 3.5 (в)) приведені мотиви, використані для створення відбитку пальців. За нею слідує кінцевий мотив (не показаний), отриманий інтерактивним скануванням бази даних. Кожен мотив ідентифікується батьківським кодом ІD плюс число, яке вказує, яким компонентом відбитків пальців він є. У приведеному прикладі три мотиви відбитку пальців OPSIN позначені як OPSIN1, OPSIN2, OPSIN3 (останній не показаний). Після коду подається довжина мотиву. За нею слідує короткий опис, що вказує на відповідну кількість інтеграцій. Для першого мотиву це завжди буде „1”. Далі подаються самі порівнювані мотиви разом з кодом відповідного джерела у базі даних кожного з аналізованих фрагментів сіквенсів. Тут у початкове порівняння включені тільки сіквенси із SWISS-PROT. Потім слідує локалізація кожного з фрагментів у батьківському сіквенсі разом з інтервалом (тобто числом залишків) між фрагментами і попереднім сусідом. Для першого мотиву – це відстань від N-кінця.
Важливим наслідком такого сортування мотивів є те, що не втрачається інформація сіквенсів. Це означає, що надалі багато інших оціночних методів можна використати. Тому PRINTS забезпечує вихідний матеріал для автоматичного створення третинних баз даних (tertiary databases).
База даних доступна через ключові слова і пошук сіквенсів через Web-сервер Db Browser Bioinformatics. У 1999 р. він перемістився з UCL до університету Манчестера.
Дана база даних допускає вручну ввести документацію родини, що допомагає помістити інформацію про консервативні сіквенси в структурний чи функціональний контекст. Це дуже важливо для кінцевого користувача, який хоче, наприклад, тільки знати, чи новий сіквенс містить очікуваний мотив, а, що більш важливо, бажає зрозуміти його біологічне значення.
BLOCKS
Це база даних з багатьма мотивами, базована на родинах білків у PROSITE. Вона була розроблена у центрі досліджень рaку Фреда Хютчінсона (Fred Hutchinson). У цій базі даних мотиви чи блоки створюються автоматично шляхом визначення найбільш висококонсервативних ділянок у кожній родині білків. Це досягається шляхом ідентифікації початкової стадії трьох консервативних амінокислот. Утворені блоки калібруються проти SWISS-PROT для отримання рівня ймовірності шансу подібності. Дві оцінки визначаються для кожного блоку. Пеший визначає рівень, при якому 99,5% подібностей є істинно негативними. Другий є середнім значенням істинно позитивних оцінок. З метою порівняння діагностичної надійності індивідуальних блоків вони нормалізовані множенням