ефективність певних наукових розробок.
NRL-3D
Ця база даних створюється і підтримується PІR із сіквенсів, отриманих з Brookhaven Protein Databank (PDB). Назви і біологічні джерела статей відповідають стандартній номенклатурі, яка використовується PІR. Включені також бібліографічні посилання і перехресне реферування з MEDLINE. Тут є також інформація про вторинну структуру, активні ділянки, ділянки зв’язування і модифікації, деталі експериментальних методів, розрізнення, R-фактор, ключові слова тощо.
База даних NRL-3D робить доступною для пошуку інформацію про сіквенси через ключові слова. База даних може використовуватись з ATLAS системою retuireal. Ця пошукова система спеціально розроблена для роботи з базами даних з сіквенсами макромолекул.
Швидкий розвиток первинних баз даних порождує багато питань, зокрема – чи всі вони мають одинаковий формат? Яка найбільш точна, яка містить найсвіжішу інформацію, яка найбільш повна? Маючи широкий вибір баз даних постає питання: яку саме ми повинні використовувати?
Зупинимось на базах даних про білки.
NRL-3D є найменш повною тому, що в ній містяться тільки PDB, але зате вона має перевагу в тому, що безпосередньо зв’язана зі структурною інформацією. PІR (1-4) – найбільш повне джерело, але якість анотацій невисока, навіть у PІR1. SWISS-PROT – високоструктурована база даних, що забезпечує прекрасні анотації, але кількість сіквенсів менша, ніж у PІR. Вибір складний, тому за потреби найкраще шукати у всіх базах даних.
3. Композитні бази даних білкових сіквенсів
Одним із способів вирішення проблеми збільшення первинних баз даних є створення так званих композитних баз даних, які поєднані з різними первинними джерелами. Композитні бази даних забезпечують більш ефективний пошук саме через можливість одночасної роботи з багатьма джерелами. Саме здатність роботи з багатьма базами даних забезпечує те, що один і той самий сіквенс шукається більше, ніж один раз.
Для створення композитних ресурсів можуть використовуватись різні стратегії. Якість кінцевого продукту залежить від вибраних джерел даних і критеріїв, які використовуються ними. Наприклад, композитний ресурс (джерело) буде неідентичним, якщо воно у процесі об’єднання виключає тільки ідентичні копії сіквенсів. Проте, якщо два ідентичні і високоподібні сіквенси викинуті (наприклад, послідовності, які відрізняються лишень одним амінокислотним залишком, таким як лідируючий метіонін), то результуюча база буде мало потрібна.
NRDB – (Non-Redundant Data Base) (не-непотрібна база даних).
Ця база даних поєднує в собі GenPept (виведена з автоматизованої трансляції GenBank CDS, сіквенсів PDB, SWISS-PRОT, SPupdate (тижневі поповнення SWISS-PROT), PІR i GenPeptupdate (щоденні поповнення GenPept). Тому ця база даних є дуже повна і містить найсвіжішу інформацію. Проте, строго кажучи це не є не-непотрібна, а неідентична, тобто тільки ідентичні копії видалені з джерела. Цей достатньо спрощуючий підхід призводить до багатьох проблем. Зокрема, база даних містить багато копій того самого білка як результат поліморфізму чи/і незначних помилок сіквенування, некоректних сіквенсів, які появляються у SWISS-PROT при ретрансляції з ДНК. На додаток багато сіквенсів включені як повні статті, але це певні фрагменти. В результаті – вміст NRDB містить багато помилок і, незважаючи на назву, відносно мало корисна.
OWL – це „не-непотрібна” база даних білкових сіквенсів створена в університеті Лідсу (Leeds, England) у співпраці з лабораторією Даресбурі (Daresbary) у Варрінгтоні (Warrington). До неї включені чотири головних первинних джерела: SWISS-PROT, PІR4, GenBank (CDS translations); NRL-3D. Джерела зорганізовані за принципом рівня анотацій і надійності сіквенсів. Тут найвищий пріоритет має база даних SWISS-PROT. Тому всі інші порівнюються з нею у процесі об’єднання. Цей процес відкидає ідентичні копії сіквенсів і сіквенси, які містять різницю в одній амінокислоті. Це призводить до компактизації і збільшення ефективності джерела для порівняння сіквенсів. Незважаючи на це, база даних має проблеми, подібні до NRDB. Наприклад, зберігаються деякі помилки сіквенування і некоректні ретрансляції GenBank. На додаток, нові версії OWL надходять тільки через 6-8 тижнів, що не дозволяє отримувати найсвіжішу інформацію. Сервіс BLAST для OWL доступний з UK EMBnet National Node, SEQNET із UCL Specialist Node.
MIPSX
Це об’єднана база даних створена у MAX-Planck Institute у Маріннсрід (Martinsried). Вона містить інформацію з наступних джерел: PІR1-4, попередні надходження y MІPS, MIPSOxn, MIPS/PJP попередні надходження – PIRMOD, попередні трансляції MІPS-MIPSTrn, дріжджові статті MІPS-MІPSH, NRL-3D, SWISS-PRОT, автоматичні трансляції EMBL-EMTrans, трансльовані статті GenBank-GBTrans, Vabatі, PSeq JP. Джерела впорядковані згідно пріоритетів у порядку (табл. 4.2). Сіквенси, які ідентичні між собою видалені. Тобто тут заміщені лише унікальні копії. Видалені також сіквенси, які включені в інші.
SWISS-PROT i Tr EMBL забезпечує ресурси, які включають практично всю наявну в базах інформацію і є „мінімально” непотрібні. Ця база даних має ту перевагу над попередніми, що вона містить менше помилок і не є дійсно не-непотрібна. На середину 1997 р. біля 30% сіквенсів у SWISS-PROT i Tr EMBL не були унікальними. Зниження кількості помилок вимагає більше людських зусиль і/чи подальшого розвитку систем управління базами даних. Названа система може використовуватись системою доступу SRS на Web-сервері EBІ.
Постає питання – як в умовах швидкого розширення баз даних вибрати найкращу? Знову ж це питання повинно розв’язуватись у зв’язку з поставленими завданнями. Яка з баз даних містить інформацію найвищої якості, яка найбільш повна, яка містить найсвіжішу інформацію? Не останню роль відіграє швидкість відповіді сервера.
Серед проаналізованих баз даних найчастіше використовується OWL. Це означає, що вона добре зорієнтована на споживача, дозволяє швидко отримати відповідь на питання і в ній можна працювати різними шляхами. На протилежність NRDB недоступна для складного пошуку, але корисна, бо містить найсвіжішу інформацію через щоденне поповнення з GenPept і