Джерела інформації про геном
Бази даних сіквенсів ДНК: EMBU, DDBJ, GenBank, dbEST, GSDB.
Спеціалізовані геномні ресурси.
Тут ми проаналізуємо джерела інформації про сіквенси ДНК, включно з первинними базами даних (GenBank, EMBL, DDBJ) і вторинними спеціалізованими геномними ресурсами. Детальніше буде описана структура статей GenBank.
База даних сіквенсів ДНК
EMBL
База даних нуклеотидних сіквенсів із європейського інституту біоінформатики (ЕВІ). Вона містить сіквенси з прямих авторських подань і групи сіквенсу геномів, а також з наукової літератури і поданих патентів. Ця база даних формується разом DDBJ і GenBank на основі щоденного обміну інформацією. У 1998 році швидкість росту баз даних ДНК просувалась експонентно з часом подвоєння ~9-12 місяців. На січень 1998 р. EMBL містила більше мільйону статей, які представляли понад 15500 видів. Проте, явно домінували модельні системи. Homo sapiens, Сaenorabditis elegans, Saсcharomyces cerevisiae. Вoни становили понад 50% ресурсів.
Інформація може бути знайдена і отримана з EMBL, використовуючи систему SRS (Sequence Retrieval System). Це зв’язує головні бази даних ДНК і білків щодо мотивів, структури, картування зі спеціалізованими базами даних, а також з можливостями MEDLINE. EMBL можна використовувати з сіквенсами, і через WEB-інтерфейс EBI з програмами BLAST і FastA.
DDBJF
Це база даних ДНК Японії, яку започаткували у 1986 р у співпраці з EMBL і GenBank. База даних формується, підтримується і розповсюджується національним інститутом генетики. Сіквенси можна подати зі всього світу, використовуючи інструменти подання даних через Web-сторінку. Web також використовується для забезпечення стандартних пошуків з використанням BLAST і Fast A.
GenBank
Ця база даних із національного центру біотехнологічної інформації CNCBI. Тут міститься інформація із офіційно доступних джерел, в першу чергу з прямого подання авторів і великих проектів сіквенування. Окрім того, GenBank обмінюється інформацією з EMBL і DDBF. У зв’язку з величезною і зростаючою кількістю інформації, пов’язаною із доступними джерелами GenBank поділили на окремі відділи, наведені в табл. 4.1. Це прискорює пошук шляхом обмеження розділів баз даних. Недавно були додані також розділи, де подані результати, отримані у програмах швидкого сіквенування і геномних проектів (такі як HTG, EST, STS і GSS). Це дозволяє направляти пошук до високоякісних анотованих секцій сіквенсів і уникати низькоякісних даних.
Інформацію з GenBank можна отримати, використовуючи інтегральну пошукову систему Entrez. Тут поєднана інформація з головних баз даних білкових і нуклеїнових кислот з інформацією з геномних карт і структури білків. Додаткова інформація по сіквенсах можуть бути отримана через можливості MEDLINE. Забезпечені резюме з оригінальних опублікованих статей. У GenBank можна працювати, використовуючи Web-інтерфейс NCBI з програмами, які узгоджуються з BLAST.
Статті GenBank включають файли сіквенсів і індекси, створені у різних полях баз даних (такі як індекси автора, посилання тощо) і інформацію, отриману із інших баз даних, таких як , база даних трансльованих кодуючих послідовностей у форматі............ Зараз база даних доступна через..........
Кожна стаття містить ключові слова і пов’язані з ними субключові слова і, вибірково, таблицю властивостей. Вона закінчується знаком-термінатором ”11”. Місце розташування цих елементів у будь-якій лінійці важливе. Так, ключові слова починаються в колонці 1; субключові – 2; коди, які визначають початки таблиць властивостей у колонці ?.
На рис. 4.1 ключові слова включають: LOCUS, DEFINITON, ACCESSION, NJD, KEYWORDS, SOURCE, REFERENCE, FEATURES, BASE COUNT i ORIGIN. Ключове слово KEYWORD подає коротку мітку для статті, що може вказувати на функцію сіквенсу (тут для тренованого ока HUMCY-CLOX передбачає циклооксигенезу людини): відношення, як-то кількість основ, джерело даних сіквенсу (іРНК), розділ бази даних СPRi і дату включення. Лінійка DEFINIRION містить точний опис сіквенсу. У даному прикладі це іРНК циклооксигенази-2, повна сds. ACCESSION містить номер доступу – унікальний постійний код, притаманний кожній статті. Тут – M90100. Лінійка NJD подає ідентифікатор нуклеотиду (д 181253), який забезпечує унікальне посилання до даної версії інформації сіквенсу. Це дозволяє при ревізії зберігати зв’язок з тією самою назвою локусу і номером доступу. Лінійка KEYWORDS подає перелік коротких фраз, визначених автором, і які описують продукти генів і іншу пов’язану інформацію про статтю. Наприклад, циклооксигеназа-2, простагландин синтетаза. Лінійка SOURCE вказує на тканину, з якої було отримано проаналізований зразок. І субключове слово ORGANISM забезпечує інформацією про біологічну класифікацію аналізованого організму. У нашому прикладі Homo sapiens, Eukaryote і т.д. Лінійки REFERENCE вказують частину даних сіквенсу, на які посилається література. Субключові слова AUTHORS, TITLE JOURNAL забезпечують структуру цитування, а субключове слово MEDLINE направляє до інтернетівського літературного джерела, забезпеченого резюме даної статті.
Ключове слово FEAUTURES вводить секцію зі своєю субструктурою. ЇЇ мета – детально описати властивості послідовності у таблиці властивостей. У таблиці також є зв’язки до інших баз даних нуклеїнових кислот і білків, таксономічних баз даних, наводяться координати 5-нетрансльованої області (1-97), кодуючої послідовності (98-1912), 3-нетрансльованої ділянки (1913-3387), ділянки поліаденілювання послідовності (3369-3374) тощо. Подаються також трансляція білка, локалізація сигнального та зрілого пептидів. Стаття також містить лінійку BASE COUNT, яка характеризує частоту зустрічання різних типів основ у послідовності (тут 1010 А, 712 С, 633G і 1032 Т). Лінійка ORIGIN подає, коли можливо, локалізацію першої основи послідовності у геномі. Далі слідує сама нуклеотидна послідовність і стаття закінчується термінатором „11”.
dbEST
Дані EST зберігаються у базах даних. Вона має свій власний формат і систему ідентифікаційних номерів. Дані сіквенсів разом з описом антацій dbEST також розповсюджуються як підсекції первинних баз даних ДНК. На травень 1998 р. dbEST містило понад 1,6