Реферат Джерела інформації про геном

Реферат - Джерела інформації про геном

Джерела інформації про геном

Бази даних сіквенсів ДНК: EMBU, DDBJ, GenBank, dbEST, GSDB.

Спеціалізовані геномні ресурси.

Тут ми проаналізуємо джерела інформації про сіквенси ДНК, включно з первинними базами даних (GenBank, EMBL, DDBJ) і вторинними спеціалізованими геномними ресурсами. Детальніше буде описана структура статей GenBank.

База даних сіквенсів ДНК

EMBL

База даних нуклеотидних сіквенсів із європейського інституту біоінформатики (ЕВІ). Вона містить сіквенси з прямих авторських подань і групи сіквенсу геномів, а також з наукової літератури і поданих патентів. Ця база даних формується разом DDBJ і GenBank на основі щоденного обміну інформацією. У 1998 році швидкість росту баз даних ДНК просувалась експонентно з часом подвоєння ~9-12 місяців. На січень 1998 р. EMBL містила більше мільйону статей, які представляли понад 15500 видів. Проте, явно домінували модельні системи. Homo sapiens, Сaenorabditis elegans, Saсcharomyces cerevisiae. Вoни становили понад 50% ресурсів.

Інформація може бути знайдена і отримана з EMBL, використовуючи систему SRS (Sequence Retrieval System). Це зв’язує головні бази даних ДНК і білків щодо мотивів, структури, картування зі спеціалізованими базами даних, а також з можливостями MEDLINE. EMBL можна використовувати з сіквенсами, і через WEB-інтерфейс EBI з програмами BLAST і FastA.

DDBJF

Це база даних ДНК Японії, яку започаткували у 1986 р у співпраці з EMBL і GenBank. База даних формується, підтримується і розповсюджується національним інститутом генетики. Сіквенси можна подати зі всього світу, використовуючи інструменти подання даних через Web-сторінку. Web також використовується для забезпечення стандартних пошуків з використанням BLAST і Fast A.

GenBank

Ця база даних із національного центру біотехнологічної інформації CNCBI. Тут міститься інформація із офіційно доступних джерел, в першу чергу з прямого подання авторів і великих проектів сіквенування. Окрім того, GenBank обмінюється інформацією з EMBL і DDBF. У зв’язку з величезною і зростаючою кількістю інформації, пов’язаною із доступними джерелами GenBank поділили на окремі відділи, наведені в табл. 4.1. Це прискорює пошук шляхом обмеження розділів баз даних. Недавно були додані також розділи, де подані результати, отримані у програмах швидкого сіквенування і геномних проектів (такі як HTG, EST, STS і GSS). Це дозволяє направляти пошук до високоякісних анотованих секцій сіквенсів і уникати низькоякісних даних.

Інформацію з GenBank можна отримати, використовуючи інтегральну пошукову систему Entrez. Тут поєднана інформація з головних баз даних білкових і нуклеїнових кислот з інформацією з геномних карт і структури білків. Додаткова інформація по сіквенсах можуть бути отримана через можливості MEDLINE. Забезпечені резюме з оригінальних опублікованих статей. У GenBank можна працювати, використовуючи Web-інтерфейс NCBI з програмами, які узгоджуються з BLAST.

Статті GenBank включають файли сіквенсів і індекси, створені у різних полях баз даних (такі як індекси автора, посилання тощо) і інформацію, отриману із інших баз даних, таких як , база даних трансльованих кодуючих послідовностей у форматі............ Зараз база даних доступна через..........

Кожна стаття містить ключові слова і пов’язані з ними субключові слова і, вибірково, таблицю властивостей. Вона закінчується знаком-термінатором ”11”. Місце розташування цих елементів у будь-якій лінійці важливе. Так, ключові слова починаються в колонці 1; субключові – 2; коди, які визначають початки таблиць властивостей у колонці ?.

На рис. 4.1 ключові слова включають: LOCUS, DEFINITON, ACCESSION, NJD, KEYWORDS, SOURCE, REFERENCE, FEATURES, BASE COUNT i ORIGIN. Ключове слово KEYWORD подає коротку мітку для статті, що може вказувати на функцію сіквенсу (тут для тренованого ока HUMCY-CLOX передбачає циклооксигенезу людини): відношення, як-то кількість основ, джерело даних сіквенсу (іРНК), розділ бази даних СPRi і дату включення. Лінійка DEFINIRION містить точний опис сіквенсу. У даному прикладі це іРНК циклооксигенази-2, повна сds. ACCESSION містить номер доступу – унікальний постійний код, притаманний кожній статті. Тут – M90100. Лінійка NJD подає ідентифікатор нуклеотиду (д 181253), який забезпечує унікальне посилання до даної версії інформації сіквенсу. Це дозволяє при ревізії зберігати зв’язок з тією самою назвою локусу і номером доступу. Лінійка KEYWORDS подає перелік коротких фраз, визначених автором, і які описують продукти генів і іншу пов’язану інформацію про статтю. Наприклад, циклооксигеназа-2, простагландин синтетаза. Лінійка SOURCE вказує на тканину, з якої було отримано проаналізований зразок. І субключове слово ORGANISM забезпечує інформацією про біологічну класифікацію аналізованого організму. У нашому прикладі Homo sapiens, Eukaryote і т.д. Лінійки REFERENCE вказують частину даних сіквенсу, на які посилається література. Субключові слова AUTHORS, TITLE JOURNAL забезпечують структуру цитування, а субключове слово MEDLINE направляє до інтернетівського літературного джерела, забезпеченого резюме даної статті.

Ключове слово FEAUTURES вводить секцію зі своєю субструктурою. ЇЇ мета – детально описати властивості послідовності у таблиці властивостей. У таблиці також є зв’язки до інших баз даних нуклеїнових кислот і білків, таксономічних баз даних, наводяться координати 5-нетрансльованої області (1-97), кодуючої послідовності (98-1912), 3-нетрансльованої ділянки (1913-3387), ділянки поліаденілювання послідовності (3369-3374) тощо. Подаються також трансляція білка, локалізація сигнального та зрілого пептидів. Стаття також містить лінійку BASE COUNT, яка характеризує частоту зустрічання різних типів основ у послідовності (тут 1010 А, 712 С, 633G і 1032 Т). Лінійка ORIGIN подає, коли можливо, локалізацію першої основи послідовності у геномі. Далі слідує сама нуклеотидна послідовність і стаття закінчується термінатором „11”.

dbEST

Дані EST зберігаються у базах даних. Вона має свій власний формат і систему ідентифікаційних номерів. Дані сіквенсів разом з описом антацій dbEST також розповсюджуються як підсекції первинних баз даних ДНК. На травень 1998 р. dbEST містило понад 1,6

Сторінки: 1 2