Аналіз сіквенсів ДНК
1. Потреби в аналізі ДНК.
2. Структура генів і сіквенси ДНК.
3. Властивості аналізу сіквенсів ДНК.
4. Інтерпретація пошуків EST.
5. Два підходи до „полювання” на гени.
6. Бібліотеки кДНК і EST.
7. Підходи до аналізу EST.
8. Бази даних ДНК і їх аналіз.
9. Приклад аналізу EST.
В цій темі буде подано мотивацію аналізу сіквенсів ДНК в порівнянні з сіквенсом білків. Введеться у концепцію ієрархії геномної інформації і транскрибованого геному. В результаті прийдемо до дискусії про експресовані фрагменти сіквенсів (Expressed Sequence Tag – EST) як одиниці даних сіквенсу. Їх отримують швидко при сіквенуванні бібліотек кДНК. кДНК отримують з допомогою зворотної транскриптази, використовуючи у якості матриці іРНК. Тут немає інтронів, тому вся отримана ДНК містить інформацію про структуру білка. Тут також розглянемо відкриття генів у контексті пошуку мішеней для ліків; маніпуляцію інформацією про сіквенси, а також оцінимо бази даних, що містять EST.
1. Потреби в аналізі ДНК
Найбільш чутливим є порівняння сіквенсів білків. Визначення далеко зв’язаних сіквенсів легше при трансляції білка внаслідок вродженості генетичного коду – з 64 кодонів (табл. 6.1) отримуємо тільки 20 різних амінокислот. Проте, таке спрощення веде до втрати інформації, яка тісно пов’язана з еволюційним процесом. Це відбувається, тому що білки є функціональною абстракцією з інформації, закодованої в ДНК. Згадаємо лише про „німі” мутації (Silent) – тобто ті мутації, які не проявляються. Тобто це зміни в ДНК, які не ведуть до заміни амінокислот на рівні білка – внаслідок вродженості генетичного коду.
Починаючи з 1960-х років, первинну структуру білка довго визначали їх хімічним сіквенуваням. З 1980-х і особливо 1990-х років даний підхід був практично витіснений сіквенуванням ДНК. Ці методи значно швидші і дешевші. На основі сіквенсів ДНК прогнозують послідовність білка. Це дало поштовх для багатьох нових аспектів досліджень. Наприклад, визначення філогенетичних зв’язків, генетичну інженерію з використанням корт-місць рестрикції, визначення структури генів через передбачення інтронів і екзонів, вивід-кодуючих білків сіквенсів через аналіз відкритих рамок зчитування (Open reading frames – OFR).
2. Структура генів і сіквенси ДНК
Спочатку слід згадати про деякі ключові поняття структури генів, які необхідні для аналізу їх структури. Вони включають, зокрема, інтрони, екзони, кодуючі послідовності (coding sequences – CDS), нетрансльовані області. Нагадаємо також про те, що гени прокаріотів не містять інтронів, тому вони простіші для аналізу.
Бази даних сіквенсів ДНК містять дані сіквенсу геномів, які включають інформацію про нетрансльовані сіквенси, інтрони і екзони, іРНК, кДНК і трансляцію. Видно, що бази даних ДНК містять широкий набір інформації і з цим треба рятуватись і розуміти, що хочеш отримати. Наприклад, у базах даних кДНК немає інформації про інтрони і екзони тощо.
Нетрансльовані області (untranslated) є у ДНК і РНК. Це ділянки сіквенсів, межуючих з кодуючими (CDS), але які не транслюються у білок. Нетрансльовані послідовності, зокрема, на 3-кінці, високоспецифічні як для гену, так і організму, з якого їх отримали.
Екзони утворюють кодуючий сіквенс. У гені 5-UTR містить промотор (наприклад, ТАТА-бокс), а 3-UTR – стоп-кодон кДНК.
Маючи сіквенс ДНК і знаючи генетичний код, можливо транслювати нуклеотидну послідовність в білок. Цей процес отримав назву концептуальної трансляції (conceptual translation). Слід розрізняти сіквенси, для яких трансляція має певний біохімічний сенс і таку, що просто виведена теоретично чи з допомогою комп’ютера. Термін „концептуально” вказує на трансляцію, проведену теоретично, без експериметральної перевірки.
У видимому сіквенсі невідомо з якої саме основи починається CDS. Тому завжди необхідно проводити так звану мети–роликову трансляцію (six-frame translation). Існує три прямі рамки з яких може початись трансляція з першої, другої чи третьої основи. Це саме стосується і зворотнього напрямку. Тому для будь-якого сіквенсу ДНК існує можливість отримати шість білкових сіквенсів (рис. 5.1.).
3. Властивості аналізу сіквенсів ДНК
Виникає запитання – яка з рамок зчитування коректна? Як правило, це найдовша рамка, яка не розривається стоп-кодоном (TGA, TAA чи TAG). Таку рамку назвали відкрита рамка зчитування (BРЗ) – (open reading frame – OFR). Знайти кінець BРЗ легше, ніж початок. Зазвичай, першим виступає кодон метіоніну, хоча й в кодуючі ділянці він зустрічається часто. Тому для визначення 5-кінців сіквенсів використовують додаткові підходи.
Для визначення потенціально кодуючої ділянки ДНК використовують кілька властивостей. Перший – використання ВРЗ достатньої довжини. Довгі ВРЗ випадково виникають рідко. У РНК стартовий кодон може межувати з сіквенсом Козака (Kozak sequence – CCGCCAUGG). На додаток, набір використовуваних кодонів може відрізнятись у кодуючих і некодуючих ділянках. Зокрема, використання кодонів для певних амінокислот варіює в залежності від виду, а правила використання кодонів не дотримуються в нетрансляційних ділянках. Тому статистика використання кодонів може бути використана для виявлення 5- і 3-нетрансльованих областей. У табл. 5.2. наведена інформація щодо варіації у виборі кодонів для певної амінокислоти різними організмами. Видно, що між ними існує істотна різниця.
На додаток, характеристика використання кодонів полягає в тому, що багато організмів демонструє загальну преференцію G чи С над А чи Т у третій позиції (wobble) кодону.
І, на кінець, у області вище стартового кодону в генах прокаріотів може знаходитись центр зв’язування рибосом. Це є потужним індикатором ВРЗ. Але найнадійнішим способом ідентифікації гену є порівняння з сіквенсом гомологічного білка.
Навіть ідентифікація інтронів та екзонів у гені ще не гарантує передбачення коректного білка. А для потенціалу білкові продукти можуть мати різну довжину, бо не всі екзони можуть бути представлені у зрілій іРНК.