– білкові молекули, сумарна взаємодія яких надає клітині її індивідуального характеру.
Це три основні рівні, але є інші, наприклад, метаболон. Кожен з них вимагає своїх підходів, інструментів і знань. Є два підходи у вивченні геному – визначати його повністю і сфокусуватись лишень на транскрибованій і відповідно трансльованій у білки частині. Перший підхід дає інформацію про повну послідовність нуклеотидів і не залежить від стадії розвитку чи типу клітин організму. Другий – навпаки – є тканинозалежним і може змінюватись у залежності від стадії розвитку клітини. Тобто, клітини експресують різні набори генів на різних стадіях розвитку і в різних режимах функціонування. Характеристичний набір експресованих генів отримав назву профілю експресії клітини. Встановивши профіль експресії можна побідувати картину рівнів експресії генів у нормальній і зміненій клітинах.
6. Бібліотеки кДНК і ESTs
Процедура оцінки профілю експресії досить пряма. Спочатку отримують пробу клітин. Зазвичай, це найбільш складний і тривалий крок, який залежить від джерела клітин. Далі екстрагується РНК і стабілізується з використанням зворотної транскриптази. В результаті на матриці РНК отримують кДНК. Ця кДНК трансформується в бібліотеку кДНК, яку використовують для швидкого сіквенування. Із приблизно 2 млн. клонів білки вибирають на випадковій основі біля 10000 клонів, що сіквенуються. Отримані дані завантажуються в комп’ютер для подальшого аналізу.
Ідеальним вважається результат з 10000 сіквенсів кожен з довжиною 200-400 основ, які представляють частину сіквенса кожного з 10000 клонів з багатьох причин. Не всі сіквенси вдалі. Вдалі сіквенси отримали назву ESTs. Кількість клонів у бібліотеці відображає ефективність екстракції і РНК з клітин. Добрі бібліотеки містять 1млн. клонів і більше. З деякими тканинами і типами клітин важко мати справу – нерідко – це найцікавіші. Тому отримувані білки можуть бути менш репрезентативними. Дійсна кількість різних експресованих генів у клітині може становити кілька тисяч. Їх кількість варіює в залежності від типу клітин: у людини найбільш складний профіль у мозку ~15000 генів, а найпростіший – у шлунку – ~2000 генів. Слід чітко розуміти, що ми вибираємо для сіквенування випадкові клітини і випадкові групи клонів. Тому необхідно чітко розуміти, з чим маємо справу – з невеликою вибіркою від загальної кількості генів.
7. Підходи до аналізу EST
Розроблені різні підходи до аналізу ESTs для академічних і комерційних потреб. Більшість інформації щодо EST зібрано в EMBL Data Library і Gen Bank (gbEST) Постачальники інформації про EST піддають дані детальному аналізу через відносно низьку якість сіквенсів EST. TIGR забезпечує детальну інформацію про протокол.
Merck/JMA GE
У 1994 р. Mercka Co заснувала проект на базі університету м. Вашингтон для сіквенування 300000 ESTs із багатьох нормалізованих бібліотек. Вибравши нормалізовані бібліотеки, кількісна інформація у джерелах тканин підбиралась таким чином, щоб збільшити відбір різних генів. Були вибрані бібліотеки з різних типів тканин, які складають інтерес для багатьох дослідників. Після ідентифікації ліцензовані клони використовуються як реагенти в подальших молекулярно-біологічних експериментах. В результаті Merck продукує індекс лікiв, а зараз і Merck Gene Index. На травень 1997 р. у проекті було депоновано 484421 ESTs.
Incyte
Incyte Pharmacenticals Inc. продукує базy даних life Seq., в якій міститься інформація по сіквенсах бібліотек кДНК. Мета проекту – забезпечити інформацію щодо відносної кількості копій транскрибованих генів у здоровому та хворому організмі для ідентифікації можливих терапевтичних мішеней. У квітні 1998 р. Hite Seq. мала 2,5 млн. ESTs, які представляли 80000-120000 різних генів. Продукти Incyte доступні на комерційній основі і нерідко ліцензуються великими організаціями. Тут видно підхід, коли геном на інформація є джерелом прибутків. TIGR – інститут досліджень геному (The Institute for Genomic Research – TIGR) є неприбутковою дослідницькою організацією з інтересами у структурному, функціональному і порівняльному аналізі геномів і продуктів генів. У сферу об’єктів входять віруси, еубактерії, патогенні бактерії, археї і еукаріоти (рослини і тварини).
Важливим аспектом роботи TIGR є індекс генів людини (Human Gene Index – HGI). Цей індекс інтегрує результати із дослідницьких проектів геному людини, включаючи дані з gbEST, GenBank. Метою проекту є створення загальної картини на гени людини, інформацію щодо їх експресії, функції і еволюційні взаємозв’язки. Дані HGІ вільнодоступні. Тут зібрана інформація з понад 100000 ESTs, 300 кДНК бібліотек, складені з gbEST, поєднані з інформацією про нелишні транскрипти людини (non-redundant Human transcript – HT). Із використанням техніки монтажу сіквенсів (sequence assembly) створено дослідні консенсусні сіквенси людини (Tentative Human Consensus (THC/sequences)).
При підготовці даних необхідно зменшити ризик отримання даних з об’єктів, інших від людини. Наприклад, для сіквенування використовуються вектори мікробного походження. Тому в ході сіквенуваня можливе отримання „брудних” результатів. Їх необхідно відфільтрувати. Разом з видаленням „векторного” забруднення, елімінуються полі-А, полі-Т і полі-СТ-послідовності. Домовились про мінімальну довжину – 100 пар основ з менш, ніж 3% N-основ неідентифікованих точно.
TІGR використали для збирання очищених ESTs і не лишніх HTs у так звані контінгс (coatings). TIGR визначає THCs як консенсусні сіквенси, базованих на двох чи більше ESTs (і, ймовірно, НТ), які перекриваються, щонайменше, на 40 основ і містять, щонайменше, ESTs з різних тканин (TIGR Expressed Gene Anatomy Database (EGAD) містить інформацію щодо тканевої належності ESTs).
Вебсайт TІGR також дає можливість для пошуку через індекс, властивостей і замовлення клону (через АТСС – American Type Culture Collection).
8. EST у базах даних ДНК і їх аналіз
EST за своєю природою неповні і до певного ступеня неточні. Тому в бази даних, де