є інформація більш точна від повних СDSs до геномних сіквенсів EST вносять фактор шуму. Позитивним же є те, що ESTs збагачують бази даних сіквенсів ДНК, додаючи часткові сіквенси, які представляють певні гени. Ці сіквенси можуть бути недоступні з інших джерел, бути кодуючими і шкодуючими.
Для аналізу EST доступні багато інструментів, частина з яких – на комерційній основі (наприклад Incyte Life Tools). Тут ми зупинимось тільки на інструментах з вільним доступом. Їх можна поділити на 3 категорії:
інструменти пошуку подібностей сіквенсів;
інструменти монтажу послідовностей;
інструменти кластеризації сіквенсів.
Теорія, на якій ґрунтується пошук подібностей сіквенсів буде проаналізована у наступному розділі. Тут ми зупинимось лишень на інструментах, пов’язаних з EST. Сучасні програми в цілому написані для роботи з EST як окремо, так і компонентом пошукових баз даних. Серія програм BLAST має варіанти, які транслюють бази даних ДНК (TBLASTN); транслюють сіквенси, що вводяться (BLASTX). (Це стосується програми BLAST). Програма FastA також забезпечує подібні можливості.
Коли пошук баз даних показав наявність кількох ESTs подібних до пробного сіквенсу, нормальні ESTs повинні бути вирівняні відносно інших з метою пошуку консенсусних сіквенсів. Зазвичай, подальший пошук з консенсусними послідовностями ідентифікує додаткові ESTs, які влаштовуються в порівняння. Цей тип інтерактивного вирівнювання сіквенсів отримав назву монтаж сіквенсів (sequence assembly). Існує кілька доступних інструментів для проведення для цього процесу. Це – Staden assembler, TIGR assembler, Prap тощо.
Для кластеризації сіквенсів існує багато програм. Взяти великий набір сіквенсів і на основі спільних послідовностей з мінімумом областей перекривання розділити їх на підгрупи або кластери. Надійний і ефективний механізм кластеризації ESTs зменшує кількість лишніх ESTs у базах даних, економить час пошуку баз даних і пошукові зусилля. Такі підходи особливо цінні, коли, наприклад, генерована велика кількість ESTs і нам необхідно встановити, скільки різних генів представлено у наборі. Принцип роботи систем кластеризації EST показаний на рис. 5.6. В одному з підходів до кластеризації використовуються відомі гени. ESTs шукаються проти широкого набору баз даних ДНК і білків, і відомі спроби сортуються в набори (їх часто називають букетоли – buckets), що представляють індивідуальні гени. Такий підхід в нормі дає групу ESTs, які не подібні до ніяких сіквенсів у базах даних. Типово, частина ESTs з даної бібліотеки, які залишаються не уподібненими після порівняння баз даних становить ~40%. Це значення буде знижуватись в міру збільшення інформації від геномних проектів.
Альтернативна стратегія кластеризації ESTs полягає у генерації консенсусних послідовностей, які представляють кожен кластер. Далі проводять пошук у базах даних, використовуючи лишень кластерні консенсусні сіквенси. Це – ідеальне рішення, оскільки воно значно знижує кількість подібних пошуків у базах даних. Проте, успіх цієї стратегії залежить від того, як надійно ESTs можуть бути кластеризовані, що, в свою чергу, залежить і від якості даних EST.
Подальші ускладнення виникають при бажанні дослідити кількість генів, представлених у бібліотеці ESTs, тому, що не всі неуподібнені ESTs можуть представляти різні гени. Треба мати на увазі дві речі. У першому випадку (рис. 5.7 (а), кластер С) може бути картований до неохарактеризованої частини гену. Охарактеризована частина якого вже порівняна з набором чи наборами ESTs (A, B). Так, 3-UTR часто неповні у статтях баз даних чи сіквенси генів можуть бути тільки частковим. У цьому випадку підрахунок невирівняних кластерів EST як представників окремого гену схилятиме підрахунок генів до більшого числа. У другому випадку (рис. 5.7 (б)) можливо, що два чи більше неуподібнені кластери можуть картуватися до різних областей того самого гену. Знову ж це може призводити до надто високого дослідженого представництва гену, якщо неуподібнені кластери враховуються незалежно.