У нас: 141825 рефератів
Щойно додані Реферати Тор 100
Скористайтеся пошуком, наприклад Реферат        Грубий пошук Точний пошук
Вхід в абонемент


на статті SWISS-PROT.

Структура статей SWISS-PROT

Структура баз даних, якість її анотацій роблять SWISS-PROT кращою від інших білкових баз даних і тому саме її вибирають для дослідницьких цілей. На середину 1998р. база даних SW-PR містила ~70000 статей із понад 5000 різних видів. Проте основна маса даних отримана на невеликій кількості модельних організмів – Homo sapiens, Escherichia coli, Sacchаromyces cerevisiae, Muss mycelius, Ratus nirvregсus.

На рис. 4.2 показаний приклад статті із бази даних SW-PR. Кожна лінійка позначена двобуквеним кодом, який допомагає подавати інформацію у структурованому вигляді. Перша лінійка – ідентифікаційна (ІD) і закінчується знаком-термінатором „11”. У лінійці ІD подано інформацію про назву статті. ОPSD-SHEEP, білок, який складається з 348 амінокислотних залишків. Коди ІD у SW-PR створені так, щоб вони були інформативними і орієнтованими на людину-користувача. Вони побудовані за принципом PROTEIN-SOURSE (білок – джерело). Частина коду PROTEIN є акронімом, який позначає тип білка, а частина SOURCE вказує на назву виду організму. У наведеному прикладі ORSD означає, що це білок з ока і можна дедукувати, що це родопсин, а SHEEP – що він з вівці. З певних причин коди ІD інколи змінюються. Тому в базах SW-PR існує додатковий рядок АС – accession number – номер надходження. Він залишається незмінним у всіх версіях баз даних. У даному прикладі АС є PO 2700, що відносно неінформативно для людини, але зрозуміло для комп’ютера. Якщо у лінійці АС приведено кілька номерів, то перший, або первинний номер надходження найбільш загальноприйнятий.

У Лінійці DТ приведена інформація про дату формування статті сіквенсу у базі даних і деталі, коли вона була модифікована останній раз. Лінійка DE (або лінійки) інформують про назву чи назви, під якою (якими) відомий білок. У наведеному прикладі – родопсин. Наступна лінійка GN (gene) подає інформацію про назву відповідного гену, OS – (organism species) – характеризує вид організму і OC (organism classification) – класифікацію організму у біологічному царстві.

Наступна секція баз даних подає перелік посилань на джерело інформації для даної статті. Це може бути неопублікована інформація з наукової літератури, подана безпосередньо з проектів сіквенування, дані структурних чи мутагенних досліджень тощо. Саме SW-FD є важливим сховищем інформації, яку важко, якщо й можливо, знайти будь де інше.

Наступні лінійки – СС містять коментарі. Вони розділені за темами, як то функція (FUNCTION) білка, посттрансляційна модифікація (PTM – post-tranlationce modification).

Тканинна специфічність (TISSUE SPECIFICITY), субклітинна локалізація (SUBCELLULAR LOCATION) тощо. За наявності доступної інформації лінійки СС можуть також відображати відому подібність (SIMILARITY) чи належність до певної родини білків. У даному прикладі видно, що родопсин є інтегральним „зоровим” білком, знайденим у клітинах сітківки ока. Він належить до родини посинів і надродини типу 1 пов’язаних з G-білками рецепторів.

Поле DR (database cross-reference) забезпечує зв’язки з іншими базами даних по біомолекулах, включаючи первинні джерела, вторинні спеціалізовані бази даних тощо. Для родопсину з бика знаходимо зв’язок із первинним джерелом PІR до GPCR спеціалізованої бази даних до вторинної бази даних PROSITE, а також до бази даних доменів ProDom.

Лінійки KW (keywords) заповнені так званими ключовими словами. Лінійки LT (Lecture Table) – таблиця властивостей. В ній подана інформація по сіквенсу, наприклад, включаючи локальну вторинну структуру (таку як трансмембранні домени) – ділянку зв’язування лігандів – пострансляційні модифікації тощо. Тут кожна лінійка включає ключ (такий як TRONSMEM), локалізацію, властивості у послідовності (тут 37-61), коментар, який у наведеному прикладі показує рівень надійності даної анотації (наприклад, POTENTIAL). У прикладі з родопсином наявність трансмембранного домена виведена як результат використання програми передбачення, тому за відсутності 3D експериментальних даних може бути прийнятий лишень як потенційний.

Остання секція (SQ – sequence) присвячена власне послідовності. Для ефективності зберігання використовується однобуквений код (табл. 4.2). Кожна лінійка містить інформацію про 60 амінокислотних залишків. Дані сіквенсів у SWISS-PROT містять інформацію про вихідну форма білка, перед посттрансляційною модифікацією. Тому інформація щодо розмірів чи молекулярної маси не обов’язково відповідає характеристикою зрілого білка. Характеристики зрілих білків чи пептидів можуть бути редуковані зверненням до таблиць властивостей (FT). Саме вони показують ділянки послідовностей, які відповідають сигнальним (SIGNAL), транзитним (TRANSIT) чи пропептидним (PROPEP) ділянкам. Ключі CHAIN (ланцюг) чи PEPTIDE (пептид) використовуються для позначення локалізації зрілої форми.

Структура SW-PR дозволяє безпосереднє комп’ютерне звернення до різних полів інформації. Наприклад, комп’ютерна програма не потребує пошуку по всій статті. Вона безпосередньо направляється до лінійок з відповідною інформацією. Тому і також через високу якість біологічних анотацій, SWISS-PROT стала, ймовірно, найширше використовуваною базою даних білкових сіквенсів.

Tr EMBL – Translated EMBL

Ця база даних була створена в 1996 р. як анотований комп’ютерний додаток до SWISS-PROT. Tr EMBL використовує формат SWISS-PROT і містить трансляцію всіх кодуючих сіквенсів (CDS – coding sequences) у EMBL. Вона складається з двох головних секцій, позначених як SP-Tr EMBL, REM-Tr EMBL. Перша містить статті, які в кінці-кінців будуть включені у SWISS-PROT, але ще не були вручну анотовані. У другій подані сіквенси, які не призначені для включення у SWISS-PROT –імуноглобуліни і рецептори Е-клітин, фрагменти з менш ніж 8 амінокислотних залишків, патентовані сіквенси і трансляції кодонів, які не кодують реальні білки. Tr EMBL створена для задоволення потреб у добре структурованому джерелі, поділеному до SWISS-PROT. Проте, воно повинно дозволяти дуже швидкий доступ до деяких сіквенсів з геномних проектів без роботи з високоякісною SWISS-PROT. Це істотно збільшує


Сторінки: 1 2 3 4 5 6 7 8