Робота з mega-blast і fasta

Визначення транспортної РНК, яка брала участь у приєднанні четвертого амінокислотного залишку до зростання ланцюга білка AAT_ECOLI.

Четвертим залишком ланцюга аспартатамінотрансферази E.coli є аспарагін. що легко визначити, поглянувши на послідовність. Слід зауважити, що в нашому випадку можливі два варіанти вибору: ігнорувати перший метіонін, або звертати на нього увагу при рахунку (відомо, що старт-кодон AU (T) G # 150; одночасно кодон для метіоніну). Але так як ми не знаємо про функціональному навантаженні даного залишку (отщепляется він посттрансляційних, або необхідний для виконання будь-яких функцій), вирішено вважати, починаючи з нього. Крім того, всі проведені раніше дослідження враховували перший метіонін.

В одному з документів. містять інформацію про гені, що кодує AAT_ECOLI, знайшли відповідний кодон. Це кодон 5'-AAC -3 '(далі полярність ланцюгів при записі кодонів за замовчуванням від 5' до 3 'кінця). Скориставшись таблицею стандартного генетичного коду. дізналися, що аспарагін може кодуватися не тільки таким кодоном, але і кодонів AAU (T). Іншими словами, вироджених в даному випадку, як і в більшості інших, є третя позиція кодону.

Аналізуючи отримані відомості, можна сказати, що, по-перше, "ідеальний антикодон" тРНК, яка могла б брати участь в приєднанні аспарагина до ланцюга AAT_ECOLI при синтезі, # 150; GUU. Зрозуміло, що перша позиція виродилися. По-друге, гіпотетично для аспарагина у кишкової палички має бути дві ізоакцепторних т-РНК: дізнатися кодон AAC за допомогою антикодону GUU і дізнатися AAU за допомогою AUU. Однак відомо, що в клітці насправді типів тРНК не стільки, скільки можливих смислових кодонів, а менше. Щоб дізнатися, чи підтверджується це в нашому випадку, звернулися до EMBL.

За допомогою команди UNIX grep знайшли в документі EMBL, що містить інформацію про повну геномі E.coli. ті рядки, які включають назву аспарагина і відносяться до опису тРНК. Команда (разом з перенаправленням stdout на конвеєр) для поіка записів про аспарагінової т-РНК виглядає так:
grep codon. * asparagine ecoli.embl | more

В результаті знайшли чотири записи (див. Останній рядок таблиці 1). З знайденого підходять все 4 випадки. Антикодон підходить абсолютно (ідентичний "ідеального"), а ось кодон, впізнаваний даної т-РНК # 150; AAY # 150; "Включає в себе" два кодону: AAT і AAC (оскільки Y # 150; прийняте позначення пиримидинов, pYrimidines) .Тобто в нашому випадку така тРНК підходить, але і кодон AAT вона дізнається вірно. Таким чином, ми переконалися, що у кишкової палички аспарагінова т-РНК "одна на всі випадки життя", а не дві # 150; по одній на кожен можливий кодон, як можна було припускати.

Аспарагин-тРНК E.coli однотипна, але закодована вона в геномі чотири рази. Всі ці чотири гени ідентичні. що було встановлено за допомогою побудови множинного вирівнювання послідовностей, витягнутих командою seqret з повного генома. Тому для подальшого дослідження вибір здійснювався довільно.

Результати всіх проведених досліджень наведені в таблиці 1.

Таблиця 1. Результати визначення потрібної аспарагин-тРНК

Пошук аспарагин-т-РНК: теорія і практика

Амінокислотний залишок в 4-ій позиції білка AAT_ECOLI

* Прімечаніе1: може бути і рівним 12, стан справ від цього не змінюється (хоча б в нашому випадку).

** Примітка 2: Дано довжина і координати безпосередньо вирівнювання. як же знахідки наводиться довша послідовність (180 н.п. координати 11440-11620) з центральною ділянкою якої і проводиться вирівнювання последоваельності досліджуваної тРНК.

*** Прімечаніе3: Легко помітити, що сумарна довжина всіх невеликих ділянок вдалих вирівнювань більш ніж удвічі перевершує довжину послідовності аспарагин-тРНК! Це означає, що результати мають безладний характер. Крім того, даний факт відображає алгоритм роботи BLASTN. Зрозуміло, що при збігу якоря довжиною в 11 нуклеотидів (взятого з будь-якої ділянки послідовності нашої тРНК, так як індексний файл містить всілякі якоря довжини 11) з сегментом генома сінної палички вирівнювання тривало в обидві сторони, поки не обривалася, і такі уривчасті результати наводилися нам . Підтвердженням може служити довжина ділянок вирівнювань: немає жодного коротше 11 нуклеотидів. найменше # 150; 12: це може означати, що ті вирівнювання, де збігався тільки якір, а ні праворуч, ні ліворуч не було збігів, все ж не наведено. Це не залежить від e-value: при залученні параметра -e і завданні e-value рівним 50, отримали новий результат. де ділянок ще більше, але серед них як і раніше немає вирівнювання довжиною 11.

Команди UNIX, які використовувалися при пошуку:

За допомогою FASTA

Здалося зручнішим не вводити частину параметрів відразу, частину # 150; потім, а відповідати на питання програми про значення різних параметрів (довжини якоря, кількості демонстрованих результатів і вирівнювань і ін.). Ще тільки на стадії написання команд видно одна з відмінностей FASTA від описаних нижче BLASTN і MEGABLAST: для роботи останніх необхідний індексний файл, а FASTA обходиться без нього, вимагаючи в якості бази для пошуку безпосередньо fasta-файл з геномом.

За допомогою BLASTN

blastall -p blastn -d bs -i tRNA.fasta -o blastn.txt

Тут tRNA.fasta і blastn.txt # 150; імена файлу з шуканої послідовністю і файлу з результатами пошуку відповідно. а bs # 150; базове ім'я індексних файлів.

За допомогою MegaBLAST.

megablast -d bs -i tRNA.fasta -o megablast.txt -D 2

У порівнянні з командою для BLASTN-пошуку додався тільки параметр -D. При різних його значеннях (від 1-го до 4-х) змінюється назва файлу з результатами пошуку. Значення 2 було вибрано, тому що йому відповідає знайомий формат виведення (BLAST-формат). Насправді, при відсутності будь-яких результатів все одно, який формат вибирати. Однак були перепробувані всі варіанти значення -D і розглянуті відповідні формати. На жаль при даному пошуку нічого не було знайдено, і повноцінне порівняння форматів неможливо.

Крім того, було випробувано значення L параметра -F # 150; фільтрація областей низької складності (low complexity), знайома нам по роботі з BLASTP функція. Однак все з тієї ж причини (відсутність "хітів") ніяких відмінностей вловити можна.

C допомогою discontiguous MegaBlast

megablast -t 16 -W 11 -N 1 -i tRNA.fasta -o dis16_1.fasta -D 2

З порівняння команд, що запускають звичайну версію MegaBlast і discontiguous MegaBlast, видно, що вони відрізняються тільки параметрами, серед яких для другого є особливі (додаткові). Це -t і -N. Перший задає "discontiguous word template" # 150; довжину паттерна (точніше, один з трьох шаблонів паттерна різної довжини). Зрозуміло, що чим менше ця довжина, то чутливіші пошук. В якомусь іншому випадку це було б корисно, але ідеї discontiguous MegaBlast (і Mega_Blast взагалі) не відповідає. Для цих програм не важлива чутливість, важлива швидкість. І зменшення довжини паттерна може привести до зростання числа небажаних (незначущих) знахідок. Однак в нашому випадку, яку б з трьох можливих значень -t (16, 18, 21) не вибрали, результати залишаються однаково невтішними. Це, на жаль, заважає розглянути відмінності пошуку за різними паттернам на практиці.

Параметр -N задає тип паттерна (кодує, що не кодують, або обидва типи) Так як наша послідовність кодує не є, вибрали другий варіант (значення параметра 1). При використанні такого патерну MegaBlast шукає найчастіше за середнім положенням триплета, а не за першими двома, як у випадку кодує, що залишає без уваги вироджену третю позицію. Крім того, для роботи discontiguous версії MegaBlast необхідна певна довжина якоря # 150; 11 або 12 нуклеотидів (значення параметра -W). Ми вибрали перше значення, хоча і з другим результати не змінюються.

Обговорення. Порівняння ефективності різних програм пошуку нуклеотиднихпослідовностей.

Результати проведеного пошуку невтішні. Звичайно, перше, що можна запропонувати на роль гомолога для аспарагінової т-РНК одного організму # 150; аспарагиновую т-РНК іншого організму. Однак єдина значуща знахідка (яку нам забезпечила FASTA) # 150; це ізолейціновая тРНК. Інші програми або нічого не знайшли (варіанти MegaBlast), або знайшли абсолютно незначущі маленькі ділянки послідовностей, розкидані по всьому геному (BLASTN). Розглянемо кожну програму окремо, а потім порівняємо і виберемо найбільш ефективну для пошуку некодуючих гомологічних послідовностей.

Отже, FASTA. Ця програма виявилася найбільш чутливою з усіх. Тільки з її допомогою вдалося знайти конкретну значиму послідовність. Хоча тут є незрозумілий момент: замість того, щоб привести тільки вирівнювання або хоча б ген, всередині якого міститься знайдений ділянку, вона призводить ще й відрізки сусідніх послідовностей (як генів, так і взагалі неаннотірованних), збільшуючи розмір знахідки. Пояснення цьому феномену знайти важко, навіть представляючи механізм роботи FASTA. Тому далі будемо розглядати тільки послідовність гена, всередині якого лежить безпосередньо вирівнювання. На жаль, ця послідовність кодує ізолейціновую тРНК. Відразу виникає кілька питань: чи є знахідка гомологом, і чому не знайдені передбачувані гомологи # 150; аспарагин-тРНК сінної палички? На перше питання відповісти складно: ми ще не знаємо, як перевіряти гомологичность некодіруемих послідовностей, крім як по вирівнюванню.

Знайдемо за допомогою все тих же команд UNIX grep і seqret в документі з повним геномом B.subtilis гени, що кодують аспарагин-тРНК. Це чотири схожі послідовності. Зробимо вирівнювання з нашої тРНК (див тут). Послідовності досить близькі, чому ж їх не знайшла FASTA? Щоб переконатися в її здатності (або нездатності) їх знайти, виконаємо досвід: складемо "міні-базу пошуку" з усіх послідовностей для аспарагин-тРНК B.subtilis. гена изолейцин-тРНК і "довгої" (що включає ділянки сусідніх генів) знахідки FASTA. Пошукаємо нашу послідовність в ній. результати несподівані # 150; знайдені всі аспарагінової тРНК, і ізолейціновая теж! Значить, FASTA цілком здатна знаходити гомологи невеликих некодуючих послідовностей. але в маленьких базах даних (інших відмінностей, крім розміру між двома базами не було). Щоб перевірити зроблене припущення, пошукаємо в геномі B.subtilis послідовно аспарагин-тРНК, витягнуту з самого генома. Результат дуже цікавий: шукана послідовність не знайдено, хоча вона, безумовно, в геномі є. Краща знахідка # 150; знову ж таки, ізолейціновая тРНК (можливо, це дійсно гомолог аспарагінової-тРНК кишкової і сінної паличок). Єдине, що можна запропонувати для пояснення, знаючи механізм роботи FASTA # 150; це мале число "зачепилися якорів" на потрібній діагоналі, яка через це в розгляд не береться. Однак чому цих якорів може бути мало, не дуже зрозуміло.

BLASTN не впорався з завданням зовсім. Знайдено безліч коротеньких вирівнювань трохи довше якоря. Зрозуміло, що ніякої цінності такий результат не несе. BLASTN підходить для пошуку некодуючих послідовностей, але не гомологічних, а ідентичних (або майже ідентичних) шуканої. Таких для нашої аспарагин-тРНК в геномі B.subtilis немає. Щоб переконатися в тому, що BLAST в принципі не може знайти аспарагин-тРНК сінної палички, поглянемо на згадуване раніше вирівнювання. Серед співпадаючих областей немає жодної з довжиною, рівною або більшою 11. Зрозуміло, що якір довжиною 11 тут прикріпитися ніяк не може.

І вже тим більше якір MegaBlast. що складається з 28 нуклеотидів. Мабуть, в порівнюваних послідовності (тРНК і геномі) немає настільки протяжних співпадаючих ділянок. Тому MegaBlast нічого і не знайшов, та й сумнівно, що міг знайти. Адже в даній ситуації він підходить ще менше, ніж BLASTN, так як спочатку створювався для пошуку точних копій послідовностей і навіть самої примітивної матрицею замін не володіє.

У discontiguous версії MegaBlast такої матриці теж немає, але якір менше і механізм пошуку дещо відрізняється (задіюються патерни, що дозволяють не перевіряти кожен залишок на предмет схожості, що робить його більш швидким). З того, що і такий MegaBlast нічого не знайшов, робимо висновок про його невеликий придатності до пошуку гомологічних некодуючих послідовностей. А ось ідентичні або дуже схожі послідовності він знаходить # 150; був проведений пошук послідовності аспарагин-тРНК сінної палички в геномі останньої. "Знайшлися" всі чотири гена тРНК (e-value 3 * 10 # 150; 37), і, крім того, безліч дрібних незначущих співпадаючих ділянок. А якщо провести такий же пошук за допомогою "просто" MegaBlast, знайдуться чотири потрібних гена, і тільки вони. Таким чином, ця програма є менш чутливою, ніж discontiguous MegaBlast, однак результати пошуку за допомогою останнього містять деякий непотрібний при пошуку точних копій "шум".

На підставі результатів данно пошуку зробимо висновки про ефективність порівнюваних програм. Чим потрібно користуватися, якщо ми хочемо знайти гомолог некодирующей послідовності? Напевно, найбільше підходить FASTA, хоча і тут є проблема # 150; проблема "великих баз" (див. вище). BLASTN, MegaBlast і discontiguous MegaBlast не підходять. Тому що ні той, ні інший, ні третій не припускають пошуку гомологів будь-яких послідовностей. Низька чутливість, великі довжини якорів (особливо у MegaBlast), відсутність хороших (або взагалі будь-яких) матриць замін не дозволяють знаходити змінилися в результаті еволюційного процесу послідовності. FASTA має менший якір і дещо інший алгоритм, що, ймовірно, дає їй можливість знаходити більш далекі послідовності. MegaBlast і discontiguous MegaBlast і зовсім створені для пошуку ідентичних поседовательностей; деталі їх механізму спрощені (28 нуклеотидів якоря) або змінені ( "бінарні" патерни пошуку) спеціально для цього завдання. Виходить, що серед вивчених немає програми, ідеальної для пошуку гомологів некодуючих нуклеотиднихпослідовностей.