Генетичний код заснований на однозначним дотриманням кожного кодону (трійки нуклеотидів) певної амінокислоті. Це правило, яке здавалося непорушним, не виконується у інфузорії Euplotes, у якій в межах одного і того ж гена кодон UGA може кодувати дві різні амінокислоти - цистеїн або селеноцистеїн. Справжній сенс кожного конкретного кодону UGA визначається спеціальною регуляторної послідовністю нуклеотидів в кодує частини гена.
Стандартний генетичний код. Центральний коло відповідає першій букві кодону (триплетів нуклеотидів), середній - другий букві, зовнішній - третій. Зовні від кіл вказані 20 стандартних амінокислот, які кодуються відповідними триплету. Поруч з кодонами UGU і UGC, що кодують цистеїн (Cys), знаходяться три стоп-кодону, що кодують закінчення синтезу білка: UAA, UAG і UGA. Останній з цих стоп-кодонів «за сумісництвом» кодує селеноцистеїн, а у інфузорії Euplotes він не є стоп-кодоном і за замовчуванням кодує цистеїн
Селеноцистеїн (selenocysteine) - нестандартна «двадцять перший» амінокислота, що відрізняється від звичайного цистеїну тим, що замість атома сірки в її склад входить атом селену. Селеноцистеїн є обов'язковим компонентом декількох важливих ферментів в організмі тварин (включаючи людину), найпростіших, бактерій і архей. Білки, що містять селеноцистеїн, називають селенопротеіни (selenoproteins). У геномі людини міститься більше 20 генів селенопротеїни, тому селен є необхідним компонентом харчування, і його недолік в їжі призводить до різних захворювань.
Стандартний генетичний код, проте, передбачає можливість кодування тільки двадцяти «канонічних» амінокислот, і для того, щоб закодувати двадцять першого, еволюції довелося піти на хитрість. Для кодування селеноцистеїну використовується кодон UGA, який за замовчуванням є стоп-кодоном, тобто сигналізує про закінчення синтезу білкової молекули. Однак якщо за кодує ділянкою гена слід особлива послідовність нуклеотидів, яка називається SECIS (selenocysteine insertion sequence), апарат синтезу білка інтерпретує кодон UGA як кодує селеноцистеїн.
У організмів, в геномі яких є гени селенопротеїни, є спеціальна селенопротеіновая транспортна РНК, яка розпізнає кодон UGA за допомогою комплементарного йому антикодону UCA. Послідовність SECIS в ході транскрипції включається до складу матричної РНК, що синтезується на основі селенопротеінового гена. Опинившись в складі матричної РНК, SECIS згортається в особливу тривимірну структуру - «шпильку» з двома петельками (див. Малюнок), яка і служить сигналом, який змушує апарат синтезу білка приєднати до кодону UGA транспортну РНК, яка несе селеноцистеїн.
Антон Туранов і Вадим Гладишев з Університету штату Небраска (Лінкольн, США) і їх колеги з декількох американських наукових інститутів вивчили механізм кодування селеноцистеїну у інфузорії Euplotes. Ця інфузорія цікава тим, що у неї, на відміну від інших інфузорій і переважної більшості живих істот, кодон UGA не є стоп-кодоном і «за замовчуванням» кодує цистеїн. Дослідники подумали, що якщо у Euplotes є селенопротеіни, то ця інфузорія може виявитися єдиним організмом, у якого один і той же триплет нуклеотидів кодує, в залежності від контексту, дві різні амінокислоти.
У геномі інфузорії Euplotes виявлено вісім генів, що кодують селенопротеіни. У некодирующей частини кожного з них є регуляторна послідовність SECIS, яка «роз'яснює» клітці, які з кодонів UGA в даному гені кодують селеноцистеїн (інші кодони UGA за замовчуванням кодують цистеїн). На малюнку показана структура регуляторної послідовності SECIS для всіх восьми генів (вгорі - назви генів). Таку конфігурацію SECIS приймає після того, як сталася транскрипція, і SECIS увійшла до складу матричної РНК
Так і виявилося. Дослідники виявили в геномі Euplotes вісім генів селенопротеїни, в кожному з яких є послідовність SECIS і як мінімум один кодон UGA. У чотирьох з цих генів виявилося більше одного такого кодону. Як з'ясувалося, тільки один з UGA-кодонів в кожному гені кодує селеноцистеїн. Решта інтерпретуються кліткою як кодують цистеїн. Таким чином, кодон UGA у Euplotes може кодувати дві різні амінокислоти навіть в межах одного і того ж гена.
Структура гена eTR1, що кодує фермент тіоредоксін-редуктазу. Кольоровими вертикальними смужками показано розташування кодонів, що кодують цистеїн (UGU - блакитні смужки, UGC - зелені, UGA - червоні). Різнобарвні літери С над кодонами позначають, що даний кодон кодує цистеїн. Самий правий, найближчий до SECIS кодон UGA кодує селеноцистеїн (U). Мал. з додаткових матеріалів до обговорюваної статті в Science
У ядерному геномі Euplotes знайдено цілих три гена транспортних РНК, які розпізнають кодон UGA: селеноцістеіновая тРНК і два варіанти цістеінового тРНК. У мітохондріальному геномі Euplotes кодон UGA кодує триптофан, і відповідно до цього є ще четверта, мітохондріальна триптофанового тРНК, розпізнає цей кодон.
Щоб перевірити, наскільки універсальним є механізм кодування селеноцистеїну у різних організмів, дослідники пересадили селенопротеіновие гени інфузорії (разом з послідовностями SECIS) в людські ембріональні клітини. Виявилося, що людський апарат синтезу білка правильно розуміє сенс тих кодонів UGA в генах інфузорії, які кодують селеноцистеїн. Людські клітини успішно синтезували селенопротеіни на основі генів інфузорії, використовуючи при цьому людську селеноцістеіновую тРНК. Однак це сталося тільки з тими селенопротеіновимі генами інфузорії, в яких кодон UGA один, і він кодує селеноцистеїн. Натрапивши на кодон UGA, що кодує у інфузорії цистеїн, людські клітини інтерпретували його як стоп-кодон і припиняли синтез білкової молекули. Що й зрозуміло, адже у людини немає цістеінових тРНК, які розпізнають кодон UGA.
Дослідники також спробували з'ясувати, яким чином клітина розуміє, які з кодонів UGA в межах даного гена слід інтерпретувати як цистеїнові, а які - як селеноцістеіновие. Як з'ясувалося, це залежить від структури SECIS. Кожен варіант послідовності SECIS вказує клітці на строго певну ділянку гена довжиною в кілька десятків нуклеотидів, в межах якого всі кодони UGA інтерпретуються як селеноцістеіновие. За межами цієї ділянки кодони UGA трактуються відповідно до їх значенням «за замовчуванням»: у інфузорій - як цистеїнові, у людини - як стоп-кодони.
Від структури послідовності SECIS залежить, на якій відстані від кінця гена буде розташовуватися ділянку, в межах якого всі UGA транслюватимуться в селеноцистеїн. Значення тонких відмінностей в структурі SECIS розуміється однаково інфузорії і людськими клітинами. Щоб з'ясувати все це, дослідники моделювали і вставляли в людські клітини різні модифіковані варіанти селенопротеінових генів (пересували з місця на місце кодони UGA, замінювали один варіант SECIS на інший і т. Д.).
Таким чином, генетичний код, «в нормі» використовується для кодування 20 амінокислот, при необхідності може бути розширений. Крім селеноцистеїну, який вважають 21-й амінокислотою, існує і 22-я - піролізин (pyrrolysine). Він входить до складу деяких важливих ферментів у організмів, які вважаються одними з найдавніших на планеті, - архей-метаногенів (див. Метаногенеза). Піролізин, як і селеноцистеїн, кодується канонічним стоп-кодоном, але іншим (UAG), і теж в поєднанні зі спеціальною регуляторної «шпилькою» в некодирующей області гена.
Може бути, ці дивні неканонічні способи кодування амінокислот допоможуть пролити світло на таємницю походження генетичного коду. У статті про це не говориться, але ж можна припустити, що в ході еволюції механізмів специфічного синтезу поліпептидів в РНК-світі суворе і однозначне відповідність між кодонами і амінокислотами сформувалося не відразу, і спочатку весь генетичний код тримався «на шпильках».