Логика случая

Страница: 1 ... 149150151152153154155156157158159 ... 370

Рис. 8–1. Содержание информации и сложность: а – одной последовательности; б – выравнивания гомологичных последовательностей; f обозначает частоты нуклеотидов в последовательности (а ) или столбце выравнивания (б ).

Здесь f i – частота символа i (i = A, T, G, C ); далее, основание логарифма m считается равным размеру алфавита (4 в случае нуклеотидных последовательностей и 20 для аминокислотных последовательностей)[71]. Определенная таким образом, информация (энтропия) говорит нам очень мало об осмысленном информационном содержании или сложности геномной последовательности. Высокая сложность (энтропия или информационное содержание), очевидно, вовсе не предполагает, что последовательность сложна в каком-либо биологическом значимом смысле. Совершенно случайная последовательность на самом деле, скорее всего, бессмысленна, в то время как гомополимерная последовательность будет иметь ограниченный биологический смысл. Тем не менее почти случайная высокоэнтропийная последовательность может быть столь же функциональной, как и низкоэнтропийная последовательность, – способа узнать это просто не существует. Требуется биологически содержательное определение сложности, и такая попытка была сделана Крисом Адами (Adami, 2002) и несколько по-другому проинтерпретирована автором этой книги (Koonin, 2004). В соответствии с этим новым определением, энтропия и сложность рассчитываются для выравнивания ортологичных последовательностей, а не одной последовательности:

Здесь H (L ) – полная энтропия выравнивания n последовательностей длины L, H i – энтропия для сайта, а F ij – частоты для нуклеотидов (j = A, T, G, C ) в сайте i [72]. Очевидно, для полностью консервативного сайта H (i ) = 0, в то время как для совершенно случайного сайта H (i ) = 1. Обратите внимание, что это определение энтропии полностью соответствует знаменитому статистическому определению Больцмана:

H = kln W

Здесь W — число микросостояний, соответствующих макросостоянию, для которого энтропия рассчитывается таким образом, что она равна нулю для полностью упорядоченного состояния и максимальна для полностью неупорядоченного состояния. Таким образом, определение эволюционной энтропии генома H(L), введенной предыдущей формулой, представляется физически корректным, следовательно, имеет смысл закрепить термин за обозначением этой величины. Эволюционная энтропия также имеет четкий биологический смысл: сайты с низкой энтропией сохраняются лучше и, как следствие, более важны функционально. Логично, что эти сайты несут больше информации о функционировании и эволюции рассматриваемых организмов – и о взаимодействиях между организмами и окружающей средой, что первоначально имел в виду Адами, – чем сайты с высокой энтропией (слабо сохраняемые, относительно неважные). Величина, которую можно определить как биологическую (эволюционную) сложность генома, определяется следующим образом:

— 154 —
Страница: 1 ... 149150151152153154155156157158159 ... 370