Поддержать программу
ПостНаука на Дожде
12:39
9 октября
Наука

Что мешает развитию молекулярной биологии, и почему всех биоинформатиков нужно «запереть на острове»

Биолог Михаил Гельфанд о том, как работает биоинформатика
3 095
0
Расписание
Следующий выпуск
10 декабря 16:00
четверг: 05:00, 16:20
суббота: 16:00
воскресенье: 02:00, 10:00, 16:00
понедельник: 02:00, 06:00

Какие направления работы выделяют в биоинформатике, как с помощью биоинформатики исследуются эволюционные процессы, и почему большой объем данных препятствует развитию молекулярной биологии? Об этом рассказывает доктор биологических наук Михаил Гельфанд.

Больше лекций и видеороликов смотрите на сайте проекта «ПостНаука» 

Биоинформатика как дисциплина — вещь не очень хорошо определенная, потому что это не наука в обычном понимании, как молекулярная биология, а это скорее набор приемов, набор способов работать с биологическими данными. В том же смысле, в котором генная инженерия не является наукой, а является набором экспериментальных техник. С другой стороны, этот набор приемов, этот способ думать про биологию стал очень важным последние 10–15 лет, и в общем современная биология, по-видимому, без этого особенно существовать не может. В каждой лаборатории должен быть человек, который владеет хотя бы основными приемами, иначе лаборатория оказывается очень сильно ослаблена интеллектуально.

Если смотреть, как-то пытаться эти приемы классифицировать, если классифицировать то, чем занимаются биоинформатики, то это, во-первых, алгоритмическая биоинформатика, то есть развитие новых методов. Появляются новые типы данных, соответственно, надо учиться с ними работать; улучшаются вычислительные мощности — значит, можно ставить какие-то задачи, которые раньше ставить было невозможно.

Перед этим идет техническая часть биоинформатики. Наборы данных, которые приходят, настолько колоссальные, что появляются технические вещи: как их передавать, как их хранить. Один запуск современного прибора — это десятки гигабайт просто данных. Их надо перекачать, их надо сохранить, надо обеспечить, чтобы ими было удобно пользоваться, — это довольно большая индустрия.

Если теперь двигаться в сторону от технической к биологической, то оказывается, что есть очень много содержательных биологических задач, которые можно делать, анализируя данные, — делать на компьютере, а не ставя непосредственно эксперимент. Тут есть два полюса. Есть то, что называется системная биология — это как раз работа с большими объемами данных и попытка что-то сказать про жизнь клетки, не работая на уровне одного гена или одного белка, а работая на уровне клетки в целом, всех белков или всех генов. Тут появляются довольно забавные ситуации, которые традиционным биологам очень непривычны и неуютны. Мне тоже, как биоинформатику, не очень уютно, что каждый отдельный маленький фактик вполне может оказаться неверным. Мы имеем дело с ситуацией, типичной в других областях, в предсказательских задачах, когда конкретные сведения могут быть неправильные, но в совокупности тем не менее большинство из них верны, и надо учиться делать какие-то разумные и интересные выводы в такой ситуации.

Эта вещь не очень хорошо осознается. Люди, которые этим занимаются, понимают, что они немного привирают в каждом месте и очень много всего заметается под ковер. А с другой стороны, удивительным образом оказывается, что общие выводы, которые делаются на разных наборах данных про одно и то же, оказываются довольно близкими. По-видимому, какая-то правда за этим стоит.

Мой личный опыт состоит в том, что, когда я был соавтором в первой такой большой статье по системной биологии про анализ транскриптома мозга с Филиппом Хайтовичем, я после этого другие статьи, статьи других групп в этой же области стал читать совершенно другими глазами. Уже как-то на автомате видишь, что вот здесь произвольный порог, можно было по-другому, проверили на устойчивость, не проверили — такого сорта вещи. Это то, чему я стараюсь учить своих студентов.

Это один полюс — анализ больших объемов. К этому же примыкают попытки моделирования. Если мы думаем про клетку в целом, то есть у нас, с одной стороны, экспериментальные данные про то, как белки взаимодействуют, или про то, как гены регулируют работу друг друга.

С другой стороны, мы можем это описать в терминах вычислительной модели, сделать конкретные предсказания и проверить, хороши они или нет.

И оказывается, что в таких лучше изученных областях, как анализ метаболизма, люди делают практические, полезные вещи, улучшают работу биотехнологических штаммов. Задачи эмбриогенеза, где интересно взаимодействие генов или как гены регулируют друг друга, как клетка знает, в каком месте эмбриона она находится, как ей дальше развиваться, — там хороших моделей меньше, но они тоже начинают появляться.

Постепенно мы учимся двигать в этом направлении, это полезно по двум причинам. Во-первых, реально хорошая модель — это то, до чего должно дойти наше понимание. Если мы можем что-то хорошо описать, значит, мы умеем это описать численно. С другой стороны, это способ проверки того, насколько хорошо мы понимаем, что мы делаем. Если мы в состоянии построить модель, которая дает разумные предсказания, потом эти предсказания проверить и убедиться, что они правильные, то, значит, мы хорошо понимаем, с чем мы имеем дело. Вся эта деятельность находится в зачаточном состоянии, но в общем люди все больше и больше об этом думают.

Второй полюс — когда мы от больших данных, целых геномов, — причем не одного целого генома, а сразу сотен целых геномов, — возвращаемся к индивидуальным генам, к отдельным частям клетки в классической эволюционистской парадигме. Там оказывается, что мы умеем делать вещи довольно красивые, потому что умеем предсказывать функции генов, функции белков — точнее, мы умеем предсказывать, как гены регулируются в ответ на какие воздействия, мы умеем находить какие-то новые функции, о которых раньше ничего не было известно.

В общем, все это делается просто глядением на буквы, глядением в экран компьютера. Это то, чем, в частности, я довольно много занимаюсь, и теперь уже занимаются мои ученики. И это, в отличие от моделирования и системной биологии, где пока что все на уровне трепа, вещь абсолютно проверяемая и в каком-то смысле очень рискованная. Мы делаем совершенно конкретные предсказания: этот белок делает вот это. После этого приходит экспериментатор, берет и проверяет. Дальше — мы или правы, или неправы. А поскольку мы такие предсказания продуцируем в довольно большом количестве, то это получается все время игра на повышение.

Тут мы возвращаемся к такой классической молекулярной биологии, которая существует уже десятки лет, как проверка функций белков, проверка регуляторных взаимодействий. Мы это делаем более эффективно. Если у вас есть белок, который делает неизвестно что, то довольно трудно угадать, какой опыт надо поставить, чтобы понять, что он делает. Если есть конкретное предсказание, то вы делаете конкретный опыт, проверяете это конкретное предсказание. И удивительным образом оказывается (это не было очевидно, когда эта наука начиналась), что можно делать нетривиальные предсказания: не просто белок делает то, что другой, потому что он на него похож, а найти класс белков с совершенно другой функцией, с совершенно другими механизмами действий — все это можно вынуть из буквочек. Это довольно забавное упражнение.

Если вернуться к тому, с чего я начал, к биоинформатике как к науке — здесь я специально сказал сначала неправильное утверждение, а правильное утверждение — это то, что биоинформатика как наука, конечно, существует, причем существует довольно давно, только под другим названием — это эволюционная молекулярная биология. Биоинформатики, когда им не надо отчитываться перед биологами и не надо зарабатывать гранты, думают про эволюцию, про то, как на самом деле это происходило. И методы, и подходы, которыми мы пользуемся, в основе своей эволюционные, они опираются на более-менее традиционные или новые эволюционные соображения. И это самое интересное — понять не просто, как оно устроено.

В конце концов, если построить много экспериментальных заводиков, то это и без биоинформатики будет ясно.

А вот попытаться придумать, как оно так получилось, — это действительно упражнение довольно забавное и интересное. Там с проверяемостью труднее, потому что мы не знаем, как было миллиард лет назад, какие зверюшки жили. Но там есть какие-то правила гигиены: вы, как в любой науке, один и тот же вопрос задаете разными способами и смотрите, насколько согласованы ответы. Если вы одно и то же смотрите с совершенно разных сторон и иногда получается это проверить внешними соображениями, тогда это получается совсем красиво. Есть люди, которые занимаются ранними этапами происхождения жизни, анализируя современные геномы, и у них такая проверка на содержательность состоит в том, что они это сопоставляют с геохимическими данными.

Есть совершенно замечательный человек — Армен Мулкиджанян, который с коллегами делает следующее: они смотрят распределение в современных геномах белков, которые нуждаются в металлах, чтобы как-то функционировать, и по последовательности во многих случаях можно примерно понять, какой это металл. Дальше они смотрят, когда эти семейства белков возникли в эволюции, глядя на современный геном, на каких внутренних узлах эволюционного дерева. И дальше они смотрят, какое было состояние океана или земли в это время, какие металлы были доступны, какие нет — а это понятно из геохимии. Получается довольно красивая наука такого сорта.

Такого сорта эксперименты делали люди в Штатах, в Астробиологическом институте NASA. Они реконструируют древние белки: глядят на последовательности современных белков и, глядя на них, реконструируют последовательности древних белков, потом смотрят, при какой температуре эти белки оптимальным образом функционировали. И дальше оказывается, что, действительно, совпадают с температурой Мирового океана оцененные совершенно другими способами с классическими геологическими. Это довольно красивая область деятельности, и этого будет все больше и больше.

Перспективы, с одной стороны, очень радужные, потому что биоинформатика востребована, биологии без информатики не бывает, там данные прибывают и прибывают. А с новыми данными можно ставить новые задачи, то, о чем я говорил, — предсказание функций белков. Мы начинали, когда реальных геномов было два, три, пять, и делали очень грубые вещи. А сейчас можно делать очень тонкие вещи: можно изучать эволюцию регуляторных систем, можно предсказывать функции с гораздо большим разрешением.

С другой стороны, наши возможности по осмыслению этого довольно сильно отстают. Идеальный вариант, если бы всех биоинформатиков заперли на три года где-нибудь на острове в тропиках, просто дали им возможность спокойно потрепаться и подумать и никаких новых данных им в это время не давали. Это был бы очень разумный проект, если найдется правильный спонсор, я всячески призываю это делать. Потому что реально в этих крысиных бегах, когда данные все время катятся, все время какое-то ощущение, что бежишь впереди паровоза. А поскольку конкуренция очень сильная, сильных групп много, то нет времени подумать, потому что надо очень быстро обработать новые красивые данные, опубликовать, а дальше уже бежать за следующими. Так что с социальной точки зрения ситуация очень забавная, я не знаю, с чем это сравнить.

Фото: depositphotos