секвенирование генома для чего делают
Как секвенируют ДНК
Секвенирование ДНК в последние десятилетия превратилось из узкой области, которой занималось небольшое число ученых, в одну из самых стремительно развивающихся технологий. Рост производительности и падение стоимости даже опережают закон Мура, и, из-за большой конкуренции на рынке и огромного спроса, развитие и дальше будет идти высокими темпами. Кроме того, развитие секвенирования привело к такому же буму в биоинформатике и коренным образом изменило биологию, и, постепенно, также основательно меняет медицину.
По катом я подробнее рассказываю, как это делают.
Что такое ДНК
Для начала, чтобы понимать сам процесс, немного необходимой теории.
ДНК — это полимерная цепь, состоящая из мономеров четырех типов, называемых нуклеотидами, последовательность которых и кодирует информацию об организме. Иначе говоря, ДНК можно представить как текст, написанный четырехбуквенным алфавитом. ДНК — молекула, состоящая из двух цепочек, и, хотя, последовательность нуклеотидов у них разная, последовательность одной цепочки можно однозначно восстановить, если известна последовательность другой. Поэтому цепочки называют комплементарными. (англ. Complement – дополнение) Это свойство используется при копировании клетки, когда цепочки ДНК расплетаются, и, на каждой, как на матрице, синтезируется вторая, и каждая из двух дочерних клеток получает свою двуцепочечную ДНК. Вся последовательность ДНК организма называется геномом. Например, геном человека состоит из 46 хромосом.
Несмотря на большое количество разнообразных, как экспериментальных, так и устаревших методов, мейнстримовые коммерческие методы довольно похожи, и, чтобы не делать оговорки каждый раз, сразу скажу, что речь дальше будет идти именно об этих мейнстримовых методах.
Как это выглядит в общем
Перед описанием технологии секвенирования, для интуитивного понимания, проведу следующую аналогию: стопку одинаковых газет взрывают так, что они разлетаются на небольшие кусочки с отрывками текста, а, затем, каждый из этих кусочков читают и, из этих прочтений восстанавливают текст первоначальной газеты.
Чтобы секвенировать ДНК, сначала ее выделяют из исследуемого образца, затем режут на небольшие фрагменты случайным образом, фрагменты называются ридами. От каждого рида оставляют по одной цепочке, и на этой цепочке, как на матрице, синтезируют вторую, причем, тип каждого следующего присоединяющегося нуклеотида как-то детектируют. Таким образом, записывая последовательность присоединившихся нуклеотидов, восстанавливают их последовательность в каждом риде. Затем, из последовательностей ридов с помощью компьютерных программ реконструируют геном.
Важный момент. Суммарная длина ридов должна многократно превышать длину исследуемой ДНК. Делается это потому, что, когда ДНК выделяют из образца, и когда ее режут, часть ее теряется, так что никто не гарантирует, что каждый ее участок попадет хотя бы в один рид. Поэтому, чтобы каждый участок гарантированно был бы прочтен, ДНК берут с большим запасом. Кроме того, при секвенировании возможны ошибки, и, чтобы более надежно прочитать ДНК, каждый ее участок следует прочитать несколько раз.
ДНК разрезают на риды, которые читают, и из них восстанавливают первоначальную последовательность
Такая методика используется не от хорошей жизни. Она добавляет множество трудностей, и, если бы исследователи могли взять и прочитать за раз целую последовательность генома, то они были бы счастливы, однако, это на данный момент невозможно.
У этого есть 2 причины. Первая — это ошибки, происходящие при чтении каждого нуклеотида. Они постепенно накапливаются, и, каждый следующий нуклеотид читается хуже предыдущего, и, в какой-то момент качество чтения настолько снижается, что дальше продолжать процесс бессмысленно. У разных методов секвенирования длина рида, которы они могут хорошо прочитать, составляет порядка десятков или сотен нуклеотидов. Вторая заключается в том, что ДНК — это очень длинная молекула, и, при скрупулезном чтении каждой буквы друг за дружкой, секвенирование заняло бы неприлично много времени, а в данном случае этот процесс легко распараллеливается, и можно одновременно читать миллионы и миллиарды ридов.
Illumina
Такая схема в общих чертах описывает все популярные методики секвенирования. Различаются они лишь методами детекции присоединившихся нуклеотидов при синтезе, и методикой подготовки материала.
На сегодняшний день самым распространенным является метод, который используется в секвенаторах компании Illumina. В этом методе сначала множество различных ридов прикрепляется к стеклянной пластине. Затем, с каждого рида делают множество копий на поверхности пластины так, чтобы на каждом ее небольшом участке располагались лишь одинаковые копии. Это делается для того, чтобы при последующем секвенировании получать сигнал не от одиночной молекулы, а от группы одинаковых молекул, располагающихся рядом. Так и сигнал легче считывать, и надежность считывания увеличивается. Эти молекулы являются одноцепочечными ДНК, и на них в процессе секвенирования синтезируются комплементарные цепи. Реакцию синтеза проводят следующим образом: К началу каждой молекулы присоединяется по одному нуклеотиду. Этот нуклеотид химически блокирован так, что после его присоединения синтез дальше не идет. Кроме того, к нему присоединена метка, которая под действием лазера люминесцирует. Причем, для каждого типа нуклеотидов цвет люминесценции разный. После присоединения нуклеотида пластину освещают лазером и фотокамера фиксирует цвета, которыми люминесцирует пластина. После этого блокировку снимают, метку также снимают, и присоединяют таким же образом следующий нуклеотид. Последовательность световых сигналов на каждом участке пластины в компьютере переводится в последовательность нуклеотидов, и, на выходе получается файл, содержащий последовательности ридов.
Секвенирование по методу Illumina
1 — геномная ДНК 2 — разрезается на риды 3 — к ридам прикрепляются адаптеры, с помощью которых они приклеиваются на 4 — пластину 5 — размножение ридов на пластине 6 — засовывам в секвенатор и 7 — секвенируем
Сборка и аннотирование генома
Если геномы близких организмов раньше не секвенировались, то из ридов, затем, с помощью программ, пытаются собрать единую последовательность нуклеотидов. Риды частично перекрываются, и, с помощью этих перекрытий пытаются выстроить единую последовательность. Здесь есть множество моментов, которые существенно осложняют дело. Например, можно загрязнить образец, и программа будет пытаться выстроить одну последовательность из ДНК разных организмов. Секвенатор может ошибиться при чтении рида, или неверно связать два места в геноме, потому что они очень похожи. На самом деле, сложностей так много, что всех тут не перечислишь. И, некоторые из них настолько сложно поддаются устранению, что, даже геном человека, самый важный и широко исследуемый геном, все еще не секвенирован до конца.

риды и внизу последовательность генома, которая реконструирована на их основе
Когда последовательность генома собрана, то нужно понять, что она значит. На ней находят участки, которые похожи на гены. Делается это следующим образом: В начале и конце генов находятся определенные «метки» из нуклеотидов, и, если на ДНК находят такие последовательности на таком растоянии, что между ними может уместиться ген, то такое место заносится в список потенциальных генов. Затем, этого претендента сравнивают с базой данных уже известных генов других организмов, и, если в ней находят ген, достаточно сильно похожий на этот участок, то ему присваивают функцию этого гена.
Если геном другого организма этого вида уже секвенировался, то его используют, для сборки. Так как геномы разных организмов одного вида различаются лишь незначительно, то для каждого рида находят место на секвенированном геноме, к которому он ближе всего, и на основе этого генома собирают новый.
Секвенирование генома для чего делают
Часть 1. Коротко о секвенировании
Когда делают секвенирование?
Родители особых детей часто смотрят на секвенирование генома или экзома, как на шанс завершить «диагностическую Одиссею». Они надеются выяснить ключевую причину нарушений – от ДЦП, до аутизма. Даже генетический диагноз иногда дает шанс улучшить здоровье ребенка, позволяет скорректировать реабилитацию или планировать будущее семьи.
Секвенирование генома или экзома – это масштабное считывание генетического кода с целью обнаружения в нем мутаций (патогенных вариантов).
Если какие-то из множества найденных мутаций соответствуют клинической картине (видна связь генотип-фенотип), то лаборатория делает предположения о генетическом заболевании.
Конечно, наследственные заболевания диагностируют и без секвенирования – по анализам и по результатам обследования. Особенно, если нарушение хорошо описано. Обычно секвенирование экзома или генома проводят при подозрении на неустановленные генетические заболевания.
Дело в том, что многие внешне одинаковые нарушения могут быть следствием мутаций в десятках различных генов. Особенно при неврологических расстройствах, включая аутизм, эпилепсию, ДЦП, двигательные и сенсорные нарушения, миопатию, умственную отсталость и другие. Они часто становятся диагностической проблемой для врача-генетика.
И наоборот, часто мутации в одном и том же гене могут вызывать различные внешние проявления. Секвенирование может помочь поставить диагноз и в таких сложных случаях.
Секвенирование не позволяет обнаружить крупные изменения в геноме из-за высокой детализации метода. Это связано с самой технологией «нарезки» ДНК на небольшие участки.
Например, если подозреваются крупные хромосомные изменения, то определяют кариотип. Чтобы выявить мелкие хромосомные изменения проводят ХМА (хромосомный микроматричный анализ) или MLPA (Multiplex ligation-dependent probe amplification). Однако эти методы не выявят проблемы на уровне отдельных молекул ДНК.
О разнице хромосомных и моногенных наследственных болезней рассказывается в этом видео.
» >митохондриальные нарушения, которые обычно имеют специфические проявления.
У митохондрий есть собственная ДНК, в которой случаются поломки. Впрочем, митохондриальная дисфункция часто связана с мутациями в ядерной ДНК. Тогда она обнаруживается при секвенировании ДНК ядерных генов. Еще чаще дисфункция бывает вторичной, то есть напрямую не связанной с генетикой.
Побочные находки секвенирования – это распространенные генетические варианты, которые относят к предрасположенностям и факторам риска. Их обычно игнорируют в медицинских отчетах. Но они тоже снижают или изменяют функцию белка, потенциально могут повредить здоровью ребенка и стать причиной неврологических нарушений.
Триггерами таких болезней могут стать: воспаление, стресс, неправильное питание, низкая или чрезмерная физическая активность, токсичные продукты и пр. Особенно высоки риски во время беременности или в раннем возрасте. Регулирование работы генов изучает эпигенетика, которая сейчас быстро развивается.
Что ожидать от результатов?
Медики применяют высокопроизводительное секвенирование (next generation sequencing – NGS) уже более 10 лет. За это время успела накопиться статистика по эффективности метода. В зависимости от типа заболевания и правильного выбора пациента, секвенирование экзома или генома позволяет поставить диагноз редких заболеваний в 30-50% случаев.
Секвенирование все еще не метод первого выбора и не самый дешевый анализ. Тем не менее, секвенирование полнее любых генетических панелей. И секвенирование гораздо надежнее, чем его ближайшая альтернатива – применение микрочипов (CMA).
Объективные ограничения секвенирования в том, что новые гены уже известных заболеваний и многие мутации, вызывающие нарушения, только ожидают своего открытия. Генетические причины более 3000 менделевских наследственных заболеваний, остаются неизвестными. Хотя постепенно они проясняются.
Субъективно диагноз зависит от того, кто и что секвенирует.
Недавно были проанализированы результаты 37 генетических исследований, включающих 20 068 детей. Оказалось, что диагностическая полезность секвенирования генома (WGS) в среднем составляла 41%, а секвенирования экзома (WES) – 36%. В то же время для альтернативного анализа на микрочипах полезность составила лишь 10%.
Более высокая диагностическая ценность была при секвенировании трио (когда его делали сразу ребенок и двое родителей). Интересно, что 36% безрезультатных первоначальных случаев секвенирования экзома были успешно диагностированы при повторном анализе в виде трио.
Диагнозы чаще ставили тем, кто делал секвенирование и получал интерпретацию на базе клиники. В этом случае диагноз был поставлен в 42% случаев, в то время как у обратившихся в стороннюю лабораторию диагностическая ценность составила лишь 29%.
Вероятно, в наших реалиях ценность секвенирования будет у нижней границы диапазона, поскольку родители часто решают сделать анализ самостоятельно.
Как показывает практика, результаты секвенирования могут оставлять для родителей открытыми разные вопросы.
1. Половина работы.
Сейчас такие ситуации редкость, но раньше некоторые лаборатории предоставляли лишь сырые данные секвенирования, без какой-либо клинической интерпретации.
Сам процесс секвенирования (т.е. считывание и упорядочивание генетической информации) полностью автоматизируется.
Зато очень трудоемким считается следующий этап – классификация генетических вариантов с учетом проявлений болезни. Он требует привлечения генетиков или медицинских специалистов.
2. Обезличенность и автоматизация.
Допустим, вместо медицинской лаборатории вы сделали секвенирование экзома в организации, которая занимается «здоровьем, наследственностью, предрасположенностями и персонализированой медициной». Скорее всего вы получите многостраничный, автоматически созданный отчет. В нем вы найдете множество факторов риска, например, развития диабета 2-го типа, облысения, течения туберкулеза, онкозаболеваний… Вместо ключевой проблемы – предположения о моногенном редком заболевании.
Проблема автоматических отчетов – это игнорирование фенотипа (клинических проявлений болезни). Даже если будут использоваться клинические базы данных и будет обнаружен подозрительный редкий вараинт, он может быть выброшен из отчета. Например, алгоритмы могут пропустить малоизученные или “противоречивые” варианты, как недостоверные.
Другой вопрос, может ли предрасположенность быть причиной нарушения у особого ребенка?
Потенциально может. Например, неврологическое нарушение было вторичным и связано с генетически обусловленным риском течения беременности (так оказалось у нас). С генетикой могут быть связаны неврологические осложнения эндокринных, иммунных, инфекционных заболеваний и пр.
Конечно, риски беременности касаются родителей и, хотя они могут быть причиной неврологии ребенка, не обязательно унаследуются. То есть, эти риски могут быть не видны в результатах генетического теста ребенка.
3. Недостаточно данных для специалиста.
Другая проблема – автоматически созданный отчет иногда стараются сделать доступным для понимания широкой аудитории. Особенно при обработке данных на популярных веб-сервисах. Поэтому его упрощают.
Даже если в такой отчет попадет строчка о возможной причине нарушений у ребенка, описание варианта может не содержать важных данных. Это гетерозиготность, качество прочтения, частота аллеля, степень повреждения функции гена, консервативность участка и пр.
Специалисту-генетику, будет недостаточно такого отчета. Но захочет и сможет ли он искать дополнительную информацию в массивах необработанных данных?
4. Медицинский и не более.
Обратная ситуация. Допустим, клинический отчет готовится специалистом, который изучил медицинскую информации о вашем ребенке. Вот пример хорошего клинического отчета. Часто он состоит из заключения (подтверждающего первоначальный диагноз или нет), а также подробной информации для найденной мутации.
Но раз уж была прочитана ДНК многих генов, то кому-то хочется видеть и другую полезную информацию. Зная о предрасположенностях и факторах риска, можно скорректировать диету или выбор лекарств. Например, мы выяснили, почему наш ребенок плохо переносит продукты с высоким содержанием серы и витамина B6, который ему неоднократно пытались ввести. Конечно, данные о предрасположенностях вторичны по отношению к основному диагнозу, но все-таки…
5. Устаревший отчет.
6. Контроль.
Наконец, кто-то хочет самостоятельно разобрать результаты от начала до конца.
Что лучше экзом или геном?
ДНК кодирующих генов, по которым строятся белки, составляет лишь 1.5% генома. Причем она прерывается фрагментами, которые не несут полезной информации. В таком «пунктире» пустые участки называют интронами, а содержащие информацию о гене – экзонами.
Секвенирование экзома означает, что в геноме прочитаны экзоны известных кодирующих белок генов. Мутации в них обычно имеют более серьезные последствия, чем в оставшихся 98% генома. Например, около 85% всех известных генетических менделевских нарушений связаны с регионами ДНК, кодирующими белки.
Поскольку секвенирование экзома дешевле, чем секвенирование всего генома, можно в разы увеличить качество прочтений, без резкого роста затрат.
Тем не менее, услуга «секвенирование экзома» не означает, что действительно будет прочитан весь экзом. Сама технология обогащения ДНК с целью прочитать конкретные участки (гибридизация), приводят к неравномерному покрытию, создавая как «горячие точки» со слишком большим покрытием, так и регионы со слишком низким покрытием (приводя к пропущенным вариантам). Например, не будут секвенированы некоторые экзоны у самых кончиков хромосом.
Также при секвенировании экзома не будут обнаружены какие-то мутации, связанные со структурными изменениями и повторами, при которых сохраняется правильная последовательность ДНК. Например, секвенирование экзома не позволит обнаружить хорею Гентингтона или синдром хрупкой X-хромосомы.
Но из-за малой изученности, интерпретировать влияние вариантов в некодирующей области генома часто гораздо сложнее, чем в кодирующей области. Поэтому для медиков, которые хотят скорее поставить диагноз, решающую роль может играть более простой анализ данных для экзома. И наоборот, секвенирование генома чаще выбирают ученые и исследователи, у которых есть возможности для анализа больших объемов данных.
Как мы уже писали выше, в опубликованном метаобзоре диагностическая полезность секвенирования генома составляла 41%, а секвенирования экзома 36%. Эту разницу стоит учитывать при принятии решения, если нет ресурсных ограничений.
Пока что меньшая стоимость прочтения экзома определяет существенную разницу в цене, несмотря на то, что подготовка образца для экзома обходится дороже. Но стоимость прочтения ДНК с каждым годом становится все дешевле, поэтому когда-нибудь будут секвенировать только весь геном.
Тогда вопрос, «что лучше?» будет снят.
Содержание:
Часть 1. Коротко о секвенировании
1.1. Когда делают секвенирование?
1.2. Что ожидать от результатов?
1.3. Что лучше экзом или геном?
Секвенирование генома. С чего все начиналось?
Предпосылками для формирования генетики как самостоятельной научной области послужило открытие законов Менделя. В дальнейшем в XX веке было сделано четыре открытия, положивших начало развитию генетики [1]:
• установлены клеточные основы наследственности — хромосомы;
• определена молекулярная основа наследственности — двойная спираль ДНК;
• открыта информационная основа наследственности, а также биологический механизм, с помощью которого клетки считывают информацию, содержащуюся в генах;
• изобретены технологии клонирования и секвенирования рекомбинантных ДНК.
Последняя четверть прошлого века была отмечена неустанным стремлением расшифровать сначала гены, а затем и целые геномы [2].
Первая рабочая концепция секвенирования — метод Сэнгера, также известный как метод обрыва цепи, — была предложена в 1977 году. За это открытие Фредерик Сэнгер был удостоен Нобелевской премии по химии в 1980 году. Этот метод секвенирования применялся в течение 40 лет, а его усовершенствование и коммерциализация привели к широкому распространению секвенирования [2].
Описание метода Сэнгера
Секвенирование Сэнгера — метод, при котором используются олигонуклеотидные праймеры для поиска определенных областей ДНК. Этот процесс начинается с деспирализации двухцепочечной ДНК [5]. Одна цепочка ДНК является матрицей для синтеза комплементарной цепочки при помощи фермента ДНК-полимеразы. Реакцию с одной и той же цепочкой проводят в четырех разных пробирках, каждая из которых содержит [3]:
— праймер;
— четыре дезоксинуклеотида (дезоксиаденозинтрифосфат, дезоксигуанозинтрифосфат, дезоксицитидинтрифосфат и тимидинтрифосфат);
— небольшое количество (1 к 100) одного из радиоактивно меченных дезоксинуклеотидов (для визуализации продуктов реакции).
В каждой пробирке образуется набор фрагментов ДНК разной длины, заканчивающихся одним и тем же нуклеотидом. После завершения реакции содержимое пробирок разделяют электрофорезом в полиакриламидном геле в денатурирующих условиях и затем проводят авторадиографию гелей. Каждый дезоксинуклеотид отмечен флуоресцентным маркером: A — зеленый цвет, T — красный, G — черный и C — синий. Лазер в автомате, используемый для считывания последовательности, фиксирует интенсивность флуоресценции. Когда в последовательности встречается гетерозиготный вариант, локусы захватываются двумя флуоресцентными красителями одинаковой интенсивности. Если присутствует гомозиготный вариант, ожидаемый флуоресцентный цвет заменяется цветом комплементарного основания [5].
Продукты четырех реакций формируют «секвенирующую лестницу», которая позволяет «прочитать» нуклеотидную последовательность фрагмента ДНК. Метод Сэнгера позволяет также определять нуклеотидную последовательность РНК, но она предварительно должна быть «переписана» в формат ДНК с помощью обратной транскрипции [3].
Секвенирование Сэнгера — это надежный метод для определения генных мутаций, который широко использовался в течение нескольких десятилетий. Метод Сэнгера является геноспецифичным, и с его помощью анализируют небольшое подмножество генов. Секвенирование Сэнгера позволяет идентифицировать мозаичные мутации. Но метод секвенирования Сэнгера не позволяет проводить точную количественную оценку, то есть нельзя сделать вывод о том, в каком количестве клеток есть мутация [5].
Метод дробовика
Метод дробовика используется для секвенирования длинных участков ДНК. Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК данного организма, на основе которых восстанавливается исходная последовательность ДНК [6].
Первые методы секвенирования способны восстанавливать небольшие последовательности ДНК (порядка 1000 нуклеотидов), следовательно, для секвенирования более длинных последовательностей требовалось разработать новый подход. При секвенировании методом дробовика ДНК случайным образом фрагментируется на мелкие участки с помощью сайт-неспецифичных нуклеаз. Затем фрагменты секвенируют любым доступным методом, например, методом секвенирования по Сэнгеру. Полученные перекрывающиеся случайные фрагменты ДНК собирают с помощью специального программного обеспечения в одну целую последовательность. Данный метод оставался фундаментальным методом секвенирования генома в течение 20 лет [2]. В 1981 году метод применен на практике — полное секвенирование генома вируса мозаики цветной капусты [7].
На практике трудности возникают из-за повторяющихся последовательностей. Например, можно легко секвенировать типичные бактериальные геномы (около 1,5 % повторов) или эухроматическую часть генома мухи (около 3 % повторов). Человеческий геном содержит более чем 50 % повторяющихся последовательностей. Такие особенности усложняют сборку правильной и законченной последовательности генома [2].
В дальнейшем этот подход совершенствовался: были улучшены механизмы фрагментации и клонирования ДНК. В 1990 году был предложен метод секвенирования парных прочтений. Результаты первого применения метода секвенирования парных концов на практике были опубликованы в 1990 году в работе, посвященной секвенированию человеческого гена гипоксантин-гуанинфосфорибозилтрансферазы [4].
При секвенировании парных прочтений ДНК разрезается на случайные фрагменты, которые затем группируются по весу и клонируются в векторах. Клоны секвенируют с обоих концов с использованием метода обрыва цепи, в результате которого образуются две коротких последовательности [4].
Иерархическое секвенирование методом дробовика
Для секвенирования больших геномов, содержащих повторяющиеся последовательности, используется подход «иерархического секвенирования методом дробовика» [2].
Данный метод — технически более сложный из-за необходимости обработки больших объемов данных. Это служит причиной тому, что метод иерархического секвенирования имеет более высокую стоимость [2].
Переломной точкой развития методов секвенирования стало появление и широкое распространение технологий ПЦР, автоматизация этапов «чтения» ДНК, совершенствование программного обеспечения. Все это дало начало созданию методов секвенирования следующего поколения. Секвенаторы нового поколения значительно дешевле и гораздо эффективнее своих предшественников. На сегодняшний день производительность некоторых секвенаторов измеряется уже сотнями миллиардов пар оснований, что, например, позволяет подобным приборам сканировать индивидуальный геном человека всего за несколько дней.
Источники:




