ВНИМАНИЕ! Вы находитесь на устаревшей архивной версии сайта! Актуальная версия сайта доступна по адресу https://fsvps.gov.ru

Добро пожаловать на официальный сайт Россельхознадзора!
|
Информация в СМИ

Версия для печати | Источник

Контроль качества данных высокопроизводительного секвенирования для исследования бактериальных изолятов

12 декабря 2024 г.Сборник «Социально значимые инфекции сельскохозяйственных животных: меры профилактики и борьбы»

За последнее десятилетие область применения технологии высокопроизводительного секвенирования (next-generation sequencing, NGS) значительно расширилась, этому способствовало совершенствование и удешевление самой процедуры секвенирования, а также развитие вычислительных методов обработки данных. Сейчас NGS активно используется для диагностики и мониторинга различных заболеваний, судебной экспертизы, оценки качества и безопасности продуктов питания и др. [3, 4, 6]. Полногеномное секвенирование (whole genome sequencing, WGS) является одним из основных подходов при изучении отдельных штаммов микроорганизмов, оно значительно превосходит традиционные микробиологические методы по скорости, точности, а главное — по полноте. Среди его главных преимуществ — универсальность получаемых данных, как для проведения множественных тестов in 108 silico (типирование, поиск факторов вирулентности, островков патогенности, генов антибиотикорезистентности), так и для сравнения с ранее исследованными штаммами. Однако все это имеет смысл лишь в случае качественных исходных данных. Известно, что сам процесс секвенирования несовершенен [5], кроме того, возможны также ошибки на этапе выделения генетического материала или подготовки библиотеки, поэтому оценка качества первичных данных является ключевым и обязательным этапом любого NGS-эксперимента. В данной работе рассмотрим основные метрики для оценки качества, а также инструменты для процессинга данных секвенирования. Стандартом для хранения первичных данных секвенирования (прочтений) является текстовый формат FASTQ, содержащий также информацию о качестве идентификации того или иного нуклеотида по шкале Phred. Учитывая большой объем данных, наиболее удобным инструментом для оценки качества является программа FASTQC (в дополнение можно использовать программу MultiQC для анализа сразу всех образцов из запуска). Она генерирует отчет по ряду метрик (количество прочтений, длина прочтений, нуклеотидный состав, качество каждой позиции, % неидентифицированных нуклеотидов, % адаптеров и др.), ориентированных на выявления наиболее частых проблем. Анализировать метрики необходимо в совокупности, так как в зависимости от ситуации мы будем наблюдать более или менее выраженные нарушения (табл. 1). Также при интерпретации результатов необходимо учитывать особенности протокола пробоподготовки и самой технологии секвенирования. Так, например, для секвенаторов Illumina характерно снижение качества на длинных прочтениях (250–300 п.н.) или, в отличие от полногеном- 109 ного секвенирования, нуклеотидный состав вдоль прочтений при анализе ампликонов 16S рРНК не будет сохраняться.