среда, 29 июня 2016 г.

Парадигма картирования seed-and-vote: итоговые файлы в формате VCF.

Последним, четвертым типом итоговых файлов, генерируемых элайнером Subjunc, являются файлы с расширением indel, содержащие информацию об инсерциях и/или делециях. Формально к таким структурным перестройкам, называемым еще инделами (indels), относятся небольшие по протяженности инсерции (вставки) или делеции (выпадения) в геноме. Конечно, правильнее инделы детектировать не по ридам RNA-Seq, а по DNA-Seq, но элайнер Subjunc создает файлы с расширением indel автоматически, без возможности контроля со стороны пользователя.
По своей структуре файлы с расширением indel идентичны файлам 4-й версии формата VCF. Формат VCF (акроним от англ. Variant Call Format) был разработан сотрудниками международного консорциума 1000 Genomes Project для хранения больших массивов данных по структурным вариациям в геноме человека. Файлы в таком формате являются текстовыми файлами, содержащими строки с мета-информацией, заголовок и множество строк с данными (по одной на одну геномную позицию).

Мета-информация.
Строки с мета-информацией начинаются символом ## и записываются в формате ключ = значение.
##fileformat
Версия формата VCF. Эта строка является обязательной и всегда располагается первой. Элайнер Subjunc использует формат v.4.0.
##fileformat=VCFv4.0
##INFO
Множество строк, описывающих атрибуты поля INFO (см. ниже). Количество таких строк равно количеству атрибутов. Каждая строка записывается в нижеприведенном формате:
##INFO=<ID=идентификатор,Number=номер,Type=тип,Description=”описание”>
Запись реальных строк показана ниже:
##INFO=<ID=INDEL,Number=0,Type=Flag,Description="Indicates that the variant is an INDEL.">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Raw read depth">
##INFO=<ID=SR,Number=1,Type=String,Description="Number of supporting reads for variants">
Как видно, элайнер Subjunc генерирует VCF файлы, у которых поле INFO содержит только три атрибута: INDEL (указание на то, что вариация в последовательности генома является инделом), DP (глубина прочтения участка генома, где обнаружена вариация нуклеотидной последовательности) и SR (количество ридов, подтверждающих вариацию нуклеотидной последовательности).
Кроме поля INFO строки с мета-информацией могут содержать описание других полей, например, поля FILTER, но поскольку элайнер Subjunc не вставляет такие строки в VCF файл, то мы опустим их описание. Тем не менее, желающие могут прочесть описание этих строк в официальной спецификации формата VCF, доступной через веб-сервис GitHub на странице проекта SAMtools.

Заголовок.
Заголовок начинается символом # и содержит названия 8 обязательных полей данных, разделенных табуляцией: CHROM, POS, ID, REF, ALT, QUAL, FILTER и INFO.

Данные.
Каждая строка с данными описывает состояние одной позиции в геноме, где обнаружена вариация нуклеотидной последовательности. Данные разбиты на восемь обязательных полей, разделенных табуляцией. Их описание приведено ниже.
Поле 1: CHROM
Название референсной хромосомы, по которой был картирован индел.
Поле 2: POS
Координата индела в референсной хромосоме. Поскольку инделы, как правило, имеют протяженность более чем в один нуклеотид, то в этом поле указывается координата лишь крайнего левого нуклеотида индела. При этом следует учитывать, что самый первый нуклеотид в хромосоме имеет координату 1. Все координаты сортируются в пределах хромосомы в порядке возрастания значения.
Поле 3: ID
Уникальный идентификатор индела. Если идентификатора нет, то это поле имеет значение “.”.
Поле 4: REF
Нуклеотидная последовательность референс-последовательности по позиции индела.
Поле 5: ALT
Нуклеотидная последовательность индела.
Поле 6: QUAL
Качество идентификации индела, выраженное в баллах. Балы рассчитываются по формуле –10 * log10(вероятность ошибочной идентификации индела). Если качество не рассчитано, то это поле имеет значение “.”.
Поле 7: FILTER
Статус фильтрации индела. Если к инделу применялись фильтры и все они были успешно преодолены, то это поле имеет значение PASS. Если какие-то фильтры не были пройдены, то указывается, какие именно фильтры не были преодолены и по какой причине. Например, запись “q10” обозначает, что использовался качественный фильтр и индел его не преодолел, так как его поле QUAL имеет значение ниже 10. Если никакой фильтрации не проводилось, то это поле имеет значение “.”.
Поле 8: INFO
Комплексное поле, содержащее дополнительную информацию. Краткое описание этого поля в случае с VCF файлами, генерируемыми элайнером Subjunc, дано выше в разделе “Мета-информация”.
Ниже приведен фрагмент VCF файла, сгенерированного элайнером Subjunc, содержащий несколько строк с данными:

chr1
91387318
.
AA
AAA
250
.
INDEL;DP=39564;SR=62
chr1
154959655
.
GGG
GG
171
.
INDEL;DP=66;SR=4
chr21
8207661
.
GGG
GG
168
.
INDEL;DP=16258;SR=3
chr21
8211705
.
GA
GGA
250
.
INDEL;DP=34222;SR=1282
chr4
10446361
.
ATT
AT
250
.
INDEL;DP=97;SR=58
chr4
90838721
.
GA
GTAGAA
250
.
INDEL;DP=576;SR=39
chr7
72948023
.
AA
ATCAAA
177
.
INDEL;DP=89;SR=6
chr7
75417066
.
TG
TATTGG
213
.
INDEL;DP=78;SR=18

Конечно, представленное описание VCF файлов очень краткое, ограничено лишь теми полями и элементами, которые используются элайнером Subjunc. Более же подробно этот формат описан на странице проекта SAMtools, доступной через веб-сервис GitHub. PDF-версии спецификаций VCF формата можно также скачать с Web-страницы проекта 1000 Genomes Project.

Комментариев нет:

Отправить комментарий