Последним, четвертым типом итоговых файлов, генерируемых
элайнером Subjunc, являются файлы с расширением indel, содержащие информацию об инсерциях и/или делециях. Формально
к таким структурным перестройкам, называемым еще инделами (indels), относятся небольшие по
протяженности инсерции (вставки) или делеции (выпадения) в геноме. Конечно,
правильнее инделы детектировать не по ридам RNA-Seq, а по DNA-Seq, но элайнер Subjunc создает файлы с расширением indel автоматически, без возможности контроля со стороны
пользователя.
По своей структуре файлы с расширением indel идентичны файлам 4-й версии формата VCF. Формат VCF (акроним от англ. Variant Call Format) был разработан сотрудниками
международного консорциума 1000 Genomes Project для хранения больших массивов данных по структурным вариациям в геноме
человека. Файлы в таком формате являются текстовыми файлами, содержащими строки
с мета-информацией, заголовок и множество строк с данными (по одной на одну
геномную позицию).
Мета-информация.
Строки с мета-информацией начинаются символом ## и
записываются в формате ключ = значение.
##fileformat
Версия формата VCF. Эта строка является
обязательной и всегда располагается первой. Элайнер Subjunc использует формат v.4.0.
##fileformat=VCFv4.0
##INFO
Множество строк, описывающих атрибуты поля INFO (см.
ниже). Количество таких строк равно количеству атрибутов. Каждая строка записывается
в нижеприведенном формате:
##INFO=<ID=идентификатор,Number=номер,Type=тип,Description=”описание”>
Запись реальных строк показана ниже:
##INFO=<ID=INDEL,Number=0,Type=Flag,Description="Indicates
that the variant is an INDEL.">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Raw
read depth">
##INFO=<ID=SR,Number=1,Type=String,Description="Number
of supporting reads for variants">
Как видно, элайнер Subjunc генерирует VCF файлы,
у которых поле INFO содержит только три атрибута: INDEL (указание на то, что вариация в
последовательности генома является инделом), DP (глубина прочтения участка
генома, где обнаружена вариация нуклеотидной последовательности) и SR (количество ридов,
подтверждающих вариацию нуклеотидной последовательности).
Кроме поля INFO строки с мета-информацией могут содержать описание других полей, например,
поля FILTER, но поскольку элайнер Subjunc не вставляет
такие строки в VCF файл, то мы опустим их
описание. Тем не менее, желающие могут прочесть описание этих строк в
официальной спецификации формата VCF,
доступной
через веб-сервис GitHub на странице проекта SAMtools.
Заголовок.
Заголовок начинается символом # и содержит названия 8 обязательных полей данных, разделенных
табуляцией: CHROM, POS, ID, REF, ALT, QUAL, FILTER и INFO.
Данные.
Каждая строка с
данными описывает состояние одной позиции в геноме, где обнаружена вариация
нуклеотидной последовательности. Данные разбиты на восемь обязательных полей,
разделенных табуляцией. Их описание приведено ниже.
Поле 1: CHROM
Название референсной хромосомы,
по которой был картирован индел.
Поле 2: POS
Координата индела в референсной хромосоме. Поскольку
инделы, как правило, имеют протяженность более чем в один нуклеотид, то в этом
поле указывается координата лишь крайнего левого нуклеотида индела. При этом
следует учитывать, что самый первый нуклеотид в хромосоме имеет координату 1. Все
координаты сортируются в пределах хромосомы в порядке возрастания значения.
Поле 3: ID
Уникальный идентификатор индела. Если идентификатора
нет, то это поле имеет значение “.”.
Поле 4: REF
Нуклеотидная последовательность референс-последовательности
по позиции индела.
Поле 5: ALT
Нуклеотидная последовательность индела.
Поле 6: QUAL
Качество
идентификации индела, выраженное в баллах. Балы рассчитываются по формуле –10 *
log10(вероятность ошибочной идентификации индела).
Если качество не рассчитано, то это поле имеет
значение “.”.
Поле 7: FILTER
Статус
фильтрации индела. Если к инделу применялись фильтры и все они были успешно
преодолены, то это поле имеет значение PASS.
Если какие-то фильтры не были пройдены, то указывается, какие именно фильтры не
были преодолены и по какой причине. Например, запись “q10” обозначает, что использовался
качественный фильтр и индел его не преодолел, так как его поле QUAL имеет значение ниже 10. Если
никакой фильтрации не проводилось, то это поле имеет значение “.”.
Поле 8: INFO
Комплексное
поле, содержащее дополнительную информацию. Краткое описание этого поля в
случае с VCF файлами, генерируемыми элайнером Subjunc, дано выше в разделе “Мета-информация”.
Ниже приведен фрагмент VCF
файла, сгенерированного
элайнером Subjunc, содержащий несколько
строк с данными:
chr1
|
91387318
|
.
|
AA
|
AAA
|
250
|
.
|
INDEL;DP=39564;SR=62
|
chr1
|
154959655
|
.
|
GGG
|
GG
|
171
|
.
|
INDEL;DP=66;SR=4
|
chr21
|
8207661
|
.
|
GGG
|
GG
|
168
|
.
|
INDEL;DP=16258;SR=3
|
chr21
|
8211705
|
.
|
GA
|
GGA
|
250
|
.
|
INDEL;DP=34222;SR=1282
|
chr4
|
10446361
|
.
|
ATT
|
AT
|
250
|
.
|
INDEL;DP=97;SR=58
|
chr4
|
90838721
|
.
|
GA
|
GTAGAA
|
250
|
.
|
INDEL;DP=576;SR=39
|
chr7
|
72948023
|
.
|
AA
|
ATCAAA
|
177
|
.
|
INDEL;DP=89;SR=6
|
chr7
|
75417066
|
.
|
TG
|
TATTGG
|
213
|
.
|
INDEL;DP=78;SR=18
|
Конечно, представленное описание VCF
файлов
очень краткое, ограничено лишь теми полями и элементами, которые используются
элайнером Subjunc. Более же подробно этот
формат описан на странице проекта SAMtools, доступной через
веб-сервис GitHub. PDF-версии спецификаций VCF
формата
можно также скачать с Web-страницы проекта 1000 Genomes Project.
Комментариев нет:
Отправить комментарий