вторник, 28 июня 2016 г.

Парадигма картирования seed-and-vote: итоговые файлы с межмолекулярными гибридами.

Если для картирования RNA-Seq ридов используется элайнер Subjunc и на функцию subjunc подан аргумент reportAllJunctions = TRUE, то программа сгенерирует и сохранит один дополнительный файл в формате TXT, содержащий информацию об идентифицированных межмолекулярных РНК-гибридах. Такого рода файл имеет ряд особенностей.
Во-первых, в названии файла используется суффикс breakpoints, чтобы отметить, что он содержит данные о межмолекулярных РНК-гибридах. Во-вторых, в этом файле обязательно присутствует одна строка с комментариями, которая включает названия полей файла. В-третьих, файл содержит шесть обязательных полей, описанных ниже.
q Chr название первой хромосомы (или скафолда), по которой картируется межмолекулярный РНК-гибрид.
q Location – локализация точки гибридизации в первой хромосоме (или скафолде).
q Chr название второй хромосомы (или скафолда), по которой картируется межмолекулярный РНК-гибрид. Следует иметь ввиду, что межмолекулярный РНК-гибрид может картироваться по разным участкам одной и той же хромосомы.
q Location – локализация точки гибридизации во второй хромосоме (или скафолде).
q SameStrand – поле, принимающее одно из двух логических значений: Yes (в обеих хромосомах межмолекулярный РНК-гибрид картируется по одной и той же цепи) и No (межмолекулярный РНК-гибрид картируется по разным цепям).
q nSupport – количество ридов, подтверждающих межмолекулярный РНК-гибрид.
Поскольку мы имеем дело с обычным текстовым файлом, то для загрузки его в рабочее пространство R среды можно воспользоваться стандартной функцией read.table.

rm(list = ls())
dataBP = read.table(file = “D:/Transcriptome/SRR1145838.breakpoints.txt", sep = "\t")
colnames(dataBP) = c("Chr1", "Location1", "Chr2", "Location2", "sameStrand", "nSupport")
head(dataBP)

Chr1
Location1
Chr2
Location2
sameStrand
nSupport
1
chr15
82856484
chr17
76564275
No
17
2
chr1
28982534
chr17
42998826
No
7
3
chr12
32731880
chr12
32733789
No
1
4
chr17
58279805
chr17
58279825
No
3
5
chr7
130165207
chr7
130165253
No
1
6
chr4
103572196
chrX
41339041
Yes
1

После загрузки мы изменили названия первых четырех полей, что бы в дальнейшем можно было с ними корректно работать.

Комментариев нет:

Отправить комментарий