基因结构图从本质上就可以看成方块,直线,箭头的组合
解析GFF文件
bioconductor上有一个GenomicFeatures
包,里面有一个makeTxDbFromGFF()
函数可以解析GFF文件并构建TxDb
对象,如何操作该对象见
以拟南芥TAIR10上的GFF为例(文件可以从TAIR10上下载),
library(GenomicFeatures) GFF_file <- "C:/Users/DELL/Desktop/TAIR10_GFF3_genes.gff"txdb <- makeTxDbFromGFF(GFF_file) genes_df <- as.data.frame(genes(txdb)) exons_df <- as.data.frame(exons(txdb))
genes()
和exons()
函数分别用于获取所有基因,所有外显子的GRanges对象,之后用as.data.frame
转成ggplot2
使用的数据框格式
提取目标区间的基因结构信息
ggplot2作图
第一步,调整主题。如下的代码就是将画布清空
theme_syntenty <- theme_classic() + theme(axis.line = element_blank(), axis.text = element_blank(), axis.ticks = element_blank(), axis.title = element_blank()) theme)set()
第二步,画外显子的结构
外显子就是一个一个方块,我们可以用有一定厚度的线段来表示,geom_segment()
p1 <- ggplot(exons_in_gene_df, aes(x=start, xend=end,y=0.5,yend=0.5)) + geom_segment(size=4) p1
外显子1
也可以用geom_rect()
画框框
p1 <- ggplot(exons_in_gene_df) + geom_rect(aes(xmin=start, xmax=end,ymin=-0.1,ymax=0.1), colour="black", fill="white") + ylim(c(-1,1)) p1
外显子2
外显子之间一般都是有连线的,所以下一步就把这些线加上去
p1 + geom_segment(data=gene_df, aes(x=start,xend=end,y=0,yend=0))
外显子3
然而,这个连线居然是在外显子的上面,一点都不美观。一种解决方式,就是分别在外显子间加线段,另一种解决方法就是先画线,然后用长方形的图层覆盖线。
p1 <- ggplot(exons_in_gene_df) + geom_segment(data=gene_df, aes(x=start,xend=end,y=0,yend=0)) + geom_rect(aes(xmin=start, xmax=end,ymin=-0.1,ymax=0.1), colour="black", fill="white") + ylim(c(-1,1)) p1
更好看的外显子
最后我们在加上这个基因的名字,以及把填一个比较好看的颜色
p1 <- ggplot(exons_in_gene_df) + geom_segment(data=gene_df, aes(x=start,xend=end,y=0,yend=0)) + geom_rect(aes(xmin=start, xmax=end,ymin=-0.1,ymax=0.1), colour="#282a73", fill="#282a73") + ylim(c(-1,1)) + geom_text(data=gene_df, aes(x=(start + end)/2, y = 0.2,label=gene_id))
最后结果
作者:hoptop
链接:https://www.jianshu.com/p/e76aa85a3a79
點擊查看更多內容
為 TA 點贊
評論
評論
共同學習,寫下你的評論
評論加載中...
作者其他優質文章
正在加載中
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦