一列拆分为多行
如下代码所示,该数据框中最后两列的部分数据为逗号分隔开的多个值。目前希望将数据框中的数据分割成为单条数据一行的格式。
1 | name color size |
想要得到的数据框格式如下:
1 | name color size |
实现思路:对于color和size列按照逗号对各个值进行拆分,将单个值转化为一行,同时相应的name列增加相应行。
如下代码所示,该数据框中最后两列的部分数据为逗号分隔开的多个值。目前希望将数据框中的数据分割成为单条数据一行的格式。
1 | name color size |
想要得到的数据框格式如下:
1 | name color size |
实现思路:对于color和size列按照逗号对各个值进行拆分,将单个值转化为一行,同时相应的name列增加相应行。
ROSE(RANK ORDERING OF SUPER-ENHANCERS)是麻省理工学院Richard A. Young实验室开发的一种通过bam文件及gff文件寻找enhancer及其相关基因的工具,此工具由python编写。项目主页:http://younglab.wi.mit.edu/super_enhancer_code.html
ROSE依赖软件有:Python 2.7.3, R 2.15.3, 和 SAMtools 0.1.18,因此在安装ROSE前,首先确保服务器上安装了这三个工具。关于这三个工具的安装,可以查看这篇博文: RNA-seq分析服务器安装生信工具过程。
ROSE安装方式见以下代码:
1 | wget https://bitbucket.org/young_computation/rose/get/1a9bb86b5464.zip |
htseq-count是一款用于reads计数的轻便软件,可以用于多种mapping软件(tophat、HISAT2、BWA等)的输出结果进行计数。
1 | # 用法概述 |
配置index需要基因组注释文件(通常为gtf格式)以及基因组序列文件(fasta格式)。多个数据库提供此注释文件,此处采用ensemble提供的文件。
1 | # 从ensemble中下载最新版本的人类基因组注释文件(gtf格式) |
![hisat_index.png-24.4kB][1]
进入GEO页面输入id号,进入sra study的ftp下载页面,复制sra文件的链接,在linux下执行以下命令进行下载。
![image_1bnhvvb621t1m65f1e3137618cdm.png-65.5kB][2]
1 | nohup wget -c [文件链接] > download.log& |
每秒可生产1M文件,工具不支持多线程。
vcf具有表头部分和正文部分,其中表头部分是对正文部分中出现的缩写的解释。
vcf的正文部分,必须要有的是前面8列,一般来说有10列,分别是:
1 | CHROM |
CHROM 和 POS
:参考序列名和variant的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置。
ID
:variant的ID。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用”.”表示其为一个novel variant。
REF 和 ALT
:参考序列的碱基 和 Variant的碱基。
QUAL
:Phred格式(Phred_scaled)的质量值,表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p)
。 p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。
FILTER
:使用上一个QUAL值来进行过滤的话,是不够的。GATK能使用其它的方法来进行过滤,过滤结果中通过则该值为”PASS”;若variant不可靠,则该项不为”PASS”或”.”。
INFO
:这一行是variant的详细信息,内容很多,以下再具体详述。
FORMAT 和 TTG11B
:这两行合起来提供了’TTG11B′这个sample的基因型的信息。’TTG11B′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。
samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml
samtools是一个用于操作sam和bam文件的工具合集。在前期测序数据的处理中比较常用。其包含许多命令,以下是常用命令的介绍。
view命令的主要功能:将sam文件转换成bam文件;然后对bam文件进行各种操作,比如数据的排序(其他命令功能)和提取(这些操作是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作);最后将排序或提取得到的数据输出为bam或sam格式。
bam文件优点:bam文件为二进制文件,占用的磁盘空间比sam文本文件小;利用bam二进制文件的运算速度快。
git
是一种版本控制系统,在多人协作项目中很有用处。在对某文档进行多次修改的时候,需要一个软件来记录进行的所有修改,而针对不同人的修改,应该有所标记,以便于随时查错,返回上一版本。git作为这样一种分布式版本控制工具,其可以快速便捷地适应这样的要求。
各个平台下git
的安装方法都在github官方网站中有详细的介绍,因此这里不再赘述。
git
的使用git版本库用于储存将要被修改的文件,创建方式非常简单,创建一个空目录,输入一行git命令即可。在git bash
或者Linux
环境下,可以使用以下代码创建一个git版本库。
1 | $ mkdir mygit |
这样一个名为mygit
的版本库就创建好了。
在对git
版本库中的内容进行修改后,怎样查看被修改内容呢?有两种方法可以查看: