pandas拆分及组合矩阵

Posted on 2018-07-14 | In Python | | Visitors

一列拆分为多行

如下代码所示，该数据框中最后两列的部分数据为逗号分隔开的多个值。目前希望将数据框中的数据分割成为单条数据一行的格式。

   name  color       size
1  AAAA  pink,yellow 18M,14S
2  BBBB  black,blue  10S,12L
3  CCCC  red         13M

想要得到的数据框格式如下：

   name  color  size
0  AAAA  pink   18M
1  AAAA  pink   14S
2  AAAA  yellow 18M
3  AAAA  yellow 14S
4  BBBB  black  10S
5  BBBB  black  12L
6  BBBB  blue   10S
7  BBBB  blue   12L
8  CCCC  red    13M

实现思路：对于color和size列按照逗号对各个值进行拆分，将单个值转化为一行，同时相应的name列增加相应行。

使用ROSE寻找超级增强子

Posted on 2017-09-06 | In Bioinformatics | | Visitors

一、工具介绍

ROSE（RANK ORDERING OF SUPER-ENHANCERS）是麻省理工学院Richard A. Young实验室开发的一种通过bam文件及gff文件寻找enhancer及其相关基因的工具，此工具由python编写。项目主页：http://younglab.wi.mit.edu/super_enhancer_code.html

ROSE项目主页

二、ROSE在服务器上的安装

ROSE依赖软件有：Python 2.7.3, R 2.15.3, 和 SAMtools 0.1.18，因此在安装ROSE前，首先确保服务器上安装了这三个工具。关于这三个工具的安装，可以查看这篇博文： RNA-seq分析服务器安装生信工具过程。

ROSE安装方式见以下代码：

1
2
3

wget https://bitbucket.org/young_computation/rose/get/1a9bb86b5464.zip
unzip 1a9bb86b5464.zip
# 解压后文件见下图，可以直接通过python *.py调用工具

htseq-count使用说明

Posted on 2017-08-12 | In Bioinformatics | | Visitors

htseq-count是一款用于reads计数的轻便软件，可以用于多种mapping软件（tophat、HISAT2、BWA等）的输出结果进行计数。

一、htseq-count参数简介

# 用法概述
usage: htseq-count [options] alignment_file gff_file

# -h参数可显示帮助列表
  -h, --help            show this help message and exit

# -f参数指定输入文件格式类型，默认文件类型为sam
  -f {sam,bam}, --format {sam,bam}

# -r参数指定文件的排序方式，pos:按照染色体位置排序，name:按照read名称进行排序。双端测序数据必选参数，默认值为name。对于单端测序数据，该选项可以忽略
  -r {pos,name}, --order {pos,name}
  
# 当-r参数设定为pos，该选项可以选择最大内存，该参数对单端测序数据无效
  --max-reads-in-buffer MAX_BUFFER_SIZE

# -s参数指定数据建库的链特异性情况，默认值为yes。对于双端测序数据，大多数为非链特异性建库
  -s {yes,no,reverse}, --stranded {yes,no,reverse}
                       
# -a参数指定最低read mapping质量值，低于<minaqual>值会被过滤掉（默认值为10）
  -a MINAQUAL, --minaqual MINAQUAL
                  
# -t参数指定指定最小计数单位类型，（GFF文件中的第三列：如exon），当RNA-seq分析采用 Ensembl GTF 文件类型时，默认值是exon           
  -t FEATURETYPE, --type FEATURETYPE

# -i参数指定最终作为特征id的值，当分析采用Ensembl GTF文件类型是，默认值是gene_id
  -i IDATTR, --idattr IDATTR

# 
  --additional-attr ADDITIONAL_ATTR [ADDITIONAL_ATTR ...]
                        Additional feature attributes (default: none, suitable
                        for Ensembl GTF files: gene_name) 

# -m参数指定判断一个reads属于某个基因的模型，用来判断统计reads的时候对一些比较特殊的reads定义是否计入。<mode> 包括：默认的union和intersection-strict、 intersection-nonempty  （默认：union） 
  -m {union,intersection-strict,intersection-nonempty}, --mode {union,intersection-strict,intersection-nonempty}
                        mode to handle reads overlapping more than one feature
                        (choices: union, intersection-strict, intersection-
                        nonempty; default: union)
  --nonunique {none,all}
                        Whether to score reads that are not uniquely aligned
                        or ambiguously assigned to features
  --secondary-alignments {score,ignore}
                        Whether to score secondary alignments (0x100 flag)
  --supplementary-alignments {score,ignore}
                        Whether to score supplementary alignments (0x800 flag)
  -o SAMOUTS [SAMOUTS ...], --samout SAMOUTS [SAMOUTS ...]
                        write out all SAM alignment records into an output SAM
                        file called SAMOUT, annotating each line with its
                        feature assignment (as an optional field with tag
                        'XF')
  -q, --quiet           suppress progress report

RNA-seq数据分析实例（胶质瘤）

Posted on 2017-08-10 | In Bioinformatics | | Visitors

一、下载比对参考基因组文件，为HISAT2配置index

配置index需要基因组注释文件（通常为gtf格式）以及基因组序列文件（fasta格式）。多个数据库提供此注释文件，此处采用ensemble提供的文件。

# 从ensemble中下载最新版本的人类基因组注释文件（gtf格式）
wget ftp://ftp.ensembl.org/pub/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh38.89.gtf.gz

# 下载人类基因组序列
wget ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna_index/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

#配置HISAT2的index
hisat2-build -p 8 Homo_sapiens.GRCh38.dna.toplevel.fa GRCh38_ensembl_dna 1>build_index.log&

#配置index用时约2小时，结果文件为下图所示

![hisat_index.png-24.4kB][1]

二、下载sra数据

进入GEO页面输入id号，进入sra study的ftp下载页面，复制sra文件的链接，在linux下执行以下命令进行下载。

![image_1bnhvvb621t1m65f1e3137618cdm.png-65.5kB][2]

1	nohup wget -c [文件链接] > download.log&

三、将sra文件转换成fastq.gz格式

每秒可生产1M文件，工具不支持多线程。

RNA-seq分析所用生信工具安装详细记录

Posted on 2017-08-05 | In Bioinformatics | | Visitors

一.测试服务器设定

1.使登录后自动进入/home目录下

1
2
3

vim ~/.bashrc
#在文件中加入以下行后保存退出
cd /home

2.新建RNAseq_tool文件夹，存放各工具

1	mkdir RNAseq_tool

vcf文件详解

Posted on 2017-01-11 | In Bioinformatics | | Visitors

vcf具有表头部分和正文部分，其中表头部分是对正文部分中出现的缩写的解释。

vcf的正文部分，必须要有的是前面8列，一般来说有10列，分别是：

CHROM
POS
ID
REF
ALT
QUAL
FILTER [来自于##FILTER]
INFO
FORMAT
可能会有样本的名称

CHROM 和 POS：参考序列名和variant的位置；如果是INDEL的话，位置是INDEL的第一个碱基位置。

ID：variant的ID。比如在dbSNP中有该SNP的id，则会在此行给出；若没有，则用”.”表示其为一个novel variant。

REF 和 ALT：参考序列的碱基和 Variant的碱基。

QUAL：Phred格式(Phred_scaled)的质量值，表示在该位点存在variant的可能性；该值越高，则variant的可能性越大；计算方法：Phred值 = -10 * log (1-p)。 p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1，该位点为variant的概率为90%。

FILTER：使用上一个QUAL值来进行过滤的话，是不够的。GATK能使用其它的方法来进行过滤，过滤结果中通过则该值为”PASS”;若variant不可靠，则该项不为”PASS”或”.”。

INFO：这一行是variant的详细信息，内容很多，以下再具体详述。

FORMAT 和 TTG11B：这两行合起来提供了’TTG11B′这个sample的基因型的信息。’TTG11B′代表这该名称的样品，是由BAM文件中的@RG下的 SM 标签决定的。

bwa用法笔记

Posted on 2017-01-09 | In Bioinformatics | | Visitors

一.BWA简介

bwa（全称Burrows-Wheeler Aligner），主要功能是将差异度较小的序列比对到一个较大的参考基因组上。其中提供了三种算法：

算法	应用场景
BWA-backtrack	illumina测序结果（reads长度不超过100bp）
BWA-SW	支持序列长度70bp-1Mbp，同时支持剪接性比对(`split alignments`)
BWA-MEM	最常用，最新，最准确，支持序列长度70bp-1Mbp，表现比BWA-backtrack好

samtools及bcftools常用参数和使用文档

Posted on 2016-12-20 | In Bioinformatics | | Visitors

一、概述

samtools的说明文档：http://samtools.sourceforge.net/samtools.shtml
samtools是一个用于操作sam和bam文件的工具合集。在前期测序数据的处理中比较常用。其包含许多命令，以下是常用命令的介绍。

二、view

view命令的主要功能：将sam文件转换成bam文件；然后对bam文件进行各种操作，比如数据的排序(其他命令功能)和提取(这些操作是对bam文件进行的，因而当输入为sam文件的时候，不能进行该操作)；最后将排序或提取得到的数据输出为bam或sam格式。

bam文件优点：bam文件为二进制文件，占用的磁盘空间比sam文本文件小；利用bam二进制文件的运算速度快。

git简单实用笔记

Posted on 2016-09-27 | In Tools | | Visitors

git是什么

git是一种版本控制系统，在多人协作项目中很有用处。在对某文档进行多次修改的时候，需要一个软件来记录进行的所有修改，而针对不同人的修改，应该有所标记，以便于随时查错，返回上一版本。git作为这样一种分布式版本控制工具，其可以快速便捷地适应这样的要求。

各个平台下git的安装方法都在github官方网站中有详细的介绍，因此这里不再赘述。

`git`的使用

创建git版本库

git版本库用于储存将要被修改的文件，创建方式非常简单，创建一个空目录，输入一行git命令即可。在git bash或者Linux环境下，可以使用以下代码创建一个git版本库。

1
2
3

$ mkdir mygit
$ cd mygit
$ git init

这样一个名为mygit的版本库就创建好了。

查看被修改的git版本库

在对git版本库中的内容进行修改后，怎样查看被修改内容呢？有两种方法可以查看：

常见hexo博客命令用法及博客优化过程

Posted on 2016-09-25 | In Blog | | Visitors

常见hexo命令

以下是常见的hexo命令，在搭建hexo博客中一定会用到。
新建一篇博文，默认保存在本地博客目录下的/source/_post文件夹中,并形成一个以name命名的md文件。

1	$ hexo n 'name'

更新博客（生成新的静态博客文件）

$ hexo g

预览博客（让博客服务器运行在本地，一般地址为localhost:4000）

$ hexo s

Wendy

Cease to struggle and you cease to live

GitHub E-Mail