Wendy’s note


  • Home

  • Categories

  • About

  • Archives

  • Search

pandas拆分及组合矩阵

Posted on 2018-07-14 | In Python | | Visitors

一列拆分为多行

如下代码所示,该数据框中最后两列的部分数据为逗号分隔开的多个值。目前希望将数据框中的数据分割成为单条数据一行的格式。

1
2
3
4
   name  color       size
1 AAAA pink,yellow 18M,14S
2 BBBB black,blue 10S,12L
3 CCCC red 13M

想要得到的数据框格式如下:

1
2
3
4
5
6
7
8
9
10
   name  color  size
0 AAAA pink 18M
1 AAAA pink 14S
2 AAAA yellow 18M
3 AAAA yellow 14S
4 BBBB black 10S
5 BBBB black 12L
6 BBBB blue 10S
7 BBBB blue 12L
8 CCCC red 13M

实现思路:对于color和size列按照逗号对各个值进行拆分,将单个值转化为一行,同时相应的name列增加相应行。

Read more »

使用ROSE寻找超级增强子

Posted on 2017-09-06 | In Bioinformatics | | Visitors

一、工具介绍

ROSE(RANK ORDERING OF SUPER-ENHANCERS)是麻省理工学院Richard A. Young实验室开发的一种通过bam文件及gff文件寻找enhancer及其相关基因的工具,此工具由python编写。项目主页:http://younglab.wi.mit.edu/super_enhancer_code.html

ROSE项目主页

二、ROSE在服务器上的安装

ROSE依赖软件有:Python 2.7.3, R 2.15.3, 和 SAMtools 0.1.18,因此在安装ROSE前,首先确保服务器上安装了这三个工具。关于这三个工具的安装,可以查看这篇博文: RNA-seq分析服务器安装生信工具过程。

ROSE安装方式见以下代码:

1
2
3
wget https://bitbucket.org/young_computation/rose/get/1a9bb86b5464.zip
unzip 1a9bb86b5464.zip
# 解压后文件见下图,可以直接通过python *.py调用工具
Read more »

htseq-count使用说明

Posted on 2017-08-12 | In Bioinformatics | | Visitors

htseq-count是一款用于reads计数的轻便软件,可以用于多种mapping软件(tophat、HISAT2、BWA等)的输出结果进行计数。

一、htseq-count参数简介

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
# 用法概述
usage: htseq-count [options] alignment_file gff_file

# -h参数可显示帮助列表
-h, --help show this help message and exit

# -f参数指定输入文件格式类型,默认文件类型为sam
-f {sam,bam}, --format {sam,bam}

# -r参数指定文件的排序方式,pos:按照染色体位置排序,name:按照read名称进行排序。双端测序数据必选参数,默认值为name。对于单端测序数据,该选项可以忽略
-r {pos,name}, --order {pos,name}

# 当-r参数设定为pos,该选项可以选择最大内存,该参数对单端测序数据无效
--max-reads-in-buffer MAX_BUFFER_SIZE

# -s参数指定数据建库的链特异性情况,默认值为yes。对于双端测序数据,大多数为非链特异性建库
-s {yes,no,reverse}, --stranded {yes,no,reverse}

# -a参数指定最低read mapping质量值,低于<minaqual>值会被过滤掉(默认值为10)
-a MINAQUAL, --minaqual MINAQUAL

# -t参数指定指定最小计数单位类型,(GFF文件中的第三列:如exon),当RNA-seq分析采用 Ensembl GTF 文件类型时,默认值是exon
-t FEATURETYPE, --type FEATURETYPE

# -i参数指定最终作为特征id的值,当分析采用Ensembl GTF文件类型是,默认值是gene_id
-i IDATTR, --idattr IDATTR

#
--additional-attr ADDITIONAL_ATTR [ADDITIONAL_ATTR ...]
Additional feature attributes (default: none, suitable
for Ensembl GTF files: gene_name)

# -m参数指定判断一个reads属于某个基因的模型,用来判断统计reads的时候对一些比较特殊的reads定义是否计入。<mode> 包括:默认的union和intersection-strict、 intersection-nonempty (默认:union)
-m {union,intersection-strict,intersection-nonempty}, --mode {union,intersection-strict,intersection-nonempty}
mode to handle reads overlapping more than one feature
(choices: union, intersection-strict, intersection-
nonempty; default: union)
--nonunique {none,all}
Whether to score reads that are not uniquely aligned
or ambiguously assigned to features
--secondary-alignments {score,ignore}
Whether to score secondary alignments (0x100 flag)
--supplementary-alignments {score,ignore}
Whether to score supplementary alignments (0x800 flag)
-o SAMOUTS [SAMOUTS ...], --samout SAMOUTS [SAMOUTS ...]
write out all SAM alignment records into an output SAM
file called SAMOUT, annotating each line with its
feature assignment (as an optional field with tag
'XF')
-q, --quiet suppress progress report
Read more »

RNA-seq数据分析实例(胶质瘤)

Posted on 2017-08-10 | In Bioinformatics | | Visitors

一、下载比对参考基因组文件,为HISAT2配置index

配置index需要基因组注释文件(通常为gtf格式)以及基因组序列文件(fasta格式)。多个数据库提供此注释文件,此处采用ensemble提供的文件。

1
2
3
4
5
6
7
8
9
10
# 从ensemble中下载最新版本的人类基因组注释文件(gtf格式)
wget ftp://ftp.ensembl.org/pub/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh38.89.gtf.gz

# 下载人类基因组序列
wget ftp://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna_index/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

#配置HISAT2的index
hisat2-build -p 8 Homo_sapiens.GRCh38.dna.toplevel.fa GRCh38_ensembl_dna 1>build_index.log&

#配置index用时约2小时,结果文件为下图所示

![hisat_index.png-24.4kB][1]

二、下载sra数据

进入GEO页面输入id号,进入sra study的ftp下载页面,复制sra文件的链接,在linux下执行以下命令进行下载。

![image_1bnhvvb621t1m65f1e3137618cdm.png-65.5kB][2]

1
nohup wget -c [文件链接] > download.log&

三、将sra文件转换成fastq.gz格式

每秒可生产1M文件,工具不支持多线程。

Read more »

RNA-seq分析所用生信工具安装详细记录

Posted on 2017-08-05 | In Bioinformatics | | Visitors

一.测试服务器设定

1.使登录后自动进入/home目录下

1
2
3
vim ~/.bashrc
#在文件中加入以下行后保存退出
cd /home

2.新建RNAseq_tool文件夹,存放各工具

1
mkdir RNAseq_tool
Read more »

vcf文件详解

Posted on 2017-01-11 | In Bioinformatics | | Visitors

vcf具有表头部分和正文部分,其中表头部分是对正文部分中出现的缩写的解释。

vcf的正文部分,必须要有的是前面8列,一般来说有10列,分别是:

1
2
3
4
5
6
7
8
9
10
CHROM
POS
ID
REF
ALT
QUAL
FILTER [来自于##FILTER]
INFO
FORMAT
可能会有样本的名称

CHROM 和 POS:参考序列名和variant的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置。

ID:variant的ID。比如在dbSNP中有该SNP的id,则会在此行给出;若没有,则用”.”表示其为一个novel variant。

REF 和 ALT:参考序列的碱基 和 Variant的碱基。

QUAL:Phred格式(Phred_scaled)的质量值,表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p)。 p为variant存在的概率; 通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。

FILTER:使用上一个QUAL值来进行过滤的话,是不够的。GATK能使用其它的方法来进行过滤,过滤结果中通过则该值为”PASS”;若variant不可靠,则该项不为”PASS”或”.”。

INFO:这一行是variant的详细信息,内容很多,以下再具体详述。

FORMAT 和 TTG11B:这两行合起来提供了’TTG11B′这个sample的基因型的信息。’TTG11B′代表这该名称的样品,是由BAM文件中的@RG下的 SM 标签决定的。

Read more »

bwa用法笔记

Posted on 2017-01-09 | In Bioinformatics | | Visitors

一.BWA简介

bwa(全称Burrows-Wheeler Aligner),主要功能是将差异度较小的序列比对到一个较大的参考基因组上。其中提供了三种算法:

算法 应用场景
BWA-backtrack illumina测序结果(reads长度不超过100bp)
BWA-SW 支持序列长度70bp-1Mbp,同时支持剪接性比对(split alignments)
BWA-MEM 最常用,最新,最准确,支持序列长度70bp-1Mbp,表现比BWA-backtrack好
Read more »

samtools及bcftools常用参数和使用文档

Posted on 2016-12-20 | In Bioinformatics | | Visitors

一、概述

samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml
samtools是一个用于操作sam和bam文件的工具合集。在前期测序数据的处理中比较常用。其包含许多命令,以下是常用命令的介绍。

二、view

view命令的主要功能:将sam文件转换成bam文件;然后对bam文件进行各种操作,比如数据的排序(其他命令功能)和提取(这些操作是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作);最后将排序或提取得到的数据输出为bam或sam格式。

bam文件优点:bam文件为二进制文件,占用的磁盘空间比sam文本文件小;利用bam二进制文件的运算速度快。

Read more »

git简单实用笔记

Posted on 2016-09-27 | In Tools | | Visitors

git是什么

git是一种版本控制系统,在多人协作项目中很有用处。在对某文档进行多次修改的时候,需要一个软件来记录进行的所有修改,而针对不同人的修改,应该有所标记,以便于随时查错,返回上一版本。git作为这样一种分布式版本控制工具,其可以快速便捷地适应这样的要求。

各个平台下git的安装方法都在github官方网站中有详细的介绍,因此这里不再赘述。

git的使用

创建git版本库

git版本库用于储存将要被修改的文件,创建方式非常简单,创建一个空目录,输入一行git命令即可。在git bash或者Linux环境下,可以使用以下代码创建一个git版本库。

1
2
3
$ mkdir mygit
$ cd mygit
$ git init

这样一个名为mygit的版本库就创建好了。

查看被修改的git版本库

在对git版本库中的内容进行修改后,怎样查看被修改内容呢?有两种方法可以查看:

Read more »

常见hexo博客命令用法及博客优化过程

Posted on 2016-09-25 | In Blog | | Visitors

常见hexo命令

以下是常见的hexo命令,在搭建hexo博客中一定会用到。
新建一篇博文,默认保存在本地博客目录下的/source/_post文件夹中,并形成一个以name命名的md文件。

1
$ hexo n 'name'

更新博客(生成新的静态博客文件)

1
$ hexo g

预览博客(让博客服务器运行在本地,一般地址为localhost:4000)

1
$ hexo s
Read more »
12
Wendy

Wendy

Cease to struggle and you cease to live

11 posts
4 categories
GitHub E-Mail
© 2019 Wendy
Powered by Hexo
Theme - NexT.Pisces