Bioinformatics名词,数据文件
, 08 Nov 2019
记录一些生物信息的名词与工具及各种数据库
基因ID
SYMBOL:基因id,是使用最早,使用最广泛的ID形式。 ENSEMBL: ENTREZID: 这三个基因id的转换可以通过R实现
library(org.Hs.eg.db)
data(geneList, package="DOSE")
gene <- names(geneList)[abs(geneList) > 2]
library(clusterProfiler)
gene.df <- bitr(gene, fromType = "ENTREZID", #fromType是指你的数据ID类型是属于哪一类的
toType = c("ENSEMBL", "SYMBOL"), #toType是指你要转换成哪种ID类型,可以写多种,也可以只写一种
OrgDb = org.Hs.eg.db)#Orgdb是指对应的注释包是哪个
#其他方法,多列一种
geneIDselect <-select(org.Hs.eg.db, #.db是这个芯片数据对应的注释包
keys=gene,
columns=c("SYMBOL","ENSEMBL","GENENAME"), #clolumns参数是你要转换的ID类型是什么,这里选择三个。
keytype="ENTREZID" )
数据库
UCSC NCBI
生信文件
vcf
Variant Call Format(VCF):是一个用于存储基因序列突变信息的文本格式。可以表示单碱基突变, 插入/缺失, 拷贝数变异和结构变异等,即SNP, indel, 和 structural variation calls。通常是对BAM文件格式的比对结果进行处理得到的。BCF格式文件是VCF格式的二进制文件。
注释信息通常以##开头,会描述该VCF文件 ,没什么规则, 描述包括参考基因组版本,得到该VCF文件的命令,以及各个TAG解释缩写的简单描述等。
以#开头为列名,
| #CHROM | POS | ID | REF | ALT | QUAL | FILTER | INFO | FORMAT | demo_ajtk |
|---|---|---|---|---|---|---|---|---|---|
| chr12 | 25362777 | . | A | G | 533 | PASS | ADJAF=0;AF=0.1894;BIAS=2:2;DP=322;DUPRATE=0;HIAF=0.1894;HICNT=61;HICOV=322;LSEQ=TTCTTTTTCTTCTTTTTACC;MQ=60;MSI=1;MSILEN=1;NM=1.4;ODDRATIO=1.04417;PMEAN=23.7;PSTD=1;QSTD=0;QUAL=90;REFBIAS=144:117;RSEQ=TCTTTGCTCATCTTTTCTTT;SAMPLE=demo_ajtk;SBF=0.88733;SHIFT3=0;SN=122;SPANPAIR=0;SPLITREAD=0;TYPE=SNV;VARBIAS=33:28;VD=61 | GT:DP:VD:AD:AF:RD:ALD | 0/1:322:61:261,61:0.1894:144,117:33,28 |
CHROM 和 POS:代表参考序列名和variant的位置;如果是INDEL的话,位置是INDEL的第一个碱基位置。
ID:variant的ID。比如在dbSNP中有该SNP的id,则会在此行给出(这个需要自己下载dbSNP数据库文件进行注释才有的)。若没有或者注释不上,则用'.'表示其为一个novel variant。
REF 和 ALT:参考序列的碱基 和 Variant的碱基。
QUAL:Phred格式(Phred_scaled)的质量值,表示在该位点存在variant的可能性;该值越高,则variant的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为variant存在的概率;
FILTER:使用上一个QUAL值来进行过滤的话,是不够的,使用其他方法过滤,过滤结果中通过则该值为”PASS”;若variant不可靠,则该项不为”PASS”或”.”。
INFO: 这一行是variant的详细信息,内容很多,以下再具体详述。
FORMAT 和 样品名列:这两行合起来提供了样品的基因型的信息。是由SAM/BAM文件中的@RG下的 SM 标签决定的。或者变异检测软件自己定义的。
##第九,十列中
GT:DP:VD:AD:AF:RD:ALD
0/1:322:61:261,61:0.1894:144,117:33,28
GT:样品的基因型(genotype)。两个数字中间用’/‘分开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1⁄1 表示sample中该位点为纯合的,和variant一致。 DP(Depth)为sample中该位点的测序深度。 AD(Allele Depth)为sample中每一种allele的reads覆盖度,以逗号分割。
bam/sam/cram
bam:sam文件的二进制压缩文件,可使用samtools工具查看。由于其运行速度快,所以常常使用bam而不是sam。(B取自binary) sam:SAM是一种序列比对格式标准, 由sanger制定,是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示,当然也可以表示任意的多重比对结果。 当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format。
对上述网址,我记录我需要用又常忘记的,必须的字段有11个,顺序固定,不可自行改动 ,因为变异检测基本是靠这些列的信息。
QNAME,比对片段的(template)的编号;比较常用的叫法是queryname
FLAG,位标识,template mapping情况的数字表示,每一个数字代表一种比对情况,这里的值是符合情况的数字相加总和;
RNAME,参考序列的编号,如果注释中对SQ-SN进行了定义,这里必须和其保持一致,另外对于没有mapping上的序列,这里是’*‘;
POS,比对上的位置,注意是从1开始计数,没有比对上,此处为0;
MAPQ,mapping的质量;
CIGAR,简要比对信息表达式,
“M”表示 match或 mismatch;
“I”表示 insert;
“D”表示 deletion;
“N”表示 skipped(跳过这段区域);
“S”表示 soft clipping(被剪切的序列存在于序列中);
“H”表示 hard clipping(被剪切的序列不存在于序列中);
“P”表示 padding;
“=”表示 match;
“X”表示 mismatch(错配,位置是一一对应的);
CRAM:
fastq/fasta
faastq:一种存储了生物序列(通常是核酸序列)以及相应的质量评价的文本格式。
第一行@开头,接描述信息,4为flowcell第四个lane?1:N:0:后面是index?
第二行为序列信息,N代表A\T\G\C,即any,用处?
第三行为+开头,后面也可接描述信息
第四行为为第二行测序质量评价,字节数与第二行相等。Q=10*log10(p/(1-p)),其中p是对应碱基判定的概率。
如此循环下去。
其无损压缩为fastq.gz
fastq to fasta 命令行:
zcat input_file.fastq.gz | awk 'NR%4==1{printf ">%s\n", substr($0,2)}NR%4==2{print}' > output_file.fa
统计序列条数(reads):
zcat *R1.fq.gz |grep '@'| wc –l或者zcat *.fastq.gz | awk 'NR%4==2{c++} END{print c}'
或者pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'(速度快10倍)
GC含量及碱基数目:
perl -ne 'if($.%4){chomp;$count_G=$count_G+($_=~tr/G//);$count_C=$count_C+($_=~tr/C//);$cur_length=length($_);$total_length+=$cur_length;}END{print qq{total count is $total_length bp\nGC%:},($count_G+$count_C)/$total_length,qq{\n} }' input.fq
fasta:是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示,且允许在序列前添加序列名及注释。
统计序列数:grep -c '^>' *.fa或者seqkit stats t.fa -T | grep -v file | cut -f 4
GC含量统计:
bed
bed:通过规定行的内容来展示注释信息,以\t为分隔符。
# BED文件必须的3列:
1.chrom - 染色体号; 例如,chr1,chrX……
2.chromStart - feature在染色体上起始位置.染色体上第一个碱基位置标记为0。
3.chromEnd - feature在染色体上终止位置。染色体上前100个碱基片段的位置位置标记为:chromStart=0, chromEnd=100。 实际上,第101个碱基不属于当前片段中,当前片段的碱基应该是0-99。所以在BED文件中,起始位置从0开始,终止位置从1开始。
# BED文件可选的9列:
4.name - BED行名
5.score - 在基因组浏览器中显示的灰度设定,值介于0-1000;
gray score
6.strand - 正负链标记. Either "." (=no strand) or "+" or "-".
7.thickStart - feature起始位置(for example, the start codon in gene displays)
8.thickEnd - feature编码终止位置 (for example the stop codon in gene displays)
9.itemRgb - R,G,B (e.g. 255,0,0)值,当itemRgb 设置为 "On",BED的行会显示颜色.
10.blockCount - blocks (exons)数目.
11.blockSizes - blocks (exons)大小列表,逗号分隔,对应于blockCount.
12.blockStarts -blocks (exons)起始位置列表,逗号分隔,对应于blockCount.;这个起始位置是与chromStart的一个相对位置。
其他名词
variant:突变体 call,calling:识别 transcript variant 是可变剪接体,是由DNA转录得到的,mRNA包含若干外显子,经过剪接组合成不同长度的mRNA,翻译成不同长度蛋白质.这种由同一基因不同外显子组成的序列称可变剪接体,不同可变剪接体表达的蛋白作用可能相近也可能相反。
Chr: 变异所在的染色体
Start: 变异在染色体的起始位置
End: 变异在染色体的终止位置
Ref: 基因组的参考序列
Alt: 检测样本的基因组序列
Func.refGene: 变异所处参考基团的功能区(exonic,intronic,UTR3,UTR5,splicing,upstream,downstream,intergenic)此处的exonic特指外显子编码氨基酸区,不包含外显子的UTR区
Gene.refGene: 变异所处参考基因名称(如果是基因间,则是两侧的基因)
GeneDetail.refGene: 非外显子区处于特定转录本中的具体位置(如果是基因间,则是距离两侧的基因的距离)
ExonicFunc.refGene: 外显子的变异类型(frameshift insertion/frameshiftdeletion/stopgain/stoploss/nonframeshift insertion/nonframeshiftdeletion/synonymous SNV/nonsynonymous SNV)或者”.”则说明该变异不在外显子区
AAChange.refGene:氨基酸水平的改变(同一个基因可能具有多个转录本,氨基酸改变的位置在不同的转录本中可能不一样)
avsnp150:dbsnp150 缩写,具有等位基因分裂和左标准化
1000g2015aug_eas:1000个基因组项目数据集,其中东亚群体的等位基因频率
gnomAD_exome_ALL:该变异在gnomAD数据库中的多个群体的全外显子组序列数据(频率)
gnomAD_exome_EAS:该变异在gnomAD数据库中的东亚的多个群体的全外显子组序列数据(频率)
het:杂合;hom: 纯合;Pathogenic: 致病的;