Bioinformatics名词,数据文件

记录一些生物信息的名词与工具及各种数据库

基因ID

SYMBOL:基因id，是使用最早，使用最广泛的ID形式。 ENSEMBL: ENTREZID: 这三个基因id的转换可以通过R实现

library(org.Hs.eg.db)
data(geneList, package="DOSE")
gene <- names(geneList)[abs(geneList) > 2]
library(clusterProfiler)
gene.df <- bitr(gene, fromType = "ENTREZID", #fromType是指你的数据ID类型是属于哪一类的
                toType = c("ENSEMBL", "SYMBOL"), #toType是指你要转换成哪种ID类型，可以写多种，也可以只写一种
                OrgDb = org.Hs.eg.db)#Orgdb是指对应的注释包是哪个
#其他方法，多列一种
geneIDselect <-select(org.Hs.eg.db, #.db是这个芯片数据对应的注释包
                      keys=gene,
                      columns=c("SYMBOL","ENSEMBL","GENENAME"), #clolumns参数是你要转换的ID类型是什么，这里选择三个。
                      keytype="ENTREZID" )

数据库

UCSC NCBI

生信文件

vcf

Variant Call Format（VCF）:是一个用于存储基因序列突变信息的文本格式。可以表示单碱基突变, 插入/缺失, 拷贝数变异和结构变异等,即SNP, indel, 和 structural variation calls。通常是对BAM文件格式的比对结果进行处理得到的。BCF格式文件是VCF格式的二进制文件。

注释信息通常以##开头，会描述该VCF文件 ,没什么规则，描述包括参考基因组版本，得到该VCF文件的命令，以及各个TAG解释缩写的简单描述等。

以#开头为列名，

#CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO	FORMAT	demo_ajtk
chr12	25362777	.	A	G	533	PASS	ADJAF=0;AF=0.1894;BIAS=2:2;DP=322;DUPRATE=0;HIAF=0.1894;HICNT=61;HICOV=322;LSEQ=TTCTTTTTCTTCTTTTTACC;MQ=60;MSI=1;MSILEN=1;NM=1.4;ODDRATIO=1.04417;PMEAN=23.7;PSTD=1;QSTD=0;QUAL=90;REFBIAS=144:117;RSEQ=TCTTTGCTCATCTTTTCTTT;SAMPLE=demo_ajtk;SBF=0.88733;SHIFT3=0;SN=122;SPANPAIR=0;SPLITREAD=0;TYPE=SNV;VARBIAS=33:28;VD=61	GT:DP:VD:AD:AF:RD:ALD	0/1:322:61:261,61:0.1894:144,117:33,28

CHROM 和 POS：代表参考序列名和variant的位置；如果是INDEL的话，位置是INDEL的第一个碱基位置。
ID：variant的ID。比如在dbSNP中有该SNP的id，则会在此行给出(这个需要自己下载dbSNP数据库文件进行注释才有的)。若没有或者注释不上，则用'.'表示其为一个novel variant。
REF 和 ALT：参考序列的碱基 和 Variant的碱基。
QUAL：Phred格式(Phred_scaled)的质量值，表示在该位点存在variant的可能性；该值越高，则variant的可能性越大；计算方法：Phred值 = -10 * log (1-p) p为variant存在的概率;
FILTER：使用上一个QUAL值来进行过滤的话，是不够的，使用其他方法过滤，过滤结果中通过则该值为”PASS”;若variant不可靠，则该项不为”PASS”或”.”。
INFO： 这一行是variant的详细信息，内容很多，以下再具体详述。
FORMAT 和 样品名列：这两行合起来提供了样品的基因型的信息。是由SAM/BAM文件中的@RG下的 SM 标签决定的。或者变异检测软件自己定义的。
##第九，十列中
GT:DP:VD:AD:AF:RD:ALD 
0/1:322:61:261,61:0.1894:144,117:33,28

GT：样品的基因型（genotype）。两个数字中间用’/‘分开，这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele； 1 表示样品中variant的allele； 2表示有第二个variant的allele。因此： 0/0 表示sample中该位点为纯合的，和ref一致； 0/1 表示sample中该位点为杂合的，有ref和variant两个基因型； ¹⁄₁ 表示sample中该位点为纯合的，和variant一致。 DP（Depth）为sample中该位点的测序深度。 AD(Allele Depth)为sample中每一种allele的reads覆盖度，以逗号分割。

bam/sam/cram

bam:sam文件的二进制压缩文件，可使用samtools工具查看。由于其运行速度快，所以常常使用bam而不是sam。(B取自binary) sam:SAM是一种序列比对格式标准，由sanger制定，是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示，当然也可以表示任意的多重比对结果。当测序得到的fastq文件map到基因组之后，我们通常会得到一个sam或者bam为扩展名的文件。SAM的全称是sequence alignment/map format。

详细可见

对上述网址，我记录我需要用又常忘记的，必须的字段有11个，顺序固定，不可自行改动，因为变异检测基本是靠这些列的信息。

QNAME，比对片段的（template）的编号；比较常用的叫法是queryname
FLAG，位标识，template mapping情况的数字表示，每一个数字代表一种比对情况，这里的值是符合情况的数字相加总和；
RNAME，参考序列的编号，如果注释中对SQ-SN进行了定义，这里必须和其保持一致，另外对于没有mapping上的序列，这里是’*‘；
POS，比对上的位置，注意是从1开始计数，没有比对上，此处为0；
MAPQ，mapping的质量;
CIGAR，简要比对信息表达式,
“M”表示 match或 mismatch；
“I”表示 insert；
“D”表示 deletion；
“N”表示 skipped（跳过这段区域）；
“S”表示 soft clipping（被剪切的序列存在于序列中）；
“H”表示 hard clipping（被剪切的序列不存在于序列中）；
“P”表示 padding；
“=”表示 match；
“X”表示 mismatch（错配，位置是一一对应的）；

CRAM:

fastq/fasta

faastq:一种存储了生物序列（通常是核酸序列）以及相应的质量评价的文本格式。

第一行@开头，接描述信息，4为flowcell第四个lane？1：N：0:后面是index?
第二行为序列信息，N代表A\T\G\C,即any,用处？
第三行为+开头，后面也可接描述信息
第四行为为第二行测序质量评价，字节数与第二行相等。Q=10*log10(p/(1-p))，其中p是对应碱基判定的概率。
如此循环下去。
其无损压缩为fastq.gz
fastq to fasta 命令行：
zcat input_file.fastq.gz | awk 'NR%4==1{printf ">%s\n", substr($0,2)}NR%4==2{print}' > output_file.fa
统计序列条数(reads)：
zcat *R1.fq.gz |grep '@'| wc –l或者zcat  *.fastq.gz | awk 'NR%4==2{c++} END{print c}'
或者pigz -dc input.fastq.gz | awk 'NR%4==2{c++} END{print c}'（速度快10倍）
GC含量及碱基数目：
perl -ne  'if($.%4){chomp;$count_G=$count_G+($_=~tr/G//);$count_C=$count_C+($_=~tr/C//);$cur_length=length($_);$total_length+=$cur_length;}END{print qq{total count is $total_length bp\nGC%:},($count_G+$count_C)/$total_length,qq{\n} }' input.fq

fasta:是一种基于文本用于表示核酸序列或多肽序列的格式。其中核酸或氨基酸均以单个字母来表示，且允许在序列前添加序列名及注释。统计序列数：grep -c '^>' *.fa或者seqkit stats t.fa -T | grep -v file | cut -f 4 GC含量统计：

bed

bed:通过规定行的内容来展示注释信息,以\t为分隔符。

# BED文件必须的3列:
1.chrom - 染色体号; 例如，chr1，chrX……
2.chromStart - feature在染色体上起始位置.染色体上第一个碱基位置标记为0。
3.chromEnd - feature在染色体上终止位置。染色体上前100个碱基片段的位置位置标记为：chromStart=0, chromEnd=100。 实际上，第101个碱基不属于当前片段中，当前片段的碱基应该是0-99。所以在BED文件中，起始位置从0开始，终止位置从1开始。
# BED文件可选的9列:
4.name - BED行名
5.score - 在基因组浏览器中显示的灰度设定，值介于0-1000；
gray score
6.strand - 正负链标记. Either "." (=no strand) or "+" or "-".
7.thickStart - feature起始位置(for example, the start codon in gene displays)
8.thickEnd - feature编码终止位置 (for example the stop codon in gene displays)
9.itemRgb - R,G,B (e.g. 255,0,0)值，当itemRgb 设置为 "On"，BED的行会显示颜色.
10.blockCount - blocks (exons)数目.
11.blockSizes - blocks (exons)大小列表，逗号分隔，对应于blockCount.
12.blockStarts -blocks (exons)起始位置列表，逗号分隔，对应于blockCount.；这个起始位置是与chromStart的一个相对位置。

其他名词

variant:突变体 call,calling:识别 transcript variant 是可变剪接体，是由DNA转录得到的,mRNA包含若干外显子,经过剪接组合成不同长度的mRNA,翻译成不同长度蛋白质.这种由同一基因不同外显子组成的序列称可变剪接体，不同可变剪接体表达的蛋白作用可能相近也可能相反。

Chr:  变异所在的染色体
Start: 变异在染色体的起始位置
End:  变异在染色体的终止位置
Ref:  基因组的参考序列
Alt:  检测样本的基因组序列
Func.refGene:  变异所处参考基团的功能区（exonic,intronic,UTR3,UTR5,splicing,upstream,downstream,intergenic）此处的exonic特指外显子编码氨基酸区，不包含外显子的UTR区
Gene.refGene:  变异所处参考基因名称（如果是基因间，则是两侧的基因）
GeneDetail.refGene：  非外显子区处于特定转录本中的具体位置（如果是基因间，则是距离两侧的基因的距离）
ExonicFunc.refGene：  外显子的变异类型（frameshift insertion/frameshiftdeletion/stopgain/stoploss/nonframeshift insertion/nonframeshiftdeletion/synonymous SNV/nonsynonymous SNV）或者”.”则说明该变异不在外显子区
AAChange.refGene：氨基酸水平的改变（同一个基因可能具有多个转录本，氨基酸改变的位置在不同的转录本中可能不一样）
avsnp150：dbsnp150 缩写，具有等位基因分裂和左标准化
1000g2015aug_eas：1000个基因组项目数据集，其中东亚群体的等位基因频率
gnomAD_exome_ALL：该变异在gnomAD数据库中的多个群体的全外显子组序列数据（频率）
gnomAD_exome_EAS：该变异在gnomAD数据库中的东亚的多个群体的全外显子组序列数据（频率)
het：杂合；hom: 纯合；Pathogenic: 致病的;