使用cnvkit来对大批量wes样本找cnv

使用cnvkit来对大批量wes样本找cnv

cnvkit被设计来处置同排列肿块的多对范本测序影响,率先,将尽量的精神健全的从科学实验中提取的价值停止结成,受理环境值。,因此环境值被用来处置尽量的的肿块测序从科学实验中提取的价值到c。。

因此软件的应用相当复杂。,提议研读官方网站总课程。尽量的命令都包装在一体python本子中,应用此本子转让到处Word命令,列举如下:

  • 官方网站追逐

  • Copy number calling pipeline

  • batch

  • target

  • access

  • antitarget

  • autobin

  • coverage

  • reference

  • fix

  • segment

  • call

每个命令都有自身的特别效能。,必要向外看研读。

流程图:

进程行为准则列举如下:

  1. cnvkit.py access baits.bed --fasta hg19.fa -o access.hg19.bed

  2. cnvkit.py autobin *.bam -t baits.bed -g access.hg19.bed [--annotate refFlat.txt --short-names]

  3. # For each 战利品。

  4. cnvkit.py coverage Sample.bam baits.target.bed -o Sample.targetcoverage.cnn

  5. cnvkit.py coverage Sample.bam baits.antitarget.bed -o Sample.antitargetcoverage.cnn

  6. # With all normal 战利品。

  7. cnvkit.py reference *Normal.{,anti}targetcoverage.cnn --fasta hg19.fa [--male-reference]-o my_reference.cnn

  8. # For each tumor 战利品。

  9. cnvkit.py fix Sample.targetcoverage.cnn Sample.antitargetcoverage.cnn my_reference.cnn -o Sample.cnr

  10. cnvkit.py segment Sample.cnr -o Sample.cns

  11. # Optionally, with --scatter and --diagram

  12. cnvkit.py scatter Sample.cnr -s Sample.cns -o Sample-scatter.pdf

  13. cnvkit.py diagram Sample.cnr -s Sample.cns [--male-reference]-o Sample-diagram.pdf

您可以指出软件预约的命令大部分地是被应用的。,coverage—>fix—>segment—>segment

在世界上,先前打包了大宗命令。一句命令,执意:

  1. cnvkit.py batch *.bam -r my_reference.cnn -p 8

因此句子命令相当于下面的多行行为准则,默许的爆发算法是 circular binary segmentation algorithm (哥伦比亚特区广播公司),也可以用 -m应用静止算法切换,比方: faster HaarSeg ( haar) 或吻合的 Lasso ( flasso)

我受理的无论方法爆发后果。,你也可以工具。:

  1. cnvkit.py call Sample.cns -o Sample.call.cns

  2. cnvkit.py call Sample.cns -y -m threshold -t=-1.1,-0.4,0.3,0.7-o Sample.call.cns

  3. cnvkit.py call Sample.cns -y -m clonal --purity 0.65-o Sample.call.cns

  4. cnvkit.py call Sample.cns -y -v Sample.vcf -m clonal --purity 0.7-o Sample.call.cns

此刻,咱们必要思索现其中间的一部分VCF破裂包装。,或计算肿块纯净,或倍性等。。从段计算的log2 比率值减至 0,1,2,3,4份硬拷贝。

又,确实,是你这么说的嘛!行为准则通常不克不及立即应用,因咱们的序列从科学实验中提取的价值通常是WES从科学实验中提取的价值。,必要添加很多参量。。

执行运转cnvkit

是你这么说的嘛!进程特别的复杂。,另外很多定货单。,但你不赚得也不妨。,它在世界上是一体批处置命令。,自然,批处置命令自身有很多参量。,它设计用于处置形形色色的的从科学实验中提取的价值影响。。

  1. # From baits and tumor/normal BAMs

  2. ## 同排列中尽量的范本N/T排序从科学实验中提取的价值的BAM包装一同运转

  3. cnvkit.py batch *Tumor.bam --normal *Normal.bam \

  4.    --targets my_baits.bed --annotate refFlat.txt \

  5.    --fasta hg19.fasta --access data/access-5kb-mappable.hg19.bed \

  6.    --output-reference my_reference.cnn --output-dir results/ \

  7.    --diagram --scatter

  8. ## 假使添加新的巨蟹宫测序从科学实验中提取的价值,只需运转以下命令

  9. # Reusing a reference for additional samples

  10. cnvkit.py batch *Tumor.bam -r Reference.cnn -d results/

  11. # Reusing targets and antitargets to build a new reference, but no analysis

  12. cnvkit.py batch -n *Normal.bam --output-reference new_reference.cnn \

  13.    -t my_targets.bed -a my_antitargets.bed --male-reference \

  14.    -f hg19.fasta -g data/access-5kb-mappable.hg19.bed

值当当心的是,假使是全染色体组测序从科学实验中提取的价值,用 batch --method wgs ,假使它赶上获染色体组测序,包含尽量的外显子,只应用batch --method amplicon ,和确保预约理应获奖的区域的合住包装,通常外显子增加上流和在下游方向的侧翼的50 bp。。

人类外显子的平衡大量为200 bp。,因而默许的bin是267 bp,这使得较长的外显子可以被讲解。。

那执意access参量所需的包装,

地基不可更改的受理cnv拔出该方法正文到对应区域的遗传因子这种大事,不在意的本文的范围内。。

输入和输入包装

覆盖率命令将应用于 normal 范本都计算 *.targetcoverage.cnn and *.antitargetcoverage.cnn files , 解说是: target and antitarget coverage tables美国有线电视新闻网)

这些包装必要合:

  1. cnvkit.py reference *coverage.cnn -f ucsc.hg19.fa -o Reference.cnn

和对区域测序吃水和GC实质停止检查。,和增大copy number ratios北卡罗来纳州) 包装。

  1. cnvkit.py fix Sample.targetcoverage.cnn Sample.antitargetcoverage.cnn Reference.cnn -o Sample.cnr

不可更改的现在copy number ratios北卡罗来纳州) 可以应用段算法运转包装。,输入CNS后缀包装 segment知识。

倾向于精神健全的范本,只必要CNN输入。,合成 Reference.cnn,和一体吵闹一体放肿块范本。,地基因此 Reference.cnn来计算 cnr,和计算 cns 。

不可更改的,倾向于CNS,可以转让以查找真正的复本数。 可以指出 CNS包装的实质列举如下,第4列是带正文的遗传因子。,因过于了,看微暗,我没给你看。。

  1. $ head  NPC_merge_marked_fixed.cns |cut -f 1-3,5,8

  2. chromosome    start   end log2    weight

  3. chr1    12098   1701806-0.183469   84.0794

  4. chr1    17029021752401-0.962192   4.87216

  5. chr1    175290112777601    -0.220165   370.756

  6. chr1    12778101    12920301    -1.11688    10.7699

  7. chr1    12920307    27407686    -0.275998   558.214

  8. chr1    27408186    125184087   -0.0447404  2418.53

  9. chr1    143185087   248945922   -0.0422629  2967.61

  10. chr2    10500   56929850.151978    85.3751

  11. chr2    569298590402011    -0.0329165  

下面的segment后果你也可以工具。,假使有必要的话。

目测后果:

cnvkit-1

很明显,咱们可以指出拷贝数交替的区域。。

cnvkit-2

这是原文中间的连结,暂时地不支持集中。

这是原文中间的连结,暂时地不支持集中。

这是原文中间的连结,暂时地不支持集中。

发表评论

电子邮件地址不会被公开。 必填项已用*标注