一个关于对比(参考基因组)的弱智错误

一个关于对比(参考基因组)的弱智错误

2018年10月25日 23:55:04 生信小白白 阅读数:19

在重复文章:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034中的工作时,用的是hisat2软件做比对,比对脚本如下:

for id in SRR35899{56,57,58,59,60,61,62};
do
echo "Processin sample ${id}"
hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/hg19/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/${id}.hisat.sam
done
  • 1
  • 2
  • 3
  • 4
  • 5

比对结果发现,除了SRR3589956,SRR3589957,SRR3589958三个样本比对率较好,其余样本的比对率极低,大大超出了正常范围,只有不到百分之十的比对率,如下图:

图中可以看出,SRR3589958的比对率达到97.12%,但SRR3589959的比对率就只有8.37%,低得有点离谱,我检查了很多遍脚本,确定没错,然后又谷歌了比对率过低相关问题,也各有各的说法,并不能解决问题,最后无奈,去看了下原文,发现,原来参考基因组搞错了,只有前面三个样本是人类,后面的都是小鼠的,
真是弱智一般的错误:

解决办法:

然后,用小鼠的参考基因组索引比对了一下剩下的4个样本,59~62

for id in SRR35899{59,60,61,62};
do
echo "Processin sample ${id}"
hisat2 -p 4 -x /trainee/home/amliang/reference/hisat2/mm10/genome -1 /trainee/home/amliang/data/clean/${id}.sra_1_val_1.fq.gz -2 /trainee/home/amliang/data/clean/${id}.sra_2_val_2.fq.gz -S /trainee/home/amliang/data/align/align2/align3/${id}.hisat.sam
done
  • 1
  • 2
  • 3
  • 4
  • 5

发现,比对率正常!

所以,处理数据的前提是搞明白实验设计。

生信技能树

原文地址:https://www.cnblogs.com/wangprince2017/p/9939680.html

时间: 2024-08-02 23:22:50

一个关于对比(参考基因组)的弱智错误的相关文章

转录组入门(4):了解参考基因组及基因注释

任务列表 1.在UCSC下载hg19参考基因组: 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS,EGFR等等. 3.截图几个基因的IGV可视化结构 4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构 5.了解IGV常识 在UCSC下载hg19参考基因组 hg19.GRCH38. ensembl75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着

跑ssis分组差错:没有关联“”。假设无法找到一个特定的连接元件,Connections 这种错误发生的收集

跑ssis分组差错:没有关联"".假设无法找到一个特定的连接元件,Connections 这种错误发生的收集. 在网上搜了一下,解决方法: 打开SqlServer Configuration Manage右键单击"Sql Server Integration Services"选择"属性".将登录身份改动为"Local System(本地系统)",然后又一次启动该服务. 可是依照这种方法处理后,还是报相同的错误. 突然发现,这

2014秋C++第5周项目1参考-见识初学者常见错误

课程主页在http://blog.csdn.net/sxhelijian/article/details/39152703,实践要求见http://blog.csdn.net/sxhelijian/article/details/39493833. 课程资源在云学堂"贺老师课堂"同步展示,使用的帐号请到课程主页中查看. [项目1]下面是最经典和最简单的C++程序.在ideone.com中运行程序,并在能正确运行的程序基础上,"捣乱"制造些错误,对此进行观察.经验是从

easyui datebox范围设置日期对比参考 和easyui的datebox怎么禁止手动输入

今天的两个问题都是通过百度解决.百度大法好啊,没事多百度多谷歌,程序员自我学习之道! 首先,如何让easyui的开始日期在结束日期之前.有2个datebox,一个是开始日期,一个结束日期,结束日期要大于开始日期,那么需要自己写逻辑代码来实现,不能控制datebox的选择范围,只能重置. 代码: <script>        function onSelect(d) {        var issd = this.id == 'sd', sd = issd ? d : new Date($(

一个因xdata声明引起的隐含错误

我们知道一般增强型c51自身的RAM只有128BYTES,根本不够用,所以一般在定义全局变量,静态变量时都要用XDATA作为关键字修饰数据的的存储类型.但要注意的是,定义和声明一定要一致,不然出现错误很隐蔽,很难发现这个问题.拿我一个项目中的从外部SPI FLASH接口读出数据的教训来举例: 测试发现如果传递一个结构体变量的地址(或指针)就能得到结果,而实际的接收BUFF是一个结构体数组,不管我一什么方式引用其某个元素的首地址就是得不到结果,一直在纠结结构体数组和结构体变量调用的区别的泥淖里出不

关于Icon,Image,ImageIcon的简单的对比参考

Icon: Icon位于javax.swing包中,它是一个接口 public interface Icon,介绍为:一个小的固定大小的图片,通常用于装饰组件 有三个方法: int getIconHeight(); int getIconWidth(); void paintIcon(Component c,Graphics g,int x,int y); Icon木有用过,提到它是因为ImageIcon实现了Icon接口(ImageIcon还实现了Accessible,Serializable

XML和JSON的一个详细对比

1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. XML使用DTD(document type definition)文档类型定义来组织数据;格式统一,跨平台和语言,早已成为业界公认的标准.XML是标准通用标记语言 (SGML) 的子集,非常适合 Web 传输.XML 提供统一的方法来描述和交换独立于应用程序

弱智错误+小trick集合

这里就不区分错误和trick了 不定期更新 1.多维dp的时候一定要计算空间复杂度,必要时可以考虑滚动或者卡卡边界 2.dp的东西和匹配相关的时候,可以考虑将每组匹配拆开dp,即记录一维表示当前有多少个点已经被选作了匹配的一个点但是另一个点尚未确定 3.dp的东西意义有"连续\(m\)个至少有一个/不能有连续\(m\)个"的序列的时候,我们可以记录\(f_i\)表示长度为\(i\)的合法序列,同时从\(f_{i-1},f_{i-2},...,f_{i-m}\)转移 原文地址:https

c语言一个例子对比php学习随记

今天开始学写一些简单的C例子,发现很多和PHP不一样的地方,做个笔记. #include <stdio.h> int main(void) { int a,b; printf("请输入整数a"); //这里是用双引号,不能用单引号,PHP类似的地方可以用单引号,这里需注意 scanf("%d",&a); //获取用户输入值存入a printf("请输入整数b"); scanf("%d",&b);//