23andme、gsa、wegene各染色体位点统计

---
shell还没入门,确切的说是还没学,用python3写了个小脚本统计23andme、gsa、wegene各染色体位点.
代码如下:
23andme:

chromesomeset = set()
snp = {}
for x in range(1,24):
	snp[str(x)] = 0
snp[‘X‘] = 0
snp[‘Y‘] = 0
snp[‘MT‘] = 0
print(snp)
chromesome = ‘‘
inf = open(‘genome_jun_v3_Full_201608225359.txt‘)
for line in inf:
	if line.startswith(‘r‘):
		#snp_name = line.strip().split(‘\t‘)[0]
		chromesome = line.strip().split(‘\t‘)[1]
		chromesomeset.add(chromesome)
		snp[chromesome] += 1
		#print(chromesome)
		#print(snp[%s % str(chromesome)])

sorted(snp.keys())
for chromesome in chromesomeset:
	print(chromesome, ‘\t‘, snp[chromesome])

gsa的同上,稍做一两处调整。
wegene的没有源数据,找的生信菜鸟团jimmy的shell

cut -f 2 jimmy_wegene.txt | unique -c |grep -v "^#" 

# 结果分析

从图中可以看出,毕竟23andme是最早做的,位点最多,但是,现在来讲,大约也就上千个点可以被解读,所以意义不大。但是,国内公司的还是引入了中国人的特征位点的,更具有人群优势,适合国人的基因检测,现阶段,大概也就这样了,不知何时可以每个人做全外或全基因检测。

时间: 2024-11-06 07:16:12

23andme、gsa、wegene各染色体位点统计的相关文章

N-gram统计语言模型(总结)

N-gram统计语言模型 1.统计语言模型 自然语言从它产生開始,逐渐演变成一种上下文相关的信息表达和传递的方式.因此让计算机处理自然语言.一个主要的问题就是为自然语言这样的上下文相关特性建立数学模型. 这个数学模型就是自然语言处理中常说的统计语言模型,它是今天全部自然语言处理的基础,而且广泛应用与机器翻译.语音识别.印刷体和手写体识别.拼写纠错.汉字输入和文献查询. 2.N-Gram N-Gram是大词汇连续语音识别中经常使用的一种语言模型.对中文而言,我们称之为汉语语言模型(CLM, Chi

英文词频统计预备 组合数据类型练习

1.实例: 下载一首英文的歌词或文章,将所有,.?!等替换为空格,将所有大写转换为小写,统计某几个单词出现的次数,分隔出一个一个的单词. big='''OoohOooh Put your make-up onGet your nails doneCurl your hairRun the extra mileKeep it slim so they like you, do they like you? Get your sexy onDon't be shy, girlTake it offT

ZJOI 2008 树的统计

ZJOI2008 树的统计 题目描述 一棵树上有n个节点,编号分别为1到n,每个节点都有一个权值w. 我们将以下面的形式来要求你对这棵树完成一些操作: I. CHANGE u t : 把结点u的权值改为t II. QMAX u v: 询问从点u到点v的路径上的节点的最大权值 III. QSUM u v: 询问从点u到点v的路径上的节点的权值和 注意:从点u到点v的路径上的节点包括u和v本身 输入输出格式 输入格式: 输入文件的第一行为一个整数n,表示节点的个数. 接下来n – 1行,每行2个整数

python双色球号码最大连开统计

q1:双色球红球33个里面任意选1个共33个,看哪个号最近连开的最久统计出来 双色球往期记录ssq.txt ===================== 2017093 7 7 9 15 22 27 122017092 7 7 19 29 32 33 92017091 5 5 10 23 28 29 32017090 1 7 10 16 22 33 92017089 11 12 13 16 23 25 122017088 5 5 18 22 23 29 62017087 7 7 13 14 19

栅格重分类和条件函数均可以实现对流量统计数据进行定义划分

ArcGIS水分分析工具的流向分析是基于D8单流向算法,如果分析使用的DEM存在凹陷点,就会产生汇,导致径流断流从而影响了分析结果.在前面章节<ArcGIS水文分析实战教程(2)ArcGIS水文分析工具的基本原理>中又介绍过D8算法,而<ArcGIS水文分析实战教程(4)地形预处理>章节中笔者也较少过如何创建无凹陷点得DEM数据,在使用流向分析工具之前可以先行阅读. 首先流向分析要使用填洼过的数据,确保DEM数据没有凹陷点.如果数据准备妥当,直接使用水文分析工具箱中的[流向]工具进

Android应用流量统计——NetworkStatsManager使用

在没有Root的情况下,Android应用流量统计在6.0之前一直没有太好的办法,官方虽然提供了TrafficStats,但其主要功能是设备启动以来流量的统计信息,和时间信息无法很好的配合.最近再看TrafficStats类时,发现说明中提到,为获取更具鲁棒性的网络历史数据,建议使用NetworkStatsManager. 本文首先简单对比下TrafficStats和NetworkStatsManager各自的限制和优缺点,然后详细说明NetworkStatsManager的用法,并给出主要代码

【统计学习】随机梯度下降法求解感知机模型

1. 感知机学习模型 感知机是一个二分类的线性分类问题,求解是使误分类点到超平面距离总和的损失函数最小化问题.采用的是随机梯度下降法,首先任意选取一个超平面w0和b0,然后用梯度下降法不断地极小化目标损失函数,极小化过程中不是一次使所有误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降.假设误分类点集合M是固定的,那么损失函数L(w,b)的梯度: 随机选取一个误分类点,对w和b进行更新: 其中n是步长,又称为学习率(learning rate),这样通过迭代可以使损失函数L(w,b)不

BZOJ 3992 【SDOI2015】 序列统计

题目链接:序列统计 我来复习板子了--这道题也是我写的第一发求原根啊? 求原根方法: 从小到大依次枚举原根.设当前枚举的原根为\(x\),模数为\(p\),\(p-1\)的质因数分别为\(p_1,p_2,\dots,p_m\),则只需检验\(x^{\frac{p}{p_i}}\equiv1 \pmod{p}\)是否成立即可.如果成立则\(x\)不是原根. 然后这道题朴素\(dp\)就不讲了.设\(m\)的原根为\(g\),那么把每个数表示成\(g^k\)的形式就可以乘法变加法了,就成为了\(NT

Python统计列表中的重复项出现的次数的方法

前言 在实际工作和学习中,经常会遇到很多重复的数据,但是我们又必须进行统计,所及这里简单介绍一下统计列表中重复项的出现次数的简单方法. 实例 本文实例展示了Python统计列表中的重复项出现的次数的方法,是一个很实用的功能,适合Python初学者学习借鉴.具体方法如下: #方法1: mylist = [1,2,2,2,2,3,3,3,4,4,4,4] myset = set(mylist)  #myset是另外一个列表,里面的内容是mylist里面的无重复 项 for item in myset