利用Needleman–Wunsch算法进行DNA序列全局比对

生物信息学原理作业第二弹：利用Needleman–Wunsch算法进行DNA序列全局比对。

具体原理：https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm。

贴上python代码：

 1 # -*- coding: utf-8 -*-
 2 """
 3 Created on Sat Nov 25 18:20:01 2017
 4
 5 @author: zxzhu
 6 后需修改：
 7 1.加命令行参数
 8 2.给出多种比对结果
 9 """
10
11 import numpy as np
12 import pandas as pd
13 sequence1 = ‘AACGTACTCA‘
14 sequence2 = ‘TCGTACTCA‘
15 s1 = ‘‘
16 s2 = ‘‘
17 gap = -4
18 score_matrix = pd.read_excel(‘score.xlsx‘)        #score matrix
19 best_matrix = np.empty(shape= (len(sequence2)+1,len(sequence1)+1),dtype = int)
20
21 def get_match_score(s1,s2):
22     score = score_matrix[s1][s2]
23     return score
24
25 for i in range(len(sequence2)+1):
26     for j in range(len(sequence1)+1):
27         if i == 0:
28             best_matrix[i][j] = gap * j
29
30         elif j == 0:
31             best_matrix[i][j] = gap *i
32         else:
33             match = get_match_score(sequence2[i-1],sequence1[j-1])
34             gap1_score = best_matrix[i-1][j]+gap
35             gap2_score = best_matrix[i][j-1]+gap
36             match_score = best_matrix[i-1][j-1]+match
37             best_matrix[i][j] = max(gap1_score,gap2_score,match_score)
38 print(best_matrix)
39 i,j = len(sequence2),len(sequence1)
40 while(i>0 or j>0):
41     match = get_match_score(sequence2[i-1],sequence1[j-1])
42     if i>0 and j>0 and best_matrix[i][j] == best_matrix[i-1][j-1]+match:
43         s1 += sequence1[j-1]
44         s2 += sequence2[i-1]
45         i-=1;j-=1
46     elif i>0 and best_matrix[i,j] == best_matrix[i-1,j]+gap:
47         s1+=‘-‘
48         s2+=sequence2[i-1]
49         i-=1
50     else:
51         s1+=sequence1[j-1]
52         s2+=‘-‘
53         j-=1
54 print(s1[::-1]+‘\n‘+s2[::-1])

后面会加入命令行。

多种结果这里只取了一种，这个问题有待解决。

如果有其他的方法我会及时添加。

时间： 2024-09-29 05:42:25

利用Needleman–Wunsch算法进行DNA序列全局比对的相关文章

文本比较算法：Needleman/Wunsch算法

本文介绍基于最长公共子序列的文本比较算法--Needleman/Wunsch算法.还是以实例说明:字符串A=kitten,字符串B=sitting那他们的最长公共子序列为ittn(注:最长公共子序列不需要连续出现,但一定是出现的顺序一致),最长公共子序列长度为4. 和LD算法类似,Needleman/Wunsch算法用的都是动态规划的思想,两者十分相似. 举例说明:A=GGATCGA,B=GAATTCAGTTA,计算LCS(A,B). 第一步:初始化动态转移矩阵 Needleman/Wunsch

文本比较算法Ⅱ——Needleman/Wunsch算法

在"文本比较算法Ⅰ--LD算法"中介绍了基于编辑距离的文本比较算法--LD算法. 本文介绍基于最长公共子串的文本比较算法--Needleman/Wunsch算法. 还是以实例说明:字符串A=kitten,字符串B=sitting 那他们的最长公共子串为ittn(注:最长公共子串不需要连续出现,但一定是出现的顺序一致),最长公共子串长度为4. 定义: LCS(A,B)表示字符串A和字符串B的最长公共子串的长度.很显然,LSC(A,B)=0表示两个字符串没有公共部分. Rev(A)表示反转

Needleman–Wunsch 算法的代码实现

# -*- coding: utf-8 -*- """ :Author: huangsh :Date: 19-7-28 下午19:17 :Description: 使用bidu Needleman–Wunsch 算法来计算两条序列的最大相似得分如果您对此算法不熟悉,可以去看看我写的一篇拙文:https://www.jianshu.com/p/002bbebcaaef """ from collections import namedtuple

利用python求一段DNA序列的互补序列

代码如下: 1 complement = {'A':'T','G':'C','C':'G','T':'A'} 2 rev_seq = '' 3 with open(r'D:\Rosalind\haha.txt','w+') as f1: 4 with open(r'D:\Rosalind\rosalind_revc.txt','r') as f: 5 dna_seq = f.read() 6 dna_seq = list(dna_seq.strip()) 7 for i in dna_seq:

利用Python【Orange】结合DNA序列进行人种预测

http://blog.csdn.net/jj12345jj198999/article/details/8951120 coursera上 web intelligence and big data 终于布置了HW7,这一次的要求是对一系列DNA序列进行预测,具体说明如下: Data Analytics Assignment (for HW7) Predict the Ethnicity of Individuals from their Genes =====================

DNA序列局部比对（Smith–Waterman algorithm）

生物信息原理作业第三弹:DNA序列局部比对,利用Smith–Waterman算法,python3.6代码实现. 实例以及原理均来自https://en.wikipedia.org/wiki/Smith%E2%80%93Waterman_algorithm. 1 import numpy as np 2 import pandas as pd 3 sequence1 = 'TGTTACGG' 4 sequence2 = 'GGTTGACTA' 5 s1 = '' 6 s2 = '' 7 gap =

环状DNA序列

大意: 一个DNA序列是环状的,这意味着有N个碱基的序列有N种表示方法(假设无重复).而这N个序列有一种最小的表示,这个最小表示的意思是这个序列的字典序最小(字典序的意思是在字典中的大小比如ABC<ACB,B<BCD,EF<G) 方法:在一个序列中从任意两个位置开始,产生的序列的大小是可以比较的.然后利用这种比较方法找出最小值 #include <iostream> using namespace std; #define MAX 105 int lessthan(char

隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率

隐马尔科夫模型HMM(一)HMM模型隐马尔科夫模型HMM(二)前向后向算法评估观察序列概率隐马尔科夫模型HMM(三)鲍姆-韦尔奇算法求解HMM参数(TODO) 隐马尔科夫模型HMM(四)维特比算法解码隐藏状态序列(TODO) 在隐马尔科夫模型HMM(一)HMM模型中,我们讲到了HMM模型的基础知识和HMM的三个基本问题,本篇我们就关注于HMM第一个基本问题的解决方法,即已知模型和观测序列,求观测序列出现的概率. 1. 回顾HMM问题一:求观测序列的概率首先我们回顾下HMM模型的问题一.这个

利用标准库算法求解排列组合

以前求序列的排列时,最常用的方法就是递归回溯,现在发现其实像这样有特定算法的重复性工作是可以在STL标准库中找到答案的. 在STL的变序性算法中,有两个用于排列元素的算法分别如下: bool next_permutation(Iterator beg,Iterator end) bool prev_permutation(Iterator beg,Iterator end) 这两个算法的功能也很简单,next_permutation()会改变区间(beg,end)内的元素次序,使它们符合"下一个