最短编辑距离变形----DNA对比问题
来源:互联网 发布:radius协议端口 编辑:程序博客网 时间:2024/06/14 18:42
最近做了做蓝桥杯软件大赛的题目,做到了一道需要用动态规划解决的问题。网上搜了一下,发现可参考的资源非常少。可能大牛们都没怎么听说过软件大赛吧,那就让我这棵弱菜写篇博客,介绍一下自己的思路吧!
更改说明:
声明:
由于我没有软件大赛的测试数据,所以只是测了一些自己想的数据,所以 不能保证算法的正确性,如有错误还望大家指正。另外,由于本人水平十分有限,博客写的可能很难看懂,并且也不严谨,还望大家见谅。
题目:
脱氧核糖核酸即常说的DNA,是一类带有遗传信息的生物大分子。它由4种主要的脱氧核苷酸(dAMP、dGMP、dCMT和dTMP)通过磷酸二酯键连接而成。这4种核苷酸可以分别记为:A、G、C、T。
DNA携带的遗传信息可以用形如:AGGTCGACTCCA.... 的串来表示。DNA在转录复制的过程中可能会发生随机的偏差,这才最终造就了生物的多样性。
为了简化问题,我们假设,DNA在复制的时候可能出现的偏差是(理论上,对每个碱基被复制时,都可能出现偏差):
1. 漏掉某个脱氧核苷酸。例如把 AGGT 复制成为:AGT
2. 错码,例如把 AGGT 复制成了:AGCT
3. 重码,例如把 AGGT 复制成了:AAGGT
如果某DNA串a,最少要经过 n 次出错,才能变为DNA串b,则称这两个DNA串的距离为 n。
例如:AGGTCATATTCC 与 CGGTCATATTC 的距离为 2
你的任务是:编写程序,找到两个DNA串的距离。
【输入、输出格式要求】
用户先输入整数n(n<100),表示接下来有2n行数据。
接下来输入的2n行每2行表示一组要比对的DNA。(每行数据长度<10000)
程序则输出n行,表示这n组DNA的距离。
例如:用户输入:
3
AGCTAAGGCCTT
AGCTAAGGCCT
AGCTAAGGCCTT
AGGCTAAGGCCTT
AGCTAAGGCCTT
AGCTTAAGGCTT
则程序应输出:
1
1
2
分析:
首先,看到这篇题目,如果之前有涉猎过ACM的话,应该很容易想到用动态规划来解决。如果你不知道动态规划是什么,还是建议你百度一下“动态规划”了解一下,这里不做介绍。
先做一些约定:
①、第一个DNA串表示为数组A[1...n],第二个DNA串表示为数组B[1...n]。
问题转化:
原问题相当于,给定两个数组A[1...n],B[1...m],要求的是B[1...m]变为A[1...n](通过增加一个字符,删除一个 字符,改变一个字符)至少需要多少步?
设计状态:
我们可以用定义一个二维数组dp[i][j]表示状态,dp[i][j]表示A[1...n]的子串A[1...i]和B[1....m]的子串B[1...j]的最短距离,即B[1...j]需要经过多少次操作(增、删、修改)可以变为A[1..i]。
状态转移方程:
有三种情况可以导致我们上面设计的状态会发生转移。我们现在来看A[i] 和 B[j] ,①、我们可以在B[j]后面插入一个核苷酸(即一个字符)ch,ch==A[i],这样做的话,至少需要dp[i - 1][j] + 1步操作,即dp[i][j] = dp[i - 1][j] + 1。②、我们可以删除B[j],这样的话,B[1...j] 变为A[1...i] 需要dp[i][j - 1]步,即dp[i][j] = dp[i][j - 1] + 1。③、我们也可以考虑修改B[j],使它变为A[j],但是如果B[j]本来就等于A[i]的话,那修改其实相当于用了0步,如果B[j] != A[i] 的话,那修改相当于用了1步。所以dp[i][j] = dp[i - 1][j - 1] + (A[i] == B[j] ? 0, 1)。
决策:
决策就很简单了,从上面三种状态转移中选择一个最小值就可以了。
处理边界:
代码:
#include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>#include<algorithm>using namespace std;const int maxn = 10100;int dp[maxn][maxn];char nw[maxn], old[maxn];int main(void){ freopen("f:\\code\\file\\data.txt", "r", stdin); int n; scanf("%d", &n); for(int i = 0; i < n; i ++) { scanf("%s%s", old, nw); int len1 = strlen(old); int len2 = strlen(nw); for(int j = 0; j <= len2; j ++) dp[j][0] = j; for(int j = 0; j <= len1; j ++) dp[0][j] = j; for(int j = 1; j <= len2; j ++)//new { for(int jj = 1; jj <= len1; jj ++)//old { if(old[jj] == nw[j]) { dp[j][jj] = min(min(dp[j][jj - 1] + 1/*delete*/, dp[j - 1][jj] + 1/*copy*/), dp[j -1][jj - 1] + (old[jj] != nw[j])); } else { // dp[j][jj] = dp[j - 1][jj - 1] + (old[jj] != nw[j]); dp[j][jj] = min(dp[j][jj - 1] + 1, dp[j - 1][jj - 1] + (old[jj] != nw[j])); } } } printf("%d\n", dp[len2][len1]); } return 0;}
参考:
- 最短编辑距离变形----DNA对比问题
- 动态规划-最短编辑距离变形----DNA对比问题
- 求两个DNA的距离-最短编辑距离变形
- 最短编辑距离问题 : Levenshtein Distance
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离
- 最短编辑距离算法
- HDU3356AGTC(最短编辑距离)
- C#生成Excel 2007文件并下载
- P2P端口映射 UPnP设置功能和使用详解
- 在字符串中删除特定的字符
- 使用伪彩色函数指定opengl颜色
- 在类中定义常量
- 最短编辑距离变形----DNA对比问题
- 开发Android硬件访问服务
- 六大开源监测工具 你用过哪个?
- 如何安装Win9x和WinNT双操作系统
- IPAD查看激活时间
- android应用程序跳转到系统的各个设置页面
- 第一次程序报告(例题)
- HTTP详解(1)-工作原理
- 将Fedora 18 LXDE安装到U盘和进入图形界面的方法