LeetCode——Repeated DNA Sequences

来源:互联网 发布:天谕捏脸萝莉数据 编辑:程序博客网 时间:2024/06/11 20:29

题目描述:

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

我的问题解答过程:

(为方便举例,将题目中的长度为10,改为长度为3)

最开始我采用的是暴利枚举方法,其过程如下:

即假设有字符串AATTGGAATTCCGG,先提取出前三个AAT,然后直接用indexOf函数在剩余的字符串中寻找是否仍然含有AAT,因时间复杂度过高,超时。

于是百思不得其解,百度之,得到了Hash方法,其hash值计算方法为:

因为只有ACGT四个字母,那么用2个bit即可以表示,即00,01,10,11即可。

于是乎,10个连续的字符的hash值计算方法为:

<span style="font-family: Arial, Helvetica, sans-serif;"><span style="white-space:pre"></span>int hash = 0;</span>
<span style="font-family: Arial, Helvetica, sans-serif;">for(int loc = 0; loc <= 9; ++loc)</span>
{hash = (hash << 2) + ACGT对应的数字}

在掌握了Hash计算方法之后,实现的第一个版本为:

即假设有字符串AATTGGAATTCCGG,然后暴力计算出此字符串中所有的连续三个数字的hash值,比如AAT的hash值为000011,ATT的hash值为001111,然后将所有的hash值依次加入到一个map(key:hash值,value:对应此hash值得连续10个字母的开始位置)中,如果有重复的,则加入到结果中。但是由于此种方法要计算所有连续10个字母的hash值,时间和空间的复杂度都较高,超时。

于是乎又重新拜读了了下大神的代码,发现有可改进之处,比如已经计算好了AAT,下一个连续三个的字符串是ATT,则只需要将AAT的hash值向左移动2位再加入T的hash码(11)即可。这样大大减少了Hash的计算时间以及空间消耗,ac

代码如下:

public class Solution {        public List<String> findRepeatedDnaSequences(String s) {                List<String> re = new LinkedList<String>();                //hash值,出现的次数(如果重复则变为负数)        Map<Integer,Integer> tenHash = new HashMap<Integer,Integer>();                Map<Character, Integer> cToi = new HashMap<Character, Integer>();        cToi.put('A',0);        cToi.put('C',1);        cToi.put('G',2);        cToi.put('T',3);                Integer key = 0;                if(null == s || s.length() < 10)        {            return re;        }                //产生初始的key        for(int i = 0; i <=9 ;++i)        {            key = (key << 2) + cToi.get(s.charAt(i));        }                //将初始key加入到列表中        tenHash.put(key, 1);                for(int loc = 10; loc <= s.length() - 1 ; ++loc)        {            key = ((key & 0x3ffff) << 2) | cToi.get(s.charAt(loc));                        //已经存在,且恰巧只出现过1次            if(true == tenHash.containsKey(key) && tenHash.get(key) == 1)            {                tenHash.put(key, 2);                re.add(s.substring(loc - 9, loc + 1));            }            else if(false == tenHash.containsKey(key))            {                tenHash.put(key, 1);            }        }                return re;    }}

算法原版思路出处:

http://blog.csdn.net/xudli/article/details/43666725

0 0
原创粉丝点击