LeetCode——Repeated DNA Sequences

来源：互联网发布：天谕捏脸萝莉数据编辑：程序博客网时间：2024/06/11 20:29

题目描述：

All DNA is composed of a series of nucleotides abbreviated as A, C, G, and T, for example: "ACGAATTCCG". When studying DNA, it is sometimes useful to identify repeated sequences within the DNA.

Write a function to find all the 10-letter-long sequences (substrings) that occur more than once in a DNA molecule.

我的问题解答过程：

（为方便举例，将题目中的长度为10，改为长度为3）

最开始我采用的是暴利枚举方法，其过程如下：

即假设有字符串AATTGGAATTCCGG，先提取出前三个AAT，然后直接用indexOf函数在剩余的字符串中寻找是否仍然含有AAT，因时间复杂度过高，超时。

于是百思不得其解，百度之，得到了Hash方法，其hash值计算方法为：

因为只有ACGT四个字母，那么用2个bit即可以表示，即00,01,10,11即可。

于是乎，10个连续的字符的hash值计算方法为：

<span style="font-family: Arial, Helvetica, sans-serif;"><span style="white-space:pre"></span>int hash = 0;</span>

<span style="font-family: Arial, Helvetica, sans-serif;">for(int loc = 0; loc <= 9; ++loc)</span>

{hash = (hash << 2) + ACGT对应的数字}

在掌握了Hash计算方法之后，实现的第一个版本为：

即假设有字符串AATTGGAATTCCGG，然后暴力计算出此字符串中所有的连续三个数字的hash值，比如AAT的hash值为000011,ATT的hash值为001111，然后将所有的hash值依次加入到一个map(key：hash值，value：对应此hash值得连续10个字母的开始位置)中，如果有重复的，则加入到结果中。但是由于此种方法要计算所有连续10个字母的hash值，时间和空间的复杂度都较高，超时。

于是乎又重新拜读了了下大神的代码，发现有可改进之处，比如已经计算好了AAT，下一个连续三个的字符串是ATT，则只需要将AAT的hash值向左移动2位再加入T的hash码(11)即可。这样大大减少了Hash的计算时间以及空间消耗，ac

代码如下：

public class Solution {        public List<String> findRepeatedDnaSequences(String s) {                List<String> re = new LinkedList<String>();                //hash值,出现的次数（如果重复则变为负数）        Map<Integer,Integer> tenHash = new HashMap<Integer,Integer>();                Map<Character, Integer> cToi = new HashMap<Character, Integer>();        cToi.put('A',0);        cToi.put('C',1);        cToi.put('G',2);        cToi.put('T',3);                Integer key = 0;                if(null == s || s.length() < 10)        {            return re;        }                //产生初始的key        for(int i = 0; i <=9 ;++i)        {            key = (key << 2) + cToi.get(s.charAt(i));        }                //将初始key加入到列表中        tenHash.put(key, 1);                for(int loc = 10; loc <= s.length() - 1 ; ++loc)        {            key = ((key & 0x3ffff) << 2) | cToi.get(s.charAt(loc));                        //已经存在,且恰巧只出现过1次            if(true == tenHash.containsKey(key) && tenHash.get(key) == 1)            {                tenHash.put(key, 2);                re.add(s.substring(loc - 9, loc + 1));            }            else if(false == tenHash.containsKey(key))            {                tenHash.put(key, 1);            }        }                return re;    }}

算法原版思路出处：

http://blog.csdn.net/xudli/article/details/43666725

0 0