编程之美--最短摘要的生成

来源:互联网 发布:淘宝开店 虚拟商品 编辑:程序博客网 时间:2024/04/18 09:17
package structure;import java.util.Arrays;import java.util.HashMap;import java.util.Map;/** *  * 最短摘要的生成: 给定一段产品的英文描述,包含M个英文字母,每个英文单词以空格分隔,无其他标点符号;再给定N个英文单词关键字, * 请说明思路并编程实现方法String extractSummary(String description,String[] key words), * 目标是找出此产品描述中包含N个关键字(每个关键词至少出现一次)的长度最短的子串,作为产品简介输出 * 思路:在w1,w2,q1,w3,w4,w5,q2,w6,w7,q1,w8,w9,w10 找出最包含关键字最短的信息,关键字为 q1,q2 * 方法1就是从目标中第一个开始查找,与关键字的第一个进行匹配,如果成功则两者都后移,否则将目标后移,如果全部匹配后给最短的那个比较,然后更新 */public class ShortestSummary {    String[] text; // = "hello world tst sepring sun flower hello";    String[] keywords;// = { "hello", "world" };    Map<String, Integer> map = new HashMap<String, Integer>();    int[] count;    public ShortestSummary(String[] text, String[] keywords) {this.text = text;this.keywords = keywords;count = new int[keywords.length];for (int i = 0, len = keywords.length; i < len; i++)    map.put(keywords[i], i);    }    /**     * 此方法是遍历 每个 text[]进行扫描,以每个为起点,直接包含所以的关键字为结点,进行所有的比较,取最小的     * 上面的方法进行多次无用的比较,如: text[] = {a a a b c d a} key {b d }     * 我们在第一次找的包含的为:(从第一个元素开始){a a a b c d }长度为  6     *  进行第二次查找包含为(从第二个元素开始){a a b c d }   长度为5      *  进行第三次查找(从第三个元素开始) {a b c d }   长度为4      *  进行第四次查找(从第四个元素开始){b c d }   长度为3      *  前三次查找的第几个字符都不在关键字之内,我们可以不对其进行查找     *  如果我们第一次找到了全部包含关键字的序列,如果 {a a a b c d},from 为第一个字符,to 为最后一个,from-to包含所有关键字,我们知道,如果 from 指向的不为关键字,     *  那么 [from+1 ,to] 一定比 [from,to] 要短,而且包含所有关键字,如果 from包含为关键字,[from+1,to] 则不包含所有的关键字,我们就向后移动to 的值,直接到找包含所有     *  那么再拿现在的 from,to 与最小的值比较,直接找到最小的那一个      */   /*+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++分割线++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++=*/    public void execute() {int start = 0, len = text.length, min = len;for (int i = 0; i < len; i++) {    int t = exec(i, len - 1);    if (t > -1)if (min > t) {    min = t;    start = i;}}for (int i = start; i <= start + min; i++)    System.out.print(text[i] + " ");    }    private int exec(int from, int to) {count = new int[keywords.length];int start = from;while (from <= to && !isAllgeted()) {    Integer i = map.get(text[from]);    if (i != null) {count[i]++;    }    from++;}if (isAllgeted())    return from - start - 1;return -1;    }    private boolean isAllgeted() {for (int i = 0, len = count.length; i < len; i++)    if (count[i] == 0)return false;return true;    }    /*+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++分割线++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++=*/    // 第二种方法,相当于滑动窗口     void execute2(){int start = 0,end=0,min = text.length,len = text.length,targetStart = 0,targetEnd = len;while(true){    while(end<len && !isAllgeted()){Integer t  = map.get(text[end]);if(t !=null)    count[t]++;end++;    }//  包含所有,将小空间        while(isAllgeted() && start<=end){if(end-start<min){    min = end-start;    targetStart = start;    targetEnd = end;}Integer t = map.get(text[start]);if(t !=null)    count[t]--;start ++ ;    }   if(end>=len)break;  }for(int i=targetStart;i<targetEnd;i++)    System.out.print(text[i]+" ");    }    public static void main(String args[]) {String[] text = "hello software hello test world spring sun flower hello".split(" ");String[] keys = {"hello","world"};ShortestSummary s = new ShortestSummary(text, keys);s.execute2();    }}

原创粉丝点击