编程之美--最短摘要的生成
来源:互联网 发布:淘宝开店 虚拟商品 编辑:程序博客网 时间:2024/04/18 09:17
package structure;import java.util.Arrays;import java.util.HashMap;import java.util.Map;/** * * 最短摘要的生成: 给定一段产品的英文描述,包含M个英文字母,每个英文单词以空格分隔,无其他标点符号;再给定N个英文单词关键字, * 请说明思路并编程实现方法String extractSummary(String description,String[] key words), * 目标是找出此产品描述中包含N个关键字(每个关键词至少出现一次)的长度最短的子串,作为产品简介输出 * 思路:在w1,w2,q1,w3,w4,w5,q2,w6,w7,q1,w8,w9,w10 找出最包含关键字最短的信息,关键字为 q1,q2 * 方法1就是从目标中第一个开始查找,与关键字的第一个进行匹配,如果成功则两者都后移,否则将目标后移,如果全部匹配后给最短的那个比较,然后更新 */public class ShortestSummary { String[] text; // = "hello world tst sepring sun flower hello"; String[] keywords;// = { "hello", "world" }; Map<String, Integer> map = new HashMap<String, Integer>(); int[] count; public ShortestSummary(String[] text, String[] keywords) {this.text = text;this.keywords = keywords;count = new int[keywords.length];for (int i = 0, len = keywords.length; i < len; i++) map.put(keywords[i], i); } /** * 此方法是遍历 每个 text[]进行扫描,以每个为起点,直接包含所以的关键字为结点,进行所有的比较,取最小的 * 上面的方法进行多次无用的比较,如: text[] = {a a a b c d a} key {b d } * 我们在第一次找的包含的为:(从第一个元素开始){a a a b c d }长度为 6 * 进行第二次查找包含为(从第二个元素开始){a a b c d } 长度为5 * 进行第三次查找(从第三个元素开始) {a b c d } 长度为4 * 进行第四次查找(从第四个元素开始){b c d } 长度为3 * 前三次查找的第几个字符都不在关键字之内,我们可以不对其进行查找 * 如果我们第一次找到了全部包含关键字的序列,如果 {a a a b c d},from 为第一个字符,to 为最后一个,from-to包含所有关键字,我们知道,如果 from 指向的不为关键字, * 那么 [from+1 ,to] 一定比 [from,to] 要短,而且包含所有关键字,如果 from包含为关键字,[from+1,to] 则不包含所有的关键字,我们就向后移动to 的值,直接到找包含所有 * 那么再拿现在的 from,to 与最小的值比较,直接找到最小的那一个 */ /*+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++分割线++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++=*/ public void execute() {int start = 0, len = text.length, min = len;for (int i = 0; i < len; i++) { int t = exec(i, len - 1); if (t > -1)if (min > t) { min = t; start = i;}}for (int i = start; i <= start + min; i++) System.out.print(text[i] + " "); } private int exec(int from, int to) {count = new int[keywords.length];int start = from;while (from <= to && !isAllgeted()) { Integer i = map.get(text[from]); if (i != null) {count[i]++; } from++;}if (isAllgeted()) return from - start - 1;return -1; } private boolean isAllgeted() {for (int i = 0, len = count.length; i < len; i++) if (count[i] == 0)return false;return true; } /*+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++分割线++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++=*/ // 第二种方法,相当于滑动窗口 void execute2(){int start = 0,end=0,min = text.length,len = text.length,targetStart = 0,targetEnd = len;while(true){ while(end<len && !isAllgeted()){Integer t = map.get(text[end]);if(t !=null) count[t]++;end++; }// 包含所有,将小空间 while(isAllgeted() && start<=end){if(end-start<min){ min = end-start; targetStart = start; targetEnd = end;}Integer t = map.get(text[start]);if(t !=null) count[t]--;start ++ ; } if(end>=len)break; }for(int i=targetStart;i<targetEnd;i++) System.out.print(text[i]+" "); } public static void main(String args[]) {String[] text = "hello software hello test world spring sun flower hello".split(" ");String[] keys = {"hello","world"};ShortestSummary s = new ShortestSummary(text, keys);s.execute2(); }}