找出此产品描述中包含N个关键字的长度最短的子串

阿里巴巴笔试题:给定一段产品的英文描述,包含M个英文字母,每个英文单词以空格分隔,无其他标点符号;再给定N个英文关键词,请说明思路并变成实现方法。

String extractSummary(String description , String[] keyWords)

目标:找出此产品描述中包含N个关键字的长度最短的子串(20分)

W0 W1 W2 W3  Q0 W4 W5 Q1 W6 W7 W8 Q0 W9 Q1

P335 《编程之美》上的参考代码:

int nTarget = N + 1;

int pBegin = 0;

int pEnd = 0;

int nLen = N;

int nAbstractBegin = 0;

int nAbstractEnd = 0;

while(true)

{

while(!isAllExisted() && pEnd < nLen)

pEnd++;

while(isAllExisted())

{

if(pEnd - pBegin < nTargetLen)

{

nTarget = pEnd - pBegin;

nAbstractBegin = pBegin;

nAbstractEnd = pEnd - 1;

}

pBegin++;

}

if(pEnd >= N)

break;

}

1.将传入的keyWords[]生成哈希表,以便字符串比较 P337

struct keyWords{

int cnt;

char key[];

int hash;

}

2.struct keyWord{当前扫描到的一个关键词

int start;

KeyHash* key;

KeyWord* next;

KeyWord* prev;

}

3.全局变量

KeyWord* head;

KeyWord* tail;

int minLen;

int minStartPos;

int needKeyCnt;

4.扫描文章,每扫描到一个关键字时,就建立一个KeyWord,并连入双向链表中。

更新head,tail

对应KeyHash结构中的cnt+1

若cnt 0 - 1,则needKeyCnt - 1;

5.needKeyCnt = 0时,扫描到了全部关键字

链表头优化

若cnt大于1,说明摘要中还有相同;

跳过,cnt-1

直至某个链表头对应KeyHash中的cnt为1,此事该结构不能少了。

6.如果找到更短的minLength,更新minLength和minStartPos;

7.开始新一轮搜索

摘除链表第一个节点

needKeyCnt + 1;

下一节点 - 链表头,开始优化。

*搜索从上一次搜索结束处开始,不用回溯,一直沿文章向下。

7.实际意义:摘要应该包含完整的句子

struct Sentence

{

int start;

int end;

KeyWord* StartKey;

KeyWord* endKey;

Sentence* prev;

Sentence* next;

}

扫描到一个完整句子的结束

Sentence头结点优化

句子全部key的cnt-1;才去掉句子

更新HashKey

直至句子包含只出现一次的关键字

扩展问题:

如何判断两个页面相似。

时间: 2024-11-03 22:12:38

找出此产品描述中包含N个关键字的长度最短的子串的相关文章

高效的找出两个List中的不同元素

转自同名博文,未知真正出处,望作者见谅 如题:有List<String> list1和List<String> list2,两个集合各有上万个元素,怎样取出两个集合中不同的元素? 方法1:遍历两个集合: package com.czp.test; import java.util.ArrayList; import java.util.List; public class TestList { public static void main(String[] args) { Lis

找出n个字符串中出现次数最多的字符串。

1. 找出n个字符串中出现次数最多的字符串. C/C++: char* find(char **data,int n); Java: String find(String data[]); 说明: 1. data是字符串数组,n是数组中字符串的个数,返回值为出现次数最多的字符串. 2. 若结果有多个,返回任意一个即可 3. 不得使用任何库函数/API,如需使用类似功能, 请自行实现 4. 算法效率尽可能高,尽量少的使用内存空间 5. 必须要有代码注释和算法说明. 例如:data里面的数据是{“p

c语言:找出1到4000中,数字的各位数之和能被4整除的数有多少个?

找出1到4000中,数字的各位数之和能被4整除的数,如:745:7+4+5=16,16可以被4整除:28:2+8=10,10不能被4整除:745就是这样的特殊数字,而28不是,求:这样的数字共有多少个? 解: (1)对于4000,4+0+0+0=4,显然4000是满足条件的数字: (2)对于1到3999,我们把每个数字看成4位[][][][]的形式,第一位[]取0到3,后3位取[0][0][0]到[9][9][9],用sum表示4位数字的和: 2.1:若后3位为一个奇数,则第1位取1或3,必定可

找出N个数据中的最大的K个数据---堆排序

从N个数据中找出最大的K个数据,而且这里有一个限制:内存里存不下所有的N个数据,但是可以存下K个数据.这就让我们打消了用排序的方法来解的念头. 在这里我们使用堆排序来完成. 因为我们只能有K个数据那么大的空间,所以我们建一个K大的堆,将N的前K个数据插入到堆中,然后调整堆.(对于堆结构不了解的可以查看我微博  http://helloleex.blog.51cto.com/10728491/1768758) 对于最大的K个数据,我们要怎么找出来呢.我们首先要确定我们是要用大顶堆还是小顶堆.  用

找出两个字符串中最长的相同子字符串

//找出两个字符串中最长的相同子字符串 public class Stringdemo { public static void main(String[] args) { String str1 = new String("eeabcde"); String str2 = new String("bcdefabcabcdedegg"); byte[] char1 = str1.getBytes(); byte[] char2 = str2.getBytes();

c语言代码编程题汇总:找出三个数据中最大的数值

找出三个数据中最大的数值 程序代码如下: 1 /* 2 2017年3月9日12:04:37 3 功能:找出三个数据中最大的数值 4 */ 5 #include"stdio.h" 6 7 int fun(int,int,int); 8 9 int main() 10 { 11 int a ,b,c; 12 13 printf("please input three number: \n"); 14 15 scanf("%d %d %d",&

9.5位操作(三)——给定一个正整数,找出与其二进制表示中1的个数相同,且大小最接近的那两个数

/** * 功能:给定一个正整数,找出与其二进制表示中1的个数相同,且大小最接近的那两个数. * (一个略大一个略小.) */ 三种方法: 方法一:蛮力法 方法二:位操作法 <span style="white-space:pre"> </span>/** * 方法:位操作法 * 思路:获取后一个较大的数 * 1)计算c0和c1.c1是拖尾1的个数,c0是紧邻拖尾1的作坊一连串0的个数. * 2)将最右边.非拖尾0变为1,其位置为p=c1+c0. * 3)将位p

黑马程序员——找出两个字符串中最大的子串

找出两个字符串中最大的子串 </pre><pre name="code" class="java">public class StringMaxString { //找一个字符串的最大子串 public static void main(String[] args) { // TODO Auto-generated method stub String s1="qwerabcdtyuiop"; String s2=&quo

偶然看到的面试算法题_最短时间找出十包粉末中的两蓝粉末。

题目:有4个杯子,10包粉末,其中有2包溶于水变蓝,其余无色,粉末溶于水2min才能显现颜色.求找出两包蓝色粉末的最短时间.假设水和粉末用不完. 解:以下给出四种解法,标记10包粉末为(1,2 ... ) 杯子为[1,2,3,4]首先我想会不会是有某种算法,dp 二分..@[email protected]..没有,懵懵的. 法一:这是我最初想到的比较傻的方法 第一趟:[12,34,56,78] 每个杯子分别放两包加水融化,剩下两包不管.可能的情况: (1)0个杯子变色,说明剩下两包就是蓝粉末