病毒侵袭
Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)
Total Submission(s): 7480 Accepted Submission(s): 1972
Problem Description
当太阳的光辉逐渐被月亮遮蔽,世界失去了光明,大地迎来最黑暗的时刻。。。。在这样的时刻,人们却异常兴奋——我们能在有生之年看到500年一遇的世界奇观,那是多么幸福的事儿啊~~
但网路上总有那么些网站,开始借着民众的好奇心,打着介绍日食的旗号,大肆传播病毒。小t不幸成为受害者之一。小t如此生气,他决定要把世界上所有带病毒的网站都找出来。当然,谁都知道这是不可能的。小t却执意要完成这不能的任务,他说:“子子孙孙无穷匮也!”(愚公后继有人了)。
万事开头难,小t收集了好多病毒的特征码,又收集了一批诡异网站的源码,他想知道这些网站中哪些是有病毒的,又是带了怎样的病毒呢?顺便还想知道他到底收集了多少带病毒的网站。这时候他却不知道何从下手了。所以想请大家帮帮忙。小t又是个急性子哦,所以解决问题越快越好哦~~
但网路上总有那么些网站,开始借着民众的好奇心,打着介绍日食的旗号,大肆传播病毒。小t不幸成为受害者之一。小t如此生气,他决定要把世界上所有带病毒的网站都找出来。当然,谁都知道这是不可能的。小t却执意要完成这不能的任务,他说:“子子孙孙无穷匮也!”(愚公后继有人了)。
万事开头难,小t收集了好多病毒的特征码,又收集了一批诡异网站的源码,他想知道这些网站中哪些是有病毒的,又是带了怎样的病毒呢?顺便还想知道他到底收集了多少带病毒的网站。这时候他却不知道何从下手了。所以想请大家帮帮忙。小t又是个急性子哦,所以解决问题越快越好哦~~
Input
第一行,一个整数N(1<=N<=500),表示病毒特征码的个数。
接下来N行,每行表示一个病毒特征码,特征码字符串长度在20—200之间。
每个病毒都有一个编号,依此为1—N。
不同编号的病毒特征码不会相同。
在这之后一行,有一个整数M(1<=M<=1000),表示网站数。
接下来M行,每行表示一个网站源码,源码字符串长度在7000—10000之间。
每个网站都有一个编号,依此为1—M。
以上字符串中字符都是ASCII码可见字符(不包括回车)。
接下来N行,每行表示一个病毒特征码,特征码字符串长度在20—200之间。
每个病毒都有一个编号,依此为1—N。
不同编号的病毒特征码不会相同。
在这之后一行,有一个整数M(1<=M<=1000),表示网站数。
接下来M行,每行表示一个网站源码,源码字符串长度在7000—10000之间。
每个网站都有一个编号,依此为1—M。
以上字符串中字符都是ASCII码可见字符(不包括回车)。
Output
依次按如下格式输出按网站编号从小到大输出,带病毒的网站编号和包含病毒编号,每行一个含毒网站信息。
web 网站编号: 病毒编号 病毒编号 …
冒号后有一个空格,病毒编号按从小到大排列,两个病毒编号之间用一个空格隔开,如果一个网站包含病毒,病毒数不会超过3个。
最后一行输出统计信息,如下格式
total: 带病毒网站数
冒号后有一个空格。
web 网站编号: 病毒编号 病毒编号 …
冒号后有一个空格,病毒编号按从小到大排列,两个病毒编号之间用一个空格隔开,如果一个网站包含病毒,病毒数不会超过3个。
最后一行输出统计信息,如下格式
total: 带病毒网站数
冒号后有一个空格。
Sample Input
3 aaa bbb ccc 2 aaabbbccc bbaacc
Sample Output
web 1: 1 2 3 total: 1
Source
Recommend
gaojie
这个题目的测试数据不怎么好,有些测试数据用我先前的代码测试是不通过的,但是提交上去显示通过
这个题目刚拿到手就很明显的AC自动机的题目了,其实AC自动机看起来比较复杂,其实确实比较复杂,涉及到这个算法就百来行
因为AC 自动机涉及KMP算法思想,trie树结构,BFS搜索,而这几个每个都是一个单独的一个知识点,所以如果懂了前面三种算法
而不懂AC自动机就有点可惜了!
这个题目比较简单,单纯的AC自动机的题目
KMP在匹配过程中反应的是模式串内的关系,而AC 自动机反应的是串间的关系 KMP再此不多说了
AC自动机的核心是建立fail指针,一个位置的fail值是一直向父亲节点的fail走,直到这个节点的next[i]不为空,就让fail指针指向这个节点
BFS建立一遍,这个和KMP一样,KMP是利用前面建立好的next值建立后面的next值,AC自动机是利用层次低的fail值来建立层次高的节点
的fail值
KMP是当前节点之前的一个串的最长后缀和该串前缀相等
AC自动机是不同串的这种关系!
最后的匹配过程其实理解起来不难
按照匹配思想,为了防止漏配,成功也到fail失败也到fail,因为成功匹配之后只能保证目前这个串最长的部分匹配了
可能还有某个后缀串没有匹配,因此用一个循环来实现
每次匹配失败返回fail指向的节点这个不用说了,就类似KMP思想了!
#include <stdio.h> #include <string.h> #include <iostream> #include <algorithm> #include <queue> using namespace std; int ans[100]; int pos; char virtus[20000]; struct node { node *next[128]; int num; node *fail; node() { memset(next,0,sizeof(next)); fail=NULL; num=0; } }re_root; queue<node*> q; int global_num; int insert_trie(node *root,char *name) { if(name[0]==0) { root->num=global_num; return 0; } if(root->next[name[0]]!=NULL) insert_trie(root->next[name[0]],name+1); else { root->next[name[0]]=new node(); insert_trie(root->next[name[0]],name+1); } return 0; } int build_fail(node *root) { root->fail=NULL; int i; for(i=0;i<128;i++) if(root->next[i]!=NULL) { root->next[i]->fail=root; q.push(root->next[i]); } node *temp; node *rec; while(!q.empty()) { temp=q.front(); q.pop(); for(i=0;i<128;i++) if(temp->next[i]) { rec=temp->fail; while(rec!=NULL) { if(rec->next[i]!=NULL) { temp->next[i]->fail=rec->next[i]; break; } else rec=rec->fail; } if(rec==NULL) temp->next[i]->fail=root; q.push(temp->next[i]); } } return 0; } int query(node *root,char *name) { int i=0,j,k; node *temp=root,*p,*p1; while(name[i]) { while(temp!=NULL && temp->next[name[i]]==NULL) temp=temp->fail; if(temp!=NULL) temp=temp->next[name[i]]; else { temp=root; i++; continue; } temp=(temp==NULL ? root : temp); p=temp; while(p!=root && p->num > 0) { ans[pos++]=p->num; p=p->fail; } i++; } return 0; } int main() { int n,m; int i,j,k=0; while(scanf("%d",&n)!=EOF) { pos=0; k=0; for(i=0;i<n;i++) { scanf("%s",virtus); global_num=i+1; insert_trie(&re_root,virtus); } build_fail(&re_root); scanf("%d",&m); for(i=0;i<m;i++) { pos=0; scanf("%s",virtus); query(&re_root,virtus); if(pos>0) { printf("web %d: ",i+1); k++; sort(ans,ans+pos); printf("%d",ans[0]); for(j=1;j<pos;j++) printf(" %d",ans[j]); printf("\n"); } } printf("total: %d\n",k); } return 0; }