转 爬虫的定向爬取与垂直搜索
定向爬虫是网络爬虫的一种。
定向爬虫
定向爬虫可以精准的获取目标站点信息。
定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。
优势:
基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。
劣势:
目标网站难以大面积覆盖,因为基于模版匹配的信息提取技术,需要人工的参与配置模版,欲要大面积覆盖各个目标网站,需要大量的人力成本,同样维护模板也需要很大的人力成本。
也就是说定向爬取就是我们要针对不同的网页构建不同的网页模板,比如针对BBS就要构建与BBS相同的网页模板,让爬虫定向的搜集某个网页块内的信息。对于问答网站就更是如此了。问答网站,一般都有提问块和回答块,如果我们能够建立模板专门的爬取这两个块,无疑将会在效率和准确度上更上一层楼。
垂直搜索
垂直搜索是针对某一方面的定向搜索,比如汽车、房子、衣物等等方面的单方面搜索,相对于一般搜索引擎的广度搜索,更专业性。而我们要做的项目是关于计算机方面知识的问答网站,只需要搜索爬取相应方面的知识就够了。应该说我们是一个基于深度的搜索。老师也给了我们一些高校的教学资源网站,我们只要能够将这些网站上的所有链接深度爬取,应该也能够获取大量专业性的资源。
参考资料:http://www.zhihu.com/question/19651413
http://geek87.iteye.com/blog/382450
时间: 2024-10-25 03:36:47