爬虫的定向爬取与垂直搜索

转爬虫的定向爬取与垂直搜索

定向爬虫是网络爬虫的一种。

　定向爬虫

　　定向爬虫可以精准的获取目标站点信息。

　定向爬虫获取信息，配上手工或者自动的模版进行信息匹配，将信息进行格式化分析存储。

优势：

　　基于模版的信息提取技术，能提供更加精准的信息。比如价格，房屋面积，时间，职位，公司名等等。

　劣势：

　　目标网站难以大面积覆盖，因为基于模版匹配的信息提取技术，需要人工的参与配置模版，欲要大面积覆盖各个目标网站，需要大量的人力成本，同样维护模板也需要很大的人力成本。

　　也就是说定向爬取就是我们要针对不同的网页构建不同的网页模板，比如针对BBS就要构建与BBS相同的网页模板，让爬虫定向的搜集某个网页块内的信息。对于问答网站就更是如此了。问答网站，一般都有提问块和回答块，如果我们能够建立模板专门的爬取这两个块，无疑将会在效率和准确度上更上一层楼。

垂直搜索

垂直搜索是针对某一方面的定向搜索，比如汽车、房子、衣物等等方面的单方面搜索，相对于一般搜索引擎的广度搜索，更专业性。而我们要做的项目是关于计算机方面知识的问答网站，只需要搜索爬取相应方面的知识就够了。应该说我们是一个基于深度的搜索。老师也给了我们一些高校的教学资源网站，我们只要能够将这些网站上的所有链接深度爬取，应该也能够获取大量专业性的资源。

参考资料：http://www.zhihu.com/question/19651413

http://geek87.iteye.com/blog/382450

时间： 2024-10-25 03:36:47

爬虫的定向爬取与垂直搜索

转爬虫的定向爬取与垂直搜索

爬虫的定向爬取与垂直搜索的相关文章

[python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

[python爬虫] Selenium定向爬取PubMed生物医学摘要信息

[python爬虫] Selenium定向爬取虎扑篮球海量精美图片

爬虫10-股票信息定向爬取

【实例】--股票数据定向爬取

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

教你分分钟学会用python爬虫框架Scrapy爬取你想要的内容

爬虫入门之爬取策略 XPath与bs4实现(五)

Python 爬虫入门之爬取妹子图

爬虫的定向爬取与垂直搜索

转 爬虫的定向爬取与垂直搜索

爬虫的定向爬取与垂直搜索的相关文章

转爬虫的定向爬取与垂直搜索