原文:[猪猪-后端]WebMagic框架搭建的爬虫,根据自定义规则,直接抓取,使用灵活,Demo部署即可查看. 源代码下载地址:http://www.zuidaima.com/share/1581523414404096.htm 如果要使用注解方式实现,也是支持的. @TargetUrl("http://my.oschina.net/flashsword/blog/\\d+") public class OschinaBlog { @ExtractBy("//title&qu
一下是博主收藏的第一个WebMagic框架爬虫示例 推荐网站: http://webmagic.io/docs/zh/posts/ch4-basic-page-processor/pageprocessor.html public class GithubRepoPageProcessor implements PageProcessor { // 部分一:抓取网站的相关配置,包括编码.抓取间隔.重试次数等 private Site site = Site.me().setRetryTimes(