初学网络爬虫,请多多指教
以下是我觉得有用的资源总结,资源均来自网上
编程语言:java
使用网络爬虫:spiderman
Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。
Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。
Spiderman开源中国链接(含文档及下载): http://www.oschina.net/p/spiderman
Spiderman Java 爬虫示例: http://my.oschina.net/laiweiwei/blog/99937
【最新更新支持频道分页、文章分页】【抛砖引玉】抓取OSC的问答数据展现垂直爬虫的能力 :http://my.oschina.net/laiweiwei/blog/100866
XPath JAVA用法总结及代码样例 :http://www.open-open.com/lib/view/open1397717612656.html
w3school XPath教程 : http://www.w3school.com.cn/xpath/index.asp
时间: 2024-11-06 17:47:15