树莓派上使用webmagic抓取CSDN网站4万7千篇文章配合word分词库进行词频统计

一. 使用的开源库

爬虫:https://github.com/code4craft/webmagic.git

分词:https://github.com/ysc/word.git

本项目:https://github.com/umbrellary/beatles.git

二. 操作过程

  • 进行编译
1 git clone https://github.com/umbrellary/beatles.git
2 cd beatles
3 make
  • 运行爬虫爬取文章
1 cd build
2 java -jar -Xmx700m beatles-1.0.1-SNAPSHOT.jar getweb

  • 进入H2数据库后台查看结果
1 http://pi‘ipaddress:8082
2 JDBC URL:jdbc:h2:./beatles-h2
3 username:sa
4 password:sa

  • 进行分词操作
java -jar -Xmx700m beatles-1.0.1-SNAPSHOT.jar word 1 47000

1 47000 分别代表保存在数据库中的文章行的id,可自己自定义要计算的范围

时间: 2024-10-19 14:47:40

树莓派上使用webmagic抓取CSDN网站4万7千篇文章配合word分词库进行词频统计的相关文章

使用python抓取CSDN关注人的所有发布的文章

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import time def startParser(author,page=1): reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n

使用python抓取CSDN关注人的全部公布的文章

# -*- coding: utf-8 -*- """ @author: jiangfuqiang """ import re import urllib2 import cookielib import time def startParser(author,page=1): reg = r'<a href="/\w+/article/details/\d+">\s*\t*\n*\s*\t*\s*.*?\t*\n

Java爬虫实战(一):抓取一个网站上的全部链接

前言:写这篇文章之前,主要是我看了几篇类似的爬虫写法,有的是用的队列来写,感觉不是很直观,还有的只有一个请求然后进行页面解析,根本就没有自动爬起来这也叫爬虫?因此我结合自己的思路写了一下简单的爬虫,测试用例就是自动抓取我的博客网站(http://www.zifangsky.cn)的所有链接. 一 算法简介 程序在思路上采用了广度优先算法,对未遍历过的链接逐次发起GET请求,然后对返回来的页面用正则表达式进行解析,取出其中未被发现的新链接,加入集合中,待下一次循环时遍历. 具体实现上使用了Map<

BeautifulSoup抓取门户网站上的链接

使用BeautifulSoup抓取门户网站上的所有跳转链接 from bs4 import BeautifulSoup import urllib2 request = urllib2.Request('http://www.163.com') response = urllib2.urlopen(request) html_doc = response.read() soup = BeautifulSoup(html_doc , from_encoding = "gb18030")

快速抓取某个网站内容方法

是不是有人相抓取网页上面的内容,放到别的网站上面.下面我给大家介绍一种最常用的方法: 用HtmlAgilityPack 组件. public String GetHtml() { string url = "http://t.news.fx168.com/"; HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest; using (HttpWebResponse response = request.G

如何打造符合搜索引擎抓取的网站?

正如我上篇文章<如何提升企业网络的曝光率>,曾说过一个解决企业网络曝光率的方法:拥有一个适合搜索引擎的网站,那么,如何打造符合搜索引擎抓取的网站?我个人的理解应该从以下四个方面去考虑: 1.从网站的栏目而论,首页内容如何,是一个对于搜索引擎抓取十分重要的步骤.部分企业的网站为了追求美观.大气采用全Flash的首页.搜索引擎的技术无论如何的先进,毕竟也是由机器去实施.因此,它的抓取根本无法识别Flash,而我推荐大家使用博客中的轮展样式,通过轮展图可以使网站达到高端大气上档次的效果同时也具备利于

Python实现抓取CSDN热门文章列表

1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn热门文章列表 http://blog.csdn.net/hot.html 3.实现代码: __author__ = 'Administrator' import urllib.request import re from bs4 import BeautifulSoup ######################################################## # # 抓取csdn首页文

Python实现抓取CSDN首页文章列表

1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn首页文章列表 http://blog.csdn.net/ 3.实现代码: __author__ = 'Administrator' import urllib.request import re from bs4 import BeautifulSoup ######################################################## # # 抓取csdn首页文章http://

Python爬虫抓取csdn博客

昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中.这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异. 为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦. 由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使