一. 使用的开源库
爬虫:https://github.com/code4craft/webmagic.git
分词:https://github.com/ysc/word.git
本项目:https://github.com/umbrellary/beatles.git
二. 操作过程
- 进行编译
1 git clone https://github.com/umbrellary/beatles.git 2 cd beatles 3 make
- 运行爬虫爬取文章
1 cd build 2 java -jar -Xmx700m beatles-1.0.1-SNAPSHOT.jar getweb
- 进入H2数据库后台查看结果
1 http://pi‘ipaddress:8082 2 JDBC URL:jdbc:h2:./beatles-h2 3 username:sa 4 password:sa
- 进行分词操作
java -jar -Xmx700m beatles-1.0.1-SNAPSHOT.jar word 1 47000 1 47000 分别代表保存在数据库中的文章行的id,可自己自定义要计算的范围
时间: 2024-10-19 14:47:40