开源百度云分享爬虫项目yunshare最新分享 - 安装篇

今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare

百度云分享爬虫项目

github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发

安装

安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务

安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。

git clone https://github.com/callmelanmao/yunshare
cnpm i

推荐使用cnpm命令安装npm依赖,最简单的安装方式

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安装cnpm的命令可以去npm.taobao.org上面找。

初始化

爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默认的mysql用户名和密码都是root,数据看是yun,你需要手动创建yun数据库

create database yun default charset utf8

密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令

gulp babel
node dist/init.js

注意必须先运行gulp babel把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在data/hot.json,里面,是从页面 http://yun.baidu.com/pcloud/friend/gethotuserlist?type=1&from=feed&start=0&limit=24&bdstoken=ac95ef31d3979f6ee707ef75cee9f5c5&clienttype=0&web=1 保存下来的。

启动项目

yunshare使用pm2进行nodejs进程管理,运行pm2 start process.json启动所有的后台任务,检查任务是否正常运行可以用命令pm2 list,正常运行的应该有4个任务。

启动elasticsearch索引

elasticsearch索引程序也已经写好了,mapping文件在data/mapping.json,请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序,命令pm2 start dist/elastic.js

默认的elasticsearch地址是http://localhost:9200,如果你需要修改这个地址,可以在src/ElasticWorker.js里面修改,修改任何js源码之后记得运行gulp babel,在重启pm2任务,不然修改是不会生效的。

在完成elasticsearch配置之后,你也可以在process.json里面添加一项elastic任务,这样就不需要单独启动索引程序了。

DEMO

哔哩搜索

下一篇接着介绍整个项目的整体设计思路和开发过程中遇到的问题。

updated at 2020-02-07.

原文地址:https://blog.51cto.com/14684137/2469620

时间: 2024-07-28 20:10:39

开源百度云分享爬虫项目yunshare最新分享 - 安装篇的相关文章

实用的开源百度云分享爬虫项目yunshare - 安装篇

今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare. 百度云分享爬虫项目 github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发 安装# 安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务 安装mysql和mongodb,mysql用来保存爬虫数

百度云管家 v 5.5.0 破解安装版

12月7日亲测有效!用此破解版俺的百度云管家下载软件破纪录了 ,欢迎大家试试... 如下载速度慢的话,可以先暂停再开始. http://pan.baidu.com/s/1gffucan

百度云管家 V 5.4.5 破解安装版

声明:根据作者 虽如此却但是   制作的 补丁为参考打包而成,网上很少有安装版的哦!~ http://pan.baidu.com/s/1qX7IBve

如何上传项目到百度云,让你写的东西网址可以访问到

1首先安装小乌龟SVN(也可以用git)百度云里面有64位的直接安装就好(资源http://pan.baidu.com/s/1bDnOUa) 2百度搜索:百度云开发平台 第一个就是 3登录百度云(没账号自己注册) 4点击管理控制台进入主页 5点击基础版(首次使用点下面红笔里面的如果创建过就在上面红笔里面有记录) 6点击添加部署(部署即网址) 7模板照着选 8点击下一步 9点击确认 10返回部署 11部署里面就创建好了zhaoxiaowei1显示创建中3秒后刷新页面 12显示正常 13随便哪个地方

网易云课堂资源合集百度云分享 下载

2019康复职称考试[全套四门] 资源 百度云 康复教育网校Python-机器学习-进阶实战 资源 百度云 唐宇迪全民一起VBA提高篇(Excel数据处理) 资源 百度云 杨洋老师全网稀缺好课--徐sir的PS超神课 资源 百度云 PS东方站经济学人的动态图表与交互设计 资源 百度云 刘万祥ExcelPro19中级师康复医学治疗技术考试 资源 百度云 康复医学网校PS+AI+ID平面设计入门精通必修课 资源 百度云 顾领中Excel Power Query教程_数据整理 资源 百度云 Power

配置IDM不限速下载百度云的大文件

IDM介绍Internet Download Manager(简称IDM)是一个用于Windows系统的下载管理器,它是共享软件,免费试用期为30天,但是每月均有一段时间优惠. IDM可以让用户自动下载某些类型的文件,它可将文件划分为多个下载点以更快下载,并列出最近的下载,方便访问文件.相对于其它下载管理器,它具有独特的动态档案分区技术. IDM本身自带网页视频监视和音频监视功能,所以只要你的浏览器支持IDM的扩展连接就会自动下载. 如果嫌其频繁的过于弹出下载框,这时候的解决方法就是打开IDM,

Java企业级电商项目架构演进之路 Tomcat集群与Redis分布式百度云实战分享

muke慕课实战课程分享QQ313675301 新增课程: Java企业级电商项目架构演进之路 Tomcat集群与Redis分布式百度云实战分享 后端开发: 1.高级java软件架构师实战培训视频教程2.大型SpringMVC,Mybatis,Redis,Solr,Nginx,SSM分布式电商项目视频教程3.Spark Streaming实时流处理项目实战4.Java校招面试 Google面试官亲授5.Java开发企业级权限管理系统6.Java大牛 带你从0到上线开发企业级电商项目7.Java

分享百度云链接 Python 3网络爬虫开发实战 ,崔庆才著

分享百度云链接 Python 3网络爬虫开发实战 ,崔庆才著 百度云链接: https://pan.baidu.com/s/1cIB7etdwh8_eybTiatDbQQ 原文地址:http://blog.51cto.com/11018611/2326618

百度云 百度网盘超级会员账号SVIP账号 永久免费分享 附常见的不限速网盘工具

加入组织 说实在的,免费更新了将近一年了,起初是因为自己经常要下东西,所以顺便更新一下,没想到这么多人关注. 现在自己也有半年没用过网盘了,更新的也慢了,账号失效的也快了. 那么我本身也有弄淘宝京东优惠这方面的,大家可以进这个群,以后账号在群里更新.这样呢,更新起来也有动力. 说实话这种吃力不讨好还免费的东西确实挺难坚持的. 同样也不强迫大家必须加,情况就是这么个情况,群里会分享一些淘宝京东的bug,主要还是买东西比较优惠. 账号呢每天在群里5点半更新(也会更新其他各大平台账号 包括: 迅雷 腾