实用的开源百度云分享爬虫项目yunshare - 安装篇

今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare

百度云分享爬虫项目

github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发

安装#

安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务

安装mysql和mongodb,mysql用来保存爬虫数据,mongodb用来保存最终的百度云分享数据,这些数据是json格式的,用mongodb保存更方便。

git clone https://github.com/callmelanmao/yunsharecnpm i

推荐使用cnpm命令安装npm依赖,最简单的安装方式

$ npm install -g cnpm --registry=https://registry.npm.taobao.org

更多安装cnpm的命令可以去npm.taobao.org上面找。

初始化#

爬虫数据(主要是url列表)都是保存在mysql数据库的,yunshare使用sequelizejs做orm映射,源文件在src/models/index.js,默认的mysql用户名和密码都是root,数据看是yun,你需要手动创建yun数据库

create database yun default charset utf8

密码根据自己需要进行修改,完成mysql配置之后就可以运行下面的命令

gulp babel
node dist/script/init.js

注意必须先运行gulp babel把es6代码编译成es5,然后运行初始化脚本导入初始数据,数据文件在data/hot.json,里面,是从页面 http://yun.baidu.com/pcloud/friend/gethotuserlist?type=1&from=feed&start=0&limit=24&bdstoken=ac95ef31d3979f6ee707ef75cee9f5c5&clienttype=0&web=1 保存下来的。

启动项目#

yunshare使用pm2进行nodejs进程管理,运行pm2 start process.json启动所有的后台任务,检查任务是否正常运行可以用命令pm2 list,正常运行的应该有4个任务。

启动elasticsearch索引#

elasticsearch索引程序也已经写好了,mapping文件在data/mapping.json,请确保你已经安装elasticsearch 5.0的版本之后才运行索引程序,命令pm2 start dist/elastic.js

默认的elasticsearch地址是http://localhost:9200,如果你需要修改这个地址,可以在src/ElasticWorker.js里面修改,修改任何js源码之后记得运行gulp babel,在重启pm2任务,不然修改是不会生效的。

在完成elasticsearch配置之后,你也可以在process.json里面添加一项elastic任务,这样就不需要单独启动索引程序了。

DEMO#

哔哩搜索

下一篇接着介绍整个项目的整体设计思路和开发过程中遇到的问题。

时间: 2024-11-10 01:39:00

实用的开源百度云分享爬虫项目yunshare - 安装篇的相关文章

开源百度云分享爬虫项目yunshare最新分享 - 安装篇

今天开源了一个百度云网盘爬虫项目,地址是https://github.com/callmelanmao/yunshare. 百度云分享爬虫项目 github上有好几个这样的开源项目,但是都只提供了爬虫部分,这个项目在爬虫的基础上还增加了保存数据,建立elasticsearch索引的模块,可以用在实际生产环境中,不过web模块还是需要自己开发 安装 安装node.js和pm2,node用来运行爬虫程序和索引程序,pm2用来管理node任务 安装mysql和mongodb,mysql用来保存爬虫数据

百度云分享工具 |百度云批量分享工具 |百度网盘批量分享工具

作者QQ:6458450下载地址:http://down.chinaz.com/soft/38271.htm 百度云分享工具是一款专门用于自动批量分享百度云文件的软件.大家都知道,在百度云盘中分享文件,只能手工一条条地点击"分享",如果想分享很多文件,操作会非常辛苦.本软件完全模拟在网页上登录百度云盘,模拟手工点击,将分享的"公共链接"或"私密链接"保存起来,供查询导出,极大地解放人工操作 ,提高工作效率. 本软件特点:1:完全模拟人工操作,不会

网易云课堂资源合集百度云分享

链接: https://pan.baidu.com/s/1zke9VoOhFy1myrs1m0F9Bg 提取码: gsas<手把手教你做产品>实战演练 百度云资源 免费分享 刘文智突破设计瓶颈[排版色彩字体全集] 百度云资源 免费分享 顾领中知识管理:科学搭建高效知识体系 百度云资源 免费分享 钱闯老师时间管理神器-OmniFocus for iOS 百度云资源 免费分享 知常学社零基础:21天搞定Python分布爬虫 百度云资源 免费分享 知了课堂新概念英语第一册 144课全 百度云资源 免

《大话设计模式》资源百度云分享

给大家分享一本特别好的书,只要耐下心去读,受益匪浅 下面是我的百度云链接分享 版本一:<大话设计模式>Java版PDF----文档版 链接: https://pan.baidu.com/s/1cuGiCm 密码: b3ck 版本二:<大话设计模式>Java版PDF----图书扫描版 链接: https://pan.baidu.com/s/1c2o64ne 密码: 2wp9 这两个都可以看,没有什么区别,只是第一个有些内容显示不是很正常,见谅

网易云课堂资源合集百度云分享 下载

2019康复职称考试[全套四门] 资源 百度云 康复教育网校Python-机器学习-进阶实战 资源 百度云 唐宇迪全民一起VBA提高篇(Excel数据处理) 资源 百度云 杨洋老师全网稀缺好课--徐sir的PS超神课 资源 百度云 PS东方站经济学人的动态图表与交互设计 资源 百度云 刘万祥ExcelPro19中级师康复医学治疗技术考试 资源 百度云 康复医学网校PS+AI+ID平面设计入门精通必修课 资源 百度云 顾领中Excel Power Query教程_数据整理 资源 百度云 Power

自定义百度云分享的提取码

具体实现步骤: 1.在浏览器中打开百度云盘: 2.选中需要分享的文件,然后点击分享按钮: 3.点击分享按钮后会弹出窗口框,按 F12 打开开发者工具,切换至控制台(Console),将以下代码复制粘贴到控制台,然后回车: javascript:require(["function-widget-1:share/util/service/createLinkShare.js"]). prototype.makePrivatePassword=function(){return promp

【已解决】百度云分享失败

来看这篇文章的一定都看到过[啊哦,你来晚了,分享的文件已经被取消了,下次要早点哟.] ---------------------------------------------------------------------------------------------------------这里我就把解决办法分享给大家. 看到图片了吗出现的是你来晚了对吧 链接是http://pan.baidu.com/share/link?shareid=1872032597&uk=3154191025 获

如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

来自 Scrapy 官方账号的推荐 需求分析 初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控制爬虫,感觉命令行操作太麻烦,希望能够通过浏览器直接部署和运行项目 专业用户: 有 N 台云主机,通过 Scrapy-Redis 构建分布式爬虫 希望集成身份认证 希望在页面上直观地查看所有云主机的运行状态 希望能够自由选择部分云主机,批量部署和运行爬虫项目,实现集群管理 希望自动执行日志分析,以及

巧妙解决百度云管家下载速度慢

经常从百度云盘下载东西的用户都知道,使用百度云盘下载文件超过2GB的就要必须要用百度云管家来下载了,更坑爹的是本来下载速度非常快的东西,用百度云管家下载速度就会变得比较慢,据说是百度云管家限速了,如遇到要下载比较大的文件,真的是要考验用户的耐心了.下面就介绍如何绕过百度云管家使用其他工具下载,以解决云管家下载慢的问题. 至于什么用以前的老版本不限速 纯属扯淡. 先登录自己的百度云盘:pan.baidu.com,然后进入要下载的资源的百度云分享下载页面,点击“保存至网盘”,将要下载的文件转存至自己