百度文库爬虫

FreeForWenku
免费下载百度文库收费资料,支持关键字搜索,以及url批量爬取。目前本项目仅对原项目的doc、txt爬取优化,其余的待完成优化。

项目地址:whxf/FreeForWenku

声明: 本项目fork 自 Lz1y/FreeForWenku。对原有项目进行优化,添加支持关键字搜索,url批量爬取,logger等功能

原文链接:https://blog.xixilili.cn/2019/05/23/百度文库爬虫/

原文地址:https://www.cnblogs.com/whxf/p/10911226.html

时间: 2024-08-01 01:04:56

百度文库爬虫的相关文章

Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友(主要是爬虫)

一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块 用pip安装命令是: pip install qqbot (前提需要有requests库) 实现自己的机器人:网上好几种写法,很简单,不过有时候环境不同会出现错误,下面是亲测可以运行的: from qqbot import QQBotSlot as qqbotslot, RunBot @qqbotslot def onQQMessage(bot, contact, member,

使用Selenium爬取百度文库word文章

转载请注明作者和出处: http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 前言 问题分析 预备知识 1 Selenium 11 简介 12 安装 13 基础知识 131 小试牛刀 132 模拟提交 133 元素选取 134 界面交互 135 添加User-Agent 2 Xpath 动手实战 1 页面切换 2 内容爬取 3 整体代码 总结 1 前言 大家都应该有过从百度文库下载

python+selenium爬取百度文库不能下载的word文档

有些时候我们需要用到百度文库的某些文章时,却发现需要会员才能下载,很难受,其实我们可以通过爬虫的方式来获取到我们所需要的文本. 工具:python3.7+selenium+任意一款编辑器 前期准备:可以正常使用的浏览器,这里推荐chrome,一个与浏览器同版本的驱动,这里提供一个下载驱动的链接https://chromedriver.storage.googleapis.com/77.0.3865.40/chromedriver_win32.zip 首先我们来看一下百度文库中这一篇文章https

仿百度文库、豆丁文档在线文档带全套工具

这个是非常棒的一套在线文档分享系统源码,仿百度文库.豆丁文档网站源码,在这里完全免费提供给大家学习.在这里无需任何币就可以下载到非常多的精品源码,如果觉得好站长资源做的不错,请帮忙推荐给更多的站长朋友,并且里面还有一个设置说明图.    此套源码非常干净的,不像现在很多所谓VIP源码论坛放大量的垃圾广告文件在里面,更没有在里面加入垃圾加密广告代码.    安装以下软件前,先要在本机装好OFFICE2007   net2.0以上    windows2003 系统   退掉杀毒软件切忌! 1:安装

让你的PDF像百度文库一样在线预览

上次写过一篇博客<巧用数据流让 Word 文档在线阅读>,其原理,主要就是把Word转成Html格式,然后通过数据流读取,并显示出来!发现一个问题,Word中有图片该怎么办?我们其实经常使用这样的工具,像豆丁网.百度文库等,他们是如何实现的呢? office文档在线预览大致有两种形式: 1)使用Microsoft的Office组件将文件直接转换为html文件(优点:代码实现最简单,工作强度最小.缺点:效果极差),也就是上篇博客的效果. 2)使用Microsoft的Office组件将文件转换为P

php 实现百度文库搭建

第一步:安装jodconverter,安装之后可以实现doc文档转成pdf. 文件下载地址为http://www.artofsolving.com/opensource/jodconverter 下载了之后直接解压,解压到/opt目录下/opt/jodconverter-2.2.2/,使用到的文件是安装包内的lib/jodconverter-cli-2.2.2.jar. 测试是否可以使用 java -jar /opt/jodconverter-2.2.2/lib/jodconverter-cli

SpringMVC+springSecurity+flexPaper 配置--类似百度文库在线预览

背景:现在项目需要做一个类似百度文库的在线预览功能,在网上找了下很多人推荐使用FlexPaper,所以今天尝试学习了FlexPaper顺便集成到现有的框架中 由于网上目前的说的都不是很详细,所以现在记录在此,希望对需要的人有所帮助 准备:1. FlexPaper_2.2.4.zip 下载地址:http://flexpaper.devaldi.com/download/             2.swftools 下载地址:http://www.swftools.org/download.htm

js仿百度文库文档上传页面的分类选择器_第二版

仿百度文库文档上传页面的多级联动分类选择器第二版,支持在一个页面同时使用多个分类选择器: 此版本把HTML,CSS,以及图片都封装到"category.js"中,解决因文件路径找不到样式及图片的问题: 源码下载地址:http://download.csdn.net/detail/testcs_dn/7290577 初始状态,一个页面使用两个,可以初始化之前选中的分类: 选择状态: 当选中一个分类后,会触发"onChange"事件,如上图中的"您选择的分类编

百度文库推广怎么提升上传通过率

谈起百度文库营销推广,几乎是做互联网营销必备的一个利器,运用得当可使你的网络业绩倍增数倍,超乎你想象,因百度文库权重极高,自然排名好,只要能发上帖子稍作优化,基本上就占据了首页的一席之地了,但几家欢喜几家愁呢?难度不言而喻了,也是非常高的.小猪快推看到各种文库的网络营销教程,真是发自内心的鄙视,都是为了中饱私囊,然而干货极少. 一.带联系方式 电话.QQ和微信添加方法(在word内打字相关广告内容,然后截图或者图片内植入广告,一定要逼真再粘贴)需要注意的是百度机构用户禁止在文库里面加qq电话,官