Python爬虫实现的微信公众号文章下载器

平时爱逛知乎,收藏了不少别人推荐的数据分析、机器学习相关的微信公众号(这里就不列举了,以免硬广嫌疑)。但是在手机微信上一页页的翻阅历史文章浏览,很不方便,电脑端微信也不方便。

所以我就想有什么方法能否将这些公众号文章下载下来。这样的话,看起来也方便。但是网上的方法要么太复杂(对于我这个爬虫入门新手来说),要么付费。

但我的需求其实却很简单——“方便的查找 / 检索 / 浏览相关公众号的任意文章”,所以,一番学习检索后,上手做了一个小工具(打包成可执行文件了),虽然方法和代码相当简单,但实际上手用起来还是挺方便的。也给身边伙伴安利了几波。

工具需求:

输入:给定公众号ID,和用户需要获取的公众号文章目录页码数(小于已发布最大收录页数)
( 输出Ⅰ:每个公众号历史文章信息csv文件(链接+标题)

输出Ⅱ: wkhtmltopdf和pdfkit将html转换成PDF文件或者图片文件(初稿)

现有方案

之前在网上也搜索了些爬取微信公众号的资料,大概有如下几种

selenium爬取流程

  1. 安装python selenium自动模块,通过selenium中的webdriver驱动浏览器获取Cookie登录微信公众号后台;
  2. 使用webdriver功能需要安装对应浏览器的驱动插件
    注意:谷歌浏览器版本和chromedriver需要对应,否则会导致启动时报错。
  3. 微信公众号登陆地址:https://mp.weixin.qq.com/
  4. 微信公众号文章接口地址可以在微信公众号后台中新建图文消息,超链接功能中获取:
  5. 搜索公众号名称
  6. 获取要爬取的公众号的fakeid
  7. 选定要爬取的公众号,获取文章接口地址
  8. 文章列表翻页及内容获取

AnyProxy代理批量采集

1、一个微信客户端:可以是一台手机安装了微信的app,或者是用电脑中的安卓模拟器。
2、一个微信个人号:为了采集内容不仅需要微信客户端,还要有一个微信个人号专门用于采集。
3、本地代理服务器系统:通过Anyproxy代理服务器将公众号历史消息页面中的文章列表发送到自己的服务器上。
4、文章列表分析与入库系统,分析文章列表和建立采集队列实现批量采集内容。

?

Fiddler设置代理和抓包

通过对多个账号进行抓包分析,可以确定:

  • _biz:这个14位的字符串是每个公众号的“id”,搜狗的微信平台可以获得
  • uin:与访问者有关,微信号id
  • key:和所访问的公众号有关

步骤:

1,写按键精灵脚本,在手机上自动点击公号文章列表页,也就是“查看历史消息”;
2,使用fiddler代理劫持手机端的访问,将网址转发到本地用php写的网页;
3,在php网页上将接收到的网址备份到数据库;
4,用python从数据库取出网址,然后进行正常的爬取。

可能存在的问题:

如果只是想爬取文章内容,似乎并没有访问频率限制,但如果想抓取阅读数、点赞数,超过一定频率后,返回就会变为空值。

付费平台

例如清博 新榜,如果只是想看数据的话,直接看每天的榜单就可以了,还不用花钱,如果需要接入自己的系统的话,他们也提供api接口

3项目步骤

3.1基本原理

目标爬取网站收录了微信平台大部分的优质微信公众号文章,会定期更新,经测试发现对爬虫较为友好。
1、网站页面布局排版规律,不同公众号通过http://chuansong.me/account/almosthuman2014链接中的account区分
2、一个公众号合集下的文章翻页也有规律:id号每翻一页+12

所以流程思路就是

  • 获取预查询微信公众号ID(不是直接显示的名称,而是信息名片里的ID号,一般由数字字母组成)
  • 请求html页面,判断是否已经收录改公众号
  • 如果没有收录,则页面显示结果为:404该页面不存在,所以直接使用正则表达式来匹配该提示信息即可
  • 正则匹配,找到目标公众号最大收录文章页数
  • 解析请求页面,提取文章链接和标题文字
  • 保存信息提取的结果
  • 调用pdfkit和wkhtmltopdf转换网页

3.2环境

  • win10(64bit)
  • Spyder(python3.6)
  • 安装转换工具包wkhtmltopdf
  • requests
  • pdfkit

    3.3公众号信息检索

    通过对目标url发起requset请求,获取页面html信息,然后调用正则方法匹配两条信息
    1、该公众号是否存在
    2、如果存在,最大的文章收录页数是多少

    url = ‘http://chuansong.me/account/‘ + str(name) + ‘?start=‘ + str(0)    
    wait = round(random.uniform(1,2),2) # 设置随机爬虫间隔,避免被封
    time.sleep(wait)    
    html = get_one_page(url)    
    pattern1 = re.compile(‘<h1>Page Not Found.</h1>‘, re.S)
    item1 = re.findall(pattern1, html)  # list类型    
    pattern2 = re.compile(‘<a href="/account/.*?">(.\d+)</a>(\s*)</span>(\s*?)<a href="/account/.*" style="float: right">下一页</a>‘)
    item2 = re.findall(pattern2, html)  # list类型  
    if item1:
      print("\n---------该账号信息尚未收录--------\n")
      exit();
    else:
      print("\n---------该公众号目前已收录文章页数N为:",item2[0][0])

    当公众号存在时,直接调用request解析目标请求链接。

    #需要加一个请求头部,不然会被网站封禁
    headers = {‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 Safari/537.36‘}
    try:      
      response = requests.get(url, headers=headers, timeout=10)
      response.raise_for_status #若不为200,则引发HTTPError错误
      response.encoding = response.apparent_encoding
      return response.text
    except:
      return "产生异常"

    注意,目标爬虫网站必须要加headers,否则直接拒绝访问

3.4正则解析,提取链接和文章标题

以下代码用于从html文本中解析链接和标题文字信息

def parse_one_page(html):
    pattern = re.compile(‘<div class="feed_item_question">.*?<span>.*?<a class="question_link" href="(.*?)".*?_blank">(.*?)</a>.*?"timestamp".*?">(.*?)</span>‘, re.S)
    items = re.findall(pattern, html)      
    return items

3.5自动跳转页面

以下代码通过循环递增赋值,改变url中的页码参数

def main(offset, i):    
    url = ‘http://chuansong.me/account/‘ + str(offset) + ‘?start=‘ + str(12*i)
    print(url)
    wait = round(random.uniform(1,2),2) # 设置随机爬虫间隔,避免被封
    time.sleep(wait)    
    html = get_one_page(url)    
    for item in parse_one_page(html):
        info = ‘http://chuansong.me‘+item[0]+‘,‘+ item[1]+‘,‘+item[2]+‘\n‘
        info = repr(info.replace(‘\n‘, ‘‘))
        print(info)
        #info.strip(‘\"‘)  #这种去不掉首尾的“        
        #info = info[1:-1]  #这种去不掉首尾的“
        #info.Trim("".ToCharArray())
        #info.TrimStart(‘\"‘).TrimEnd(‘\"‘)
        write_to_file(info, offset)

3.6去掉标题中的非法字符

因为windows下文件命令,有些字符是不能用了,所以需要使用正则剔除

itle = re.sub(‘[\\\\/:*?\"<>|]‘, ‘‘, info.loc[indexs][‘标题‘])

3.7转换html为PDF

使用pandas的read_csv函数读取爬取的csv文件,循环遍历“链接”,“标题”,“日期”
然后通过调用pdfkit函数转换生成PDF文件

wait = round(random.uniform(1,2),2) # 设置随机爬虫间隔,避免被封
    time.sleep(wait)
    path = get_path(offset)
    path_wk = r‘D:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe‘ #安装wkhtmltopdf的位置
    config = pdfkit.configuration(wkhtmltopdf = path_wk)
    if path == "" :
        print("尚未抓取该公众号")
    else:        
        info = get_url_info(offset)              
        for indexs in info.index:  
            url = info.loc[indexs][‘链接‘]
            title = re.sub(‘[\\\\/:*?\"<>|]‘, ‘‘, info.loc[indexs][‘标题‘])
            date = info.loc[indexs][‘日期‘]
            wait = round(random.uniform(4,5),2) # 设置随机爬虫间隔,避免被封
            time.sleep(wait)  
            print(url)
            with eventlet.Timeout(4,False):
                pdfkit.from_url(url, get_path(offset)+‘\\‘+ date+‘_‘+title+‘.pdf‘, configuration=config)  
                print(‘转换成功!‘)

3.8生成的PDF结果

?

4结果展示

?

?

?

原文地址:https://www.cnblogs.com/paisenpython/p/10271924.html

时间: 2024-10-10 01:52:02

Python爬虫实现的微信公众号文章下载器的相关文章

微信公众号文章采集器

今天讨教大叔给大家聊聊什么是微信公众号文章采集器?微信公众号文章采集器的用处在哪里? 首先简单的介绍下微信公众号文章采集器:它是由讨教平台开发,专门服务于中小型互联网企业的一款内容价值输出系统.帮助中小型企业在文章发布,内容输出,大量提高了员工工作效率的以及企业的运营成本. 在采集系统中,我们可以把所有的微信公众号,只需要你手动输入 你想采集公众号的名称输入采集系统上,即可快速的帮助你完成此公众号的内容全部采集.采集过来的文章,您可以选择修改标题和内容,以及过滤掉垃圾文章. 我们讨教平台测试过:

微信公众号文章抓去

微信公众号存在不少精彩的文章,如果善于挖掘,可以得到不少的收获.但由于微信对PC端的支持并不友好,虽然有搜狗搜索可以用,但其结果仍然不全,一些公众号发的不是文章类型的只是一段话,搜狗就不收录.想要得到一个账号所有的文章,还是要从爬虫着手.网上对于微信公众号文章爬取的方法几乎没有介绍,不过有几个网站,比如传送门就做出来了.这就告诉我们这个目标是可以达到的.废话不多说,直入主题. 要想得到一个公众号发送的所有文章,需要从微信手机端入手.点击公众号右上角小人图标,会有查看历史消息的链接.点了之后可查看

微信公众号文章也可以添加音乐 不用因无法添加背景音乐代码而烦恼了

之前我们有聊过用代码添加图文消息背景音乐,微信可能考虑安全问题一段时间后代码不能用了,现在好了,微信公众号文章也可以添加音乐了,直接在微信公众平台后台像添加图片一样直接就可以插入音乐,未经认证的公众号也可以使用这一功能. 微信公众号文章添加音乐具体的操作流程是: 运营者可以在编辑图文消息时,在正文中插入音乐;选取音乐时,支持根据歌名.作者进行搜索,并且可以试听音乐;完成后即可. 也许文字不能表达的,音乐,可以表达. 一首歌,也许是你的信仰,你的态度,你的心情,你的记忆…… 为了让这种表达和分享更

微信公众号文章终于聚合成信息流了

还是自己动手丰衣足食,爬了搜狗的信息,总算可以聚合微信公众号的文章内容了. 这下子一个号搞定500个最热门公众号文章,方便查阅. 接下来要去做的是信息优化. 预览版:订阅号热榜,wx_hot ======== 之前一直有声音称,微信公众号目前的模式,很不适合大量关注的用户查看每日更新的文章.所以造成了大量的公众号订阅号被折叠以后,鲜有人问津.一旦打开订阅号,会发现众多“…”标记的公众号,这些都是未读条数超过99条的账号. 面对折叠以后,造成阅读量下降,难道微信就任其发展不顾么? 事情显然是否定的

小麦苗微信公众号文章链接地址

小麦苗的微信公众号文章链接地址: 发布日期 文章标题 2016-08-14 [等待事件]User I/O类 等待事件(2.1)--db file sequential read(数据文件顺序读) 2016-08-13 [等待事件]等待事件概述(1)--等待事件的源起和分类 2016-08-12 [故障处理]ORA-12545: Connect failed because target host 2016-08-11 [故障解决]ORA-06502: PL/SQL: numeric or val

豆约翰博客备份专家新增微信公众号文章批量下载功能

目前微信火得一塌糊涂,豆约翰博客备份专家也来凑凑热闹. 自媒体的兴起,使得一些各个领域的专家在微信中开通了公众号,我们大家可以选择自己感兴趣的进行订阅. 微信公众号会定期的向订阅者推送一些高质量的文章(当然也包括一些广告). 下面我们就来看一下如何利用豆约翰博客备份专家来批量下载微信公众号文章. 要批量下载微信公众号文章,首先我们必须要知道公众号ID. 首先打开搜狗微信搜索:http://weixin.sogou.com/ 在搜索框中录入微信公众号名称,比如豆约翰关注的一个公众号[哥伦布没来过]

【技巧】如何使用客户端发布BLOG+如何快速发布微信公众号文章

[技巧]如何使用客户端发布BLOG+如何快速发布微信公众号文章   1  BLOG文档结构图     2  前言部分   2.1  导读和注意事项 各位技术爱好者,看完本文后,你可以掌握如下的技能,也可以学到一些其它你所不知道的知识,~O(∩_∩)O~: ① 如何使用客户端发布BLOG(重点) ② 如何快速发布微信公众号文章 ③ 如何批量上传图片到blog ④ 如何批量上传图片到微信公众号上     Tips: ① 本文在itpub(http://blog.itpub.net/26736162)

Python快速搭建自动回复微信公众号

Python快速搭建自动回复微信公众号 在之前的一篇文章 Python利用 AIML 和 Tornado 搭建聊天机器人微信订阅号 中用 aiml 实现了一个简单的英文聊天机器人订阅号.但是只能处理英文消息,现在用 图灵机器人 来实现一个中文的聊天机器人订阅号. 这里主要介绍如何利用 Python 的 Tornado Web框架以及wechat-python-sdk 微信公众平台 Python 开发包来快速搭建微信公众号. 完整的公众号代码 GitHub 地址:green ,由于目前此公众号有一

长按微信公众号文章内容可分享朋友圈且附带二维码

就在刚刚,有朋友无意间发现长按住微信公众号文章内容的某一句话,将会出现“分享”的选项,一旦分享之后,微信将会自动将选中的内容,形成一段话分享在朋友圈,而且会在分享的文末,附上该篇文章的二维码.ytkah觉得这个非常文艺范,一小句话自动生成图片,很唯美,在朋友圈容易疯转,附带的二维码也利于公众号的宣传,整个有点像前段时间那个很火的宽图小应用 长按住微信公众号文章内容的某一句话,将会出现“分享”的选项 长按微信公众号文章可以分享朋友圈且附带二维码 目前,经过测试,仅有苹果手机可以使用这一功能.有了这