【Python】博客信息爬取-微信消息自动发送

1、环境安装

python -m pip install --upgrade pip

pip install bs4

pip install wxpy

pip install lxml

2、博客爬取及发送

from bs4 import BeautifulSoup
from threading import Timer
import requests
import traceback
from wxpy import *

url = ‘‘

nIndex = 6
my_groups = None

def getMsg(nIndex):
    # 获得网址源码
    html = requests.get(url).content
    soup = BeautifulSoup(html, ‘lxml‘) 

    # print(‘开始抓取‘)
    # title = soup.title.string
    # print(title)

    # areaall = soup.find(id=‘sina_keyword_ad_area2‘).children
    areaall = soup.select(‘#sina_keyword_ad_area2 p‘)
    # print(areaall)
    iCount = len(areaall)
    # print(iCount)

    # print(nIndex)
    msg = ""
    if iCount < nIndex:
        return msg,0
    else:
        msg = areaall[iCount - 1]
        msg = msg.get_text()
        # print(msg)
        return msg,iCount

msgTemp = ‘‘
nNullMsg = 0

def auto_send():
    try:
        global nIndex
        global my_groups
        global msgTemp
        global nNullMsg
        msgContent,nIndexMsg = getMsg(nIndex)
        msgContent = str(msgContent).strip()
        # print(nIndexMsg)
        # nIndex += 1
        # print(msgContent)
        if len(msgContent) != 0 :
            # print(str(nIndex) + ":\t" + msgContent)
            # return
            if msgContent != msgTemp :
                if my_groups != None and len(my_groups) > 0 :
                    print("发送消息:" + msgContent)
                    my_groups[0].send(msgContent)
                    msgTemp = msgContent
            else:
                print(‘消息已发送‘)
        else:
            nNullMsg += 1
            print("没有新消息")
            if nNullMsg == 20 :
                print("恭喜发财,今日推送完毕")
                return

        # # 每隔86400秒(1天),发送1次
        t = Timer(3, auto_send)
        t.start()

    except  Exception as e:
        print(e)
        # 你的微信昵称,注意这里不是备注,也不是微信帐号
        my_friend = bot.friends().search(‘NetUML‘)[0]
        my_friend.send(u"报告老板,今日份的信息发送失败了!")

if __name__ == "__main__":

    # 初始化机器人,扫码登陆微信,适用于Windows系统
    # 初始化一个机器人对象
    bot = Bot(cache_path=True)

    my_groups = bot.groups().search(‘广告技术‘)    

    for group in my_groups:
        print(group)   

    # # Linux系统,执行登陆请调用下面的这句
    # bot = Bot(console_qr=2, cache_path="botoo.pkl")

    # 调用函数进行消息发送
    auto_send()

原文地址:https://www.cnblogs.com/defineconst/p/10657504.html

时间: 2024-10-09 05:38:22

【Python】博客信息爬取-微信消息自动发送的相关文章

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文

网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文 1.前言 最新在公司做一个项目,需要一些文章类的数据,当时就想到了用网络爬虫去一些技术性的网站爬一些,当然我经常去的就是博客园,于是就有下面的这篇文章. 2.准备工作 我需要把我从博客园爬取的数据,保存起来,最好的方式当然是保存到数据库中去了,好了我们先建一个数据库,在来一张表,保存我们的数据,其实都很简单的了啊,如下图所示 BlogArticleId博文自增ID,BlogTitle博文标题,BlogUrl博文地

如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)

前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py文件.我们需要获取的数据是朋友圈和发布日期,因此在这里定义好日期和动态两个属性,如下图所示. 2.修改实现爬虫逻辑的主文件moment.py,首先要导入模块,尤其是要主要将items.py中的WeixinMomentItem类导入进来,这点要特别小心别被遗漏了.之后修改start_requests方

Python编写网页爬虫爬取oj上的代码信息

OJ升级,代码可能会丢失. 所以要事先备份. 一开始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启发和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本, 试了一下修改到3.0版本, 要做很多包的更替,感觉比较烦,所以索性就在这个2.7版本上完善了. 首先观赏一下原始代码,我给加了一些注释: # -*- coding: cp936 -*- import urllib2 import urllib import re import

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于它是一个框架,任何人都可

10个值得我们关注的python博客

大家好,还记得我当时学习python的时候,我一直努力地寻找关于python的博客,但我发现它们的数量很少.这也是我建立这个博客的原因,向大家分享我自己学到的新知识.今天我向大家推荐10个值得我们关注的python博客,这些博客的博主都会定期的更新而且他们的文章都很不错.下面是博客列表: 1.首先第一个肯定是毋庸置疑的Planet Python这是最出名的python博客其中之一,快去看看,我希望你能找到对你有用的东西,昨天它还更新了呢! http://planetpython.org/ 2.第

10个值得关注的python博客(转)

1.首先第一个肯定是毋庸置疑的Planet Python这是最出名的python博客其中之一,快去看看,我希望你能找到对你有用的东西,昨天它还更新了呢! http://planetpython.org/ 2.第二个博客是lucumr,博主是flask的创始人(一个python micro web framework) http://lucumr.pocoo.org/ 3.第三个博客是love-python,我不知道我是怎么被它吸引的,但是我真得很喜欢这个博客,它有很多有用的知识和代码 http:

教你分分钟学会用python爬虫框架Scrapy爬取你想要的内容

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神 python爬虫学习课程,下载地址:https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 课程代码原件:课程视频: 原文地址:http://blog.51cto.com/aino007/2123341

链家信息爬取

一.数据库封装 import pymysql class MysqlHelper(object):    def __init__(self):        self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='abc123', database='py1011', charset='utf8')        self.cursor = self.db.cursor() def execut

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py 爬虫成果 当你运行代码后,文件夹就会越来越多,如果爬完的话会有2