爬取工大新闻并发送到邮箱中

 1 #coding:utf-8
 2 import requests
 3 from pyquery import PyQuery as pq
 4 import urllib2, json,sys,smtplib
 5 from email.mime.text import MIMEText
 6
 7 reload(sys)
 8 sys.setdefaultencoding(‘utf-8‘)#避免中文编码问题
 9
10
11 mailto_list=["[email protected]"]
12 mail_host="smtp.163.com"  #设置服务器
13 mail_user="[email protected]"    #用户名
14 mail_pass="zhang130360130"   #口令
15 mail_postfix="163.com"  #发件箱的后缀
16
17 def send_mail(to_list,sub,contents):
18     #to_list:收件人;sub:主题;content:邮件内容;
19     me=part1+"<"+mail_user+">"  #hello
20     msg = MIMEText(contents,_subtype=‘plain‘,_charset=‘utf-8‘)#创建一个实例,这里设置为纯文字格式邮件编码utf8
21     msg[‘Subject‘] = sub    #设置主题
22     msg[‘From‘] = me        #设置发件人
23     msg[‘To‘] = ";".join(to_list)
24     try:
25         s = smtplib.SMTP()             #实例化
26         s.connect(mail_host)           #连接smtp服务器
27         s.login(mail_user,mail_pass)   #登陆服务器
28         s.sendmail(me, to_list, msg.as_string()) #发送邮件
29         s.close()
30         return True
31     except Exception, e:
32         print str(e)
33         return False
34 if __name__ == ‘__main__‘:
35     str=""
36     url = ‘http://news.hitwh.edu.cn/‘
37     r = requests.get(url)
38     r.encoding=‘utf-8‘
39     p = pq(r.text).find(‘#news_list li>a‘)
40     for b in p:
41         content1=pq(b).text()#获取新闻标题
42         print content1
43         content2=‘http://news.hitwh.edu.cn/‘+pq(b).attr(‘href‘)#获取新闻地址
44         print content2
45
46         str=str+content1+‘\n‘+content2+‘\n‘
47         #print content
48     part1 = ‘工大新闻  from  ZJW‘
49     #print str
50     if send_mail(mailto_list,part1,str):
51         print "send msg succeed"
52     else:
53         print "send msg failed"
54 else:
55     print "get joke error"
时间: 2024-11-16 03:42:10

爬取工大新闻并发送到邮箱中的相关文章

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

第三百三十四节,web爬虫讲解2-Scrapy框架爬虫-Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻标题和rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有

爬取校园新闻

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题.链接.正文.show-info. 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息. 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getClickCount(newsUrl): 8. 将获取新闻详情的代码定义成一个函数 def getNe

爬取校园新闻首页的新闻的详情,使用正则表达式,函数抽离

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题.链接.正文.show-info. 2. 分析info字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息. 3. 将字符串格式的发布时间转换成datetime类型 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getClickCount(newsUrl): 8. 将获取新闻详情的代码定义成一个函数 def getNe

爬取网易新闻排行榜

#网络爬虫之最基本的爬虫:爬取[网易新闻排行榜](http://news.163.com/rank/) **一些说明:** * 使用urllib2或requests包来爬取页面. * 使用正则表达式分析一级页面,使用Xpath来分析二级页面. * 将得到的标题和链接,保存为本地文件. import os import sys import requests import re from lxml import etree def StringListSave(save_path, filenam

web爬虫讲解—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息,那么这种一般都是 js 的 Ajax 动态请求生成的信息 我们以百度新闻为列: 1.分析网站 首先我们浏览器打开百度新闻,在网页中间部分找一条新闻信息 然后查看源码,看看在源码里是否有这条新闻,可以看到源文件里没有这条信息,这种情况爬虫是无法爬取到信息的 那么我们就需要抓包分析了,启动抓包软件和抓包

Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧

前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为此小编建了个群 624440745. 不懂的问题有老司机解决里面还有最新Python教程项目可拿,,一起相互监督共同进步! 此文属于入门级级别的爬虫,老司机们就不用看了. 本次主要是爬取网易新闻,包括新闻标题.作者.来源.发布时间.新闻正文. 首先我们打开163的网站,我们随意选择一个分类,这里我选

爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式

目录 爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式 1. scrapy图片的爬取/基于管道类实现 2. 中间件的使用 3. selenium在scrapy中的应用 4. CrawlSpider 5. 分布式 5. 增量式 爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式 1. scrapy图片的爬取/基于管道类实现 爬取流程: 爬虫类中将解析到的图片

scrapy爬取网易新闻内容

最近在写毕业论文,是做个文本分类相关的题目.想抓取网易新闻里那些新闻内容作为分析的数据,于是就又照着scrapy的文档照做了一遍... 感觉主要就只是两个文件items.py和spiders文件夹下的爬取规则的文件,我这里爬取技术类文档的直接叫tech.py了 scrapy的入门教程已经写的很详细了,大家可以先看看.地址为http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html 下面是我做的情况 1.创建项目    运行命令

使用lxml的css选择器用法爬取奇书网并保存到mongoDB中

import requests from lxml import etree from fake_useragent import UserAgent import pymongo class QiShuSpider(object): def __init__(self): self.base_url="https://www.qisuu.la/soft/sort01/" self.headers={ "User-Agent":UserAgent().random,