爱祝福短信采集系统

# -*- coding:utf-8 -*-
# 要求:
import requests,queue,time,threading,os
from lxml import etree
class MessageSpider(object):
def __init__(self):
self.start_url = ‘http://www.aizhufu.cn/duanxinku/column/{}/{}.html‘
self.total_url = queue.Queue()
self.content = queue.Queue()
self.header = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36‘}

def get_url(self,cid,page):
url = self.start_url.format(cid,page)
print(‘正在获取‘,url)
response = requests.get(url,headers=self.header)
html_text = response.content.decode()
e_html = etree.HTML(html_text)
return e_html

def get_total(self):
print(‘开始获取总url‘)
html = self.get_url(77,1)
clm_list = html.xpath(‘//a[@class="tip"]/@columnid‘)
for cl in clm_list:
class_url = {}
sub_html = self.get_url(cl,1)
total_page = sub_html.xpath(‘//img[@pageno="1"]/@totalpage‘)
# print(total_page)
class_url[cl] = total_page[0] if total_page else 0
if not total_page:
continue
self.total_url.put(class_url)
print(‘总url解析完成‘)

def get_content(self):
print(‘开始解析网页内容‘)
while self.total_url.qsize():
if not self.total_url.qsize():
time.sleep(1)
print(‘解析网页内容操作在等待中。。。‘)
print(‘total_url.qsize:‘, self.total_url.qsize(), "\ncontent_qsize:", self.content.qsize())
continue
print(‘total_url.qsize:‘, self.total_url.qsize(), "\ncontent_qsize:", self.content.qsize())
messages = []
sub_message = {}
sub_class = self.total_url.get()
for k,v in sub_class.items():
for i in range(1,int(v)+1):
html =self.get_url(k,i)
class_title = html.xpath(‘//div[@class="r_title"]/b/text()‘)
message_list = html.xpath(‘//ul[@class="list"]/li/span/@original-title‘)
messages += message_list
print(class_title,‘\n‘,message_list)
sub_message[class_title[0]] = messages
self.content.put(sub_message)
self.total_url.task_done()
print(‘解析函数中‘,‘total_url.qsize:‘, self.total_url.qsize(), "\ncontent_qsize:", self.content.qsize())
print(class_title,‘类短信解析完成‘)

def save(self):
print(‘开始保存短信‘)
if not os.path.exists(‘短信库‘):
os.mkdir(‘短信库‘)
while self.total_url.qsize() or self.content.qsize():
if not self.content.qsize():
time.sleep(1)
# print(‘save函数中‘,‘total_url.qsize:‘, self.total_url.qsize(), "\ncontent_qsize:", self.content.qsize())
print(‘保存短信操作在等待中。。。‘)
continue

content = self.content.get()
for title,messages in content.items():
file_name = title + ‘.txt‘
full_name = os.path.join(‘短信库‘,file_name)
with open(full_name,‘w+‘) as f:
f.seek(0,0)
i = 1
for msg in messages:
msg = str(i)+‘、‘ + msg.replace(‘\xa0‘,‘ ‘) +‘\n\n‘
f.write(msg)
i += 1
self.content.task_done()
# print(‘save函数中‘,‘total_url.qsize:‘, self.total_url.qsize(), "\ncontent_qsize:", self.content.qsize())
print(title,‘类短信保存成功!‘)
print(‘所有短信保存成功!‘)

def run(self):
self.get_total()
th_list = []
th_cont = threading.Thread(target=self.get_content,)
th_list.append(th_cont)
th_save = threading.Thread(target=self.save,)
th_list.append(th_save)
for th in th_list:
th.setDaemon(True)
th.start()
self.total_url.join()
self.content.join()

if __name__ == "__main__":
ms = MessageSpider()
ms.run()

原文地址:https://www.cnblogs.com/liu-xiaobai/p/8536612.html

时间: 2024-11-13 08:01:45

爱祝福短信采集系统的相关文章

新年祝福短信集锦

发短信拜年,已经成为百姓过春节的重要内容之一,不仅能够增加亲人间的亲情.也能加强朋友间的友情,增加恋人间的感情,拉近彼此心灵的距离. 本软件精选了上万条祝福短信,条条精美,句句经典.包含元旦.除夕.春节.元宵节.劳动节.中秋节.国庆节等节日祝福短信,也有日常祝福.生日祝福.幽默祝福.经典表白.恋爱物语.求婚宝典.热辣情话.早安祝福.晚安祝福.周末问候.生病慰问.感悟人生等短信. 也可以制作成贺卡,发送给亲朋好友哦. iTunes下载:https://itunes.apple.com/cn/app

短信接口

最近做了一些与短信相关的工作,在这里做一个学习的梳理,愿与您共同分享学习.要完成一个短信接口需要完成这样几件事儿:模板管理.接口管理.拼接接口数据 模板管理:最基本的对短信进行增删该查:第二,将可变元素抽成变量,并进行管理.这个模块一般的第三方会提供一个短信管理后台,但是如果第三方不提供的话则需要我们自己去做一个短信模板啦. 接口管理:一般第三方提供socket接口,WebService接口,Http接口,根据需要选择一种进行开发. 拼接接口数据:可将接口数据拼接在接口表中,这样在接口的业务逻辑

手机短信文件被删除了怎么恢复

虽说现在大家都不怎么爱发短信,都转战去了微信,但是有些工作上的一些需求还都是会发到短信上的,因为工作事宜还是要用正规的短信通知. 看着积累的各种短信,我心里觉得不舒服,于是把整个收件箱都清空了.清空之后猛然想起里面还有一份重要的工作通知呢,这下心里着急了,这份通知一旦完不成的话,又要挨批评扣奖金了! 想来想去,我还是去网上搜寻解救方法.在度娘上转了一圈,发现大家都说要用数据恢复软件进行恢复.可是看到那么多恢复软件,我犯难了,坦白的说,我有选择综合症,但是为了抓紧时间,我就选择了评价最高的硬盘数据

短信服务功能

"金笛短信服务功能是面向广大企事业单位开发的短信群发软件,它使企业可以充 分利用移动(或联通)公司提供的手机短信服务功能,来发布各种企业相关信息.可完成短信息群组发送(如短信广告.客户联络.新产品发布通知).分组发送(如会议通知.紧急通知).定时群发(如提醒短信.恭贺短信.祝福短信).以及接收工作情况汇报短信等等,从而达到提高办公效率.降低办公成本的目的…… 高亚兰  (短信事业部)北京玉笛信息技术有限责任公司地址:北京海淀区知春路23号量子银座903(863软件园)电话:010-8235657

速码云信息-----短信接口代码参数

短信接口(HTTP协议)向指定手机号码发送短信息,内容由客户自定义,HTTP接口为GB2312编码.使用前需要先注册帐号并于客户经理取得联系,开启授权,充值测试费用短信验证码30分钟相同手机号发送请勿超过5条,其余内容相同号码接收量控制在<=20温馨提示! 尊敬的客户,为了你调用我司接口快速收到不被拦截,请在调用接口的发送短信的时候请发送正规的验证码内容,如: [速码云]尊敬的客户你好,你获取的验证码为:548976.或者发送祝福短信.切勿发送违规,违法,辱骂等短信内容,谢谢!发送短信余额接口相

爱加密有效抵御“恐吓式”诈骗短信侵袭,做移动App应用安全保护者!

近日,电信诈骗家族中又出现新成员--"恐吓式"诈骗短信.一位网友发帖称,收到陌生号码发来的"恐吓短信",对方自称是"恶贯满盈的人渣",该条敲诈短信的内容如下:"警告,很不幸你遇到我们这些恶贯满盈的人渣,限24小时内打3000元到(622202×××××),否则7日之内你家宝贝出现任何不幸,不要怪自己太愚蠢吝啬,我们承诺只要你配合,仅骚扰你这一次."网友在公布对方银行卡号和手机号码的同时,希望引起大家的注意. 爱加密有效抵御&q

短信之离散

在这种环境下我像往常一样睡去,只是更比以前有些不安,我好像已经很久没有睡过好觉了,不知怎么了,不是冷就是热,不是别人吵就是蚊子,总是让我感觉很久很久没有睡过安稳觉了,也许大了,面临的心灵需要长期去强大起来吧. 我承认在你身上有一种让我无法割舍的东西,但是从你的身上我也看到了你的态度,你对现实的妥协,只是你我都不愿意承认罢了,对于我选择什么你根本就无所谓,只是你不好开口,否则会显得你不负责任,这些天我一直在感受你我之间的感觉,对于我提的这些话题你可能已经开始不耐烦,但我必须告诉你我们之间的一些东西

为什么验证码短信成为行业短信主流?

从十年前短信群发行业的兴起,到2010年的短信各路企业的风起云涌,还有媒体对"垃圾短信"的多次曝光,再到2013年底运营商的大刀阔斧的整顿和叫停,时至今日,短信发送业务貌似步入了正轨,同时也随着智能手机移动互联网的快速发展,包括微信和手机安全软件的迅猛普及,人们对手机短信模块的使用变得可有可无,也许好多天都不会去看短信.总之,2014年企业应用级的短信市场总体业务量大不如五年前,至少下滑了60%!      那么,当年的成千上万家的短信公司现在怎么样了呢?据调查了解,那些曾经疯狂揽金的

短信群发平台为商家“情人节活动”助威!

改革开放以来,外国的一些洋节日也逐渐的被引入中国,2.14情人节也是一样的,被年轻人所认可,推崇.这一天情人之间互赠礼品,商家也瞄准了这个市场,大做促销活动.但是市场很美好,竞争很残酷,聪明的商家就选中了短信群发平台抢占市场先机,让同行门前冷落. 在外国,情人节往往是未婚但是相互有爱意的年轻男女的节日,在中国已婚的夫妻也过情人节哦!别拿夫人不当情人哟!时光荏苒,慢慢褪去激情与浪漫,她已是你的妻.感谢她长久的陪伴与毫无保留的付出.周大生珠宝是如何利用短信群发平台邀天下有情人共度情人节的呢? “2.