python 爬虫 百度贴吧签到小工具

import requests,re,timeheader ={    "Cookie":"登陆过账号后的cookie 必须填写",     "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}#访问个人帐号下的贴吧主页url = "百度首页--右上角贴吧--右上角用户名(我的贴吧) 然后把url填到这里"html = requests.get(url,headers=header)#print(html.text)

#提取贴吧相关的ID 名称等信息s1 = r‘"forum_id":(.*?),"forum_name":"(.*?)"‘tieba_info = re.compile(s1,re.S).findall(str(html.text))#print(tieba_info)

for i in tieba_info:    time.sleep(3)#访问CD要控制好,否则容易出现验证码,导致签到失败    print(i[1])    print(i[1].encode("latin-1"))    #获取可以签到的全部贴吧名字    #print(i[1].encode("latin-1").decode("unicode_escape"))

#获取tbs 发送签到请求需要获得名为tbs的数据 他在页面信息里面    tieba_name = (i[1].encode("latin-1").decode("unicode_escape"))    tieba_link = "https://tieba.baidu.com/f?kw=" + tieba_name    info = requests.get(tieba_link,headers=header)    #print(info.text)    s2 =r"tbs‘: \"(.*?)\"" #单双引号都有 注意转义字符    tieba_tbs = re.compile(s2,re.S).findall(str(info.text))[0]    #print(tieba_tbs)

#签到的postdata    qiandao_url = "https://tieba.baidu.com/sign/add"    qiandao_data = {"ie":"utf-8",                    "kw":tieba_name,                    "tbs":tieba_tbs} #tbs这个数据意义不明 可以在附近相关网页代码中搜索看看 是否能发现关联

#实现签到 是否成功 可以看返回信息    try:        qiandao = requests.post(qiandao_url,data=qiandao_data,headers=header)        #print(qiandao.text)        print(tieba_name,"签到")

except:        print(tieba_name,"异常")        continue

原文地址:https://www.cnblogs.com/cwkcwk/p/9576518.html

时间: 2024-11-09 02:42:15

python 爬虫 百度贴吧签到小工具的相关文章

python爬虫--百度风云榜--pandas画趋势图

好久没有更新博客,最近做了一个小项目,利用python爬虫功能,每天记录爬取百度风云榜的数据,然后画出趋势图,从而预测旅游城市热度. 原本准备用pandas直接读取table,后来发现pandas不能打包成exe,就只能放弃,尝试了petl也失败了. 在画图的过程中出现了中文无法显示的问题,查询得出是因为matplotlib的问题,没有引入中文字体. 先上分析代码 import os import pandas as pd rootdir='C:/files' #先删除一下result.csv#

利用python BaseHTTPServer 开发的图片浏览小工具

最近从网上爬了点图片,为了方便浏览就写了这么个小工具.直接上码,解释偏少,代码没有优化,实现比较简略.仅作记录之用. 1.httpd.py 1 # encoding: UTF-8 2 #-*-coding:utf-8-*- 3 import BaseHTTPServer 4 import config 5 import urllib 6 from CreatHtml import CreateHtmlClass 7 import os 8 9 #登录页面代码,做个简单的访问权限控制 10 log

python爬虫百度翻译

python3,爬取的是百度翻译手机版的网页 运用requests,json模块 英汉互译,运行结果 #!/bin/python3 # -*- coding: UTF-8 -*- #============================================= #describe:an en to zh and zh to en translater #version:1 #update:2018-08-03 #--- #author:unihon #E-mail:[email pr

送给初学爬虫者们的一个小工具:如何用正则匹配headers?

把这种headers(Host: www.baidu.com)匹配成为下面这种:'Host': 'www.baidu.com 正则如下: headers ="Host:www.baidu.com" new=re.sub('(.*?):(.*)',lambda m:"\'"+m.group(1)+"\':\'"+m.group(2)+"\',",headers) print('{\n'+new+'\n}') 原文地址:https

python制作英语翻译小工具

用python爬虫可以制作英语翻译小工具.来看下代码吧- import requests,json #函数封装 def translator(): session=requests.session() i=input('请问你要翻译什么?') url='http://fanyi.youdao.com/translate' headers={ 'Referer': 'http://fanyi.youdao.com/', 'User-Agent': 'Mozilla/5.0 (Macintosh;

Python爬虫入门书籍好的有哪些

近年来,随着网络不断的发展,网络信息量也变得更多更大,基于传统搜索引擎的局限性,网络爬虫应运而生,在这里,我们向各位读者们推荐几本关于学习Python爬虫的书籍. 根据小编的经验,小编向大家推荐以下书籍: 这本<Python基础教程(第2版.修订版)>书里包括Python程序设计的方方面面,从Python的安装开始,到Python的基础知识和基本概 念,并且循序渐进地介绍了一些相对高级的主题,还探讨了如何将Python与数据库.网络.C语言等工具结合使用等知识,书里结合前面讲述的内容,按照实 

用Python爬虫对豆瓣《敦刻尔克》影评进行词云展示

最近很想看的一个电影,去知乎上看一下评论,刚好在学Python爬虫,就做个小实例. 代码基于第三方修改 原文链接  http://python.jobbole.com/88325/#comment-94754 #coding:utf-8 from lib2to3.pgen2.grammar import line __author__ = 'hang' import warnings warnings.filterwarnings("ignore") import jieba #分词包

python爬虫(二):向网页提交数据

python爬虫(二):向网页提交数据 回忆一下,我们有的时候在看一些网站的时候,是否遇见过一些网站里面的信息开始显示一部分,然后当我们把鼠标滑轮向下拉动后,又显示出一些信息.这就是异步加载.我的上一篇文章python爬虫百度贴吧标题数据爬取的所有标题都是页面已经加载好的.但是对于这种开始没有加载好的数据我们应该如何爬取呢? 接下来我们先介绍下一些概念: 异步加载:举个简单的例子就是说,假如老师判作业,有两种情况,第一种就是无论哪个学生先写完,都等待到所有的同学全部写完,老师讲所有的作业都收齐后

Python爬虫的法律边界(二)小爬怡情,大爬over!

数据抓取的门槛越来越低,会点程序,或使用网络工具都可以薅点数据,新入行了不少爬虫选手,但是对抓取使用数据的法律风险可能缺少认识.尤其是从去年的<网络安全法>实施开始,被新闻公开报道的相关法律诉讼已有好几起. 有人会争议互联网本质是鼓励分享,很多UGC的网站内容还是用户贡献的,网络公开数据应该都可以使用. 我也希望是这样,但现实不是这样. 所以抓取数据前你最好看下被抓对象的知识产权申明,如果你是公司职员也关心下公司让你抓取数据的用途,多少了解下潜在风险. 以下是几个典型的爬虫选手爱光顾的网站知识