(python)查看糗事百科文字点赞作者等级评论

import requests
import re
headers = {
‘User-Agent‘:‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)‘
}
info_lists = []
def judgment_sex(class_name):
if class_name == ‘womenIcon‘:
return ‘女‘
else:
return ‘男‘
def get_info(url):
res = requests.get(url)
ids = re.findall(‘<h2>(.*?)</h2>‘,res.text,re.S)
levels = re.findall(‘<div class="articleGender (.*?)">‘,res.text,re.S)
sexs = re.findall(‘<div class="number">‘,res.text,re.S)
contents = re.findall(‘<div class="content">.*?<span>(.*?)</span>‘,res.text,re.S)
laughs = re.findall(‘<span class="stats-vote"><i class="number">(\d+)<i>‘,res.text,re.S)
comments = re.findall(‘<i class="number">(\d+)</i>评论‘,res.text,re.S)
for id,level,sex,content,laugh,comment in zip(ids,levels,sexs,contents,laughs,comments):
info = {
‘id‘:id,
‘level‘:level,
‘sex‘:judgment_sex(sex),
‘content‘:content,
‘laugh‘:laugh,
‘comment‘:comment
}
info_lists.append(info)
if __name__ == ‘__main__‘:
urls = [‘https://www.qiushibaike.com/text/page/{}/‘.format(str(i)) for i in range(1,12)]
for url in urls:
get_info(url)
for info_list in info_lists:
f = open(‘E:/qiushi.text‘, ‘a+‘)
try:
f.write(info_list[‘id‘]+‘\n‘)
f.write(info_list[‘level‘]+‘\n‘)
f.write(info_list[‘sex‘]+‘\n‘)
f.write(info_list[‘content‘]+‘\n‘)
f.write(info_list[‘laugh‘]+‘\n‘)
f.write(info_list[‘comment‘]+‘\n\n‘)
f.close()
except UnicodeEncodeError:
pass

问题：无法生成文档 debug无错

原文地址：https://www.cnblogs.com/zhentaoFrezt/p/9255371.html

时间： 2024-10-28 03:40:34

(python)查看糗事百科文字点赞作者等级评论的相关文章

Python selenium糗事百科

一个简单的爬虫入门代码,爬取糗事百科主页的段子(不包括图片,仅文字) 需要安装selenium和ChromeDriver. 将chromedriver.exe放在Chrome的安装目录下. 配置环境变量.点击我的电脑->属性->高级系统设置->PATH->新建(Chrome的安装位置,比如我的是:C:\Program Files (x86)\Google\Chrome\Application) #/usr/bin/env python #coding:utf-8 #导入seleni

python 多线程糗事百科案例

案例要求参考上一个糗事百科单进程案例 Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源,加锁是个重要的环节.因为python原生的list,dict等,都是not thread safe的.而Queue,是线程安全的,因此在满足使用条件下,建议使用队列初始化: class Queue.Queue(maxsize) FIFO 先进先出包中的常用方法: Queue.qsize

获取糗事百科文字栏目所有用户ID

import requests from lxml import etree import time headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36', 'Cookie': 'gr_user_id = c6f58a39 - ea25 - 4f58 - b448 - 5

python爬糗事百科段子

#!/usr/bin/env python # coding: UTF-8 # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup #import pandas newurl='http://www.qiushibaike.com/text/page/1/' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.

Android实战——jsoup实现网络爬虫，糗事百科项目的起步

Android实战--jsoup实现网络爬虫,爬糗事百科主界面本篇文章包括以下内容: 前言 jsoup的简介 jsoup的配置 jsoup的使用结语前言对于Android初学者想要做项目时,最大的烦恼是什么?毫无疑问是数据源的缺乏,当然可以选择第三方接口提供数据,也可以使用网络爬虫获取数据,这样就不用第三方数据作为支持.本来是打算爬一些购物网站的数据,由于他们的反爬做得好,所以没办法爬到数据,只能爬取糗事百科的数据,或许聪明的你会想到可以高仿个糗事百科作为自己的练手项目,利用jsoup是

Python爬虫-爬取糗事百科段子

闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/hot/page/2/ 末尾2指第2页 2.先抓取HTML页面 import urllib import urllib2 import re page = 2 url = 'http://www.qiushibaike.com/hot/page/' + str(page) #对应第2页的url

Python爬虫爬取糗事百科段子内容

参照网上的教程再做修改,抓取糗事百科段子(去除图片),详情见下面源码: #coding=utf-8#!/usr/bin/pythonimport urllibimport urllib2import reimport threadimport timeimport sys #定义要抓取的网页#url = 'http://www.qiushibaike.com/hot/'#读取要抓取的网页#globalcontent = urllib.urlopen(url).read()#抓取段子内容#new_

Python爬虫--抓取糗事百科段子

今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该博主的代码似乎有些问题,我自己做了修改,运行成功,下面是代码内容: 1 # -*- coding:utf-8 -*- 2 __author__ = 'Jz' 3 import urllib2 4 import re 5 6 #糗事百科爬虫类 7 class QSBK: 8 #初始化 9 def __

【python】抄写大神的糗事百科代码

照着静觅大神的博客学习,原文在这:http://cuiqingcai.com/990.html 划重点: 1. str.strip() strip函数会把字符串的前后多余的空白字符去掉 2. response.read().decode('utf-8','ignore') 要加'ignore'忽略非法字符,不然总是报解码错误 3. python 3.x 中 raw_input 改成 input 了 4. 代码最好用notepad++先写格式清晰一点容易发现错尤其是缩进和中文标点的错误

猜你喜欢

git跟踪指定几个文件夹

#编辑.gitignore文件(vim .gitignore) #忽略所有文件,注意放在开头 /* #除folder1文件夹外 !/folder1 #除folder2文件夹外 !/folder2 # ...

POJ 2299 -Ultra-QuickSort-树状数组求逆序数

POJ 2299Ultra-QuickSort 使用树状数组记录逆序对数. 把数组按照大小顺序插入,getsum(i)就是i前面的比他大的数. 1 #include <cstdio> 2 ...

如何学习ruby？Ruby学习技巧分享

怎么学习ruby?在学习ruby之前需要掌握哪些知识呢?这是很多想要学习ruby朋友的心声,我不具体给出答案,下面就给大家讲讲一位前辈学习ruby(http://www.maiziedu.com/co ...

使用 sendKeys(keysToSend) 批量上传文件

未经允许,禁止转载!!! 在selenium里面处理文件上传的时候可以使用sendKeys(keysToSend) 上传文件例如: element.sendKeys("C:\\test\\ ...

记录学习MVC过程，MVC异步请求（五）

1.基与jquery的异步请求 <script src="~/Scripts/jquery-1.8.2.min.js"></script> <scri ...

dis进行反编译

摘录自官方文档: https://docs.python.org/2/library/dis.html 回头自己也脑补下. 可以使用dis查看自己代码的复杂度之类的东西. 比如while 1 和whi ...

html5 带声音的导航

代码实例: <!DOCTYPE html PUBLIC "-//W3C//DTDXHTML 1.0 Transitional//EN""http://www.w3. ...

JavaScript知识点总结

JavaScript学习总结1.JavaScript是作用于网络和HTML的一个编程语言.2.JavaScript代码必须放在<script></script>标签之间,Jav ...

分治题目 wikioi 1688 逆序数组算导2-4

解题报告算导上给了提示用归并排序的代码进行修改来实现思考后不难看出归并排序的合并(merge)过程中对数据进行了比较 1)如果数组L 的当前某元素大于数组R的当前元素,那么由于L数组是有序 ...

itween用法

先从http://itween.pixelplacement.com/下载iTween 或 iTween visual Editor(可视化) 插件添加 iTweenPath. 就可以可可视化编 ...

Linux -- top (man)

TOP(1) User Commands ...

第四届蓝桥杯javaC组_买不到的数目

/* (程序头部注释开始) * 程序的版权和版本声明部分 * Copyright (c) 2016, 广州科技贸易职业学院信息工程系学生 * All rights reserved. * 文件名称: ...

二叉搜索树ADT_BSTree

二叉搜索树或是一颗空二叉树, 或是具有以下性质的二叉树: 1.若左子树不为空, 则左子树上所有结点的关键字值均小于根结点的关键字值. 2.若右子树不为空, 则右子树上所有结点的关键字值均大于根结点的关 ...

sublime安装配置

打华东师范大学校赛的时候,学长谈论到这个编辑器.自定义背景多行多光标同时编辑酷炫爆了.感觉这是一个万能的文本编辑器.通过配置可以写多种语言,支持vim模式,而且只有不到10M. 1,首先要配置能打ac ...

Alamo租车作品演示

0 简介该APP为个人作品,已上线. 主要为爱路美租车公司编写一款Android端应用. 1 使用技术 (1) 通过gson解析服务端返回的数据,通过asyncHttpClient框架实现网络请 ...

声明和表达式区别

函数:声明和表达式函数,像变量一样,可以在代码的任意地方定义它. JS 提供了几个方法去定义它们. 1.函数声明 (Function Declaration) 2.函数表达式 (Funct ...

湖南多校对抗赛（2015.05.24）部分解题报告(CSU1628-1638)

比赛网址 A:简单题 AC代码: #include<iostream> #include<cstdio> #include<cstring> #include< ...

springboot使用之三：springboot使用logback日志

springboot 默认使用的日志就是logback,所以使用logback不需要添加日志相关依赖了,执行添加logback.xml配置文件,springboot这个聪明的框架便能识处理你的配置. ...

本地主机连不上服务器，外网却能正常连接

转载:http://tech.sina.com.cn/sinahelp/2002-12-31/113/262.html 在工作中,经常有用户反映不能链接到新浪的某一个页面,或者使用Outlook连结不 ...

PHP读取数据库表显示到前台

<?php$username=$_GET['uid']; //获取一个值作为查询条件 $result=$db->query("select * from trip where a ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.