随笔小绪

之前在想CSDN与博客园那个写作更适合自己,后来发现似乎博客园更适合自己(主要是因为他更专注于博客,使用它写博客更加自然,流畅)。我的第一个博客主题是解决python的中文乱码。

之前在想爬取平凡的世界小说的内容,忽然发现出现了中文乱码,想了好几个办法还是不行,最后求助于广大网友,找到了一个比较好的方法,与诸君共享。若有其他疑问请参考这篇博客:https://blog.csdn.net/Winterto1990/article/details/51217363。

这是我的代码:

import requests
import chardet
from  bs4 import  BeautifulSoup

#爬取目标网页
url=‘http://www.pingfandeshijie.net/di-yi-bu-01.html‘
#头部分不用该部分也行
user_agent=‘Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50‘

headers={"User-Agent":user_agent}
r=requests.get(url=url,headers=headers)

r.encoding=‘gbk2312‘        #获取网页后这里设置编码格式gbk是繁体,gbk2313是简体
demo=r.text

soup=BeautifulSoup(demo,‘html.parser‘,from_encoding=‘gbk‘)
print(soup.find_all(‘p‘))

代码中有两处使用到编码设置,经过检验,其实只有第一次的编码是有效的(抱歉,第一次写不会改)。代码的标注很清楚,如果有什么疑问可以给我留言,大家一起解决。

原文地址:https://www.cnblogs.com/weirdo-xo/p/9064770.html

时间: 2024-11-05 12:30:59

随笔小绪的相关文章

随笔 - 小片儿

2008年11月 这个日子 你我相遇在 美丽的港湾 一席白衣 飘逸的长发 天空漂浮的 风筝 是我们放飞的梦想 澳门街里的美味 是我们回味的地方 永远留在记忆中的 唯一合照 是我们思念的天堂 祝福你 小片儿 你终将是 别人美丽的 新娘 请别忘记 远方的某个角落 永远有我对你的 寄怀 想飞的水 ``` 2014.07.11 随笔 - 小片儿,布布扣,bubuko.com

博客园--随笔小技巧之超链接的使用

首先copy一下你要引用的网址如下: 选中-->右键 或者同上选中点击 如图提示操作: 这个必须填,否则超链接不生效,本人亲自测试,新手必学! 以上两步就可以实现了,方便体验加个小手图标更友好方便 鼠标移到下面网址点一下试试: 这就是你将引用他人的博客地址:http://www.cnblogs.com/lusid/ 博客园的使用小技巧你学会了么 新手推荐一下,之前百度都没有的小技巧,大牛无视!!! 觉得实用,喜欢的话,推荐一下,谢谢!

随笔 小问题

1)react 压缩js 使用淘宝镜像 将npm 改成 cnpm  npm install -g cnpm --registry=https://registry.npm.taobao.org 2)不使用严格模式,代码也可以有容错机制,为什么需要在严格模式下书写代码:原因如下: (个人理解:只是使书写代码更加安全,规范) 在严格模式下,会有如下一些限制: 未声明的变量赋值直接报错,而不是变成全局变量 函数默认的 this 将变成 undefined 而不是默认指向 window 对只读属性进行写

MVC+EF 随笔小计——分部视图(Partial View)及Html.Partial和Html.Action差异

Partial View指可以应用于View中以作为其中一部分的View的片段(类似于之前的user control), 可以像类一样,编写一次, 然后在其他View中被反复使用. 一般放在"Views/Shared"文件夹中以共享. 创建Partial View:一般直接右键"Views/Shared"文件夹添加分部视图. 使用Partial View有两类helper : Html.Partial / Html.RenderPartial Html.Action

MVC+EF 随笔小计

HtmlHelper, 主要有这么几个: DisplayNameFor (model=>model.xxx)à 生成纯文本,显示xxx列名 DisplayFor (model=>model.xxx)à 生成纯文本,显示xxx列的内容 LableFor à 生成一个Lable标签 EditorFor à 生成一个text类型的input PasswordFor à 类似于EditorFor, 隐藏文本内容 ActionLink à 生成一个<a>标签 BeginForm à 生成一个

iOS 随笔小技巧 弱self 打印当前类行数列数,多人开发自动适配pch地址,获取设备uid的信息

$(SRCROOT)/PrefixHeader.pch自动适配pch地址 __weak __block typeof(self) weakself = self; __weak typeof(self)weakSelf = self; #define DN_DEBUG_LOG(fmt, ...) {NSLog((@"%s [Line %d] " fmt), __PRETTY_FUNCTION__, __LINE__, ##__VA_ARGS__); } NSDictionary *if

随笔小计 --

1.    <meta http-equiv="mobile-agent" content="format=html5; url=http://m.cnmo.com/"> 页头meta声明, 当用户用手机访问这个PC端页面时,URL将自动跳转到指定的移动端URL地址. format设置移动端URL地址网页格式: 2. 待续……

随笔小skill

1.用拉链函数zip()将字典转换成元组对!函数中的两个参数必须是序列!p = {'name':'zhangsanfeng','age':18,'gender':'nan'}print(list(zip(p.keys(),p.values())))>>>[('name', 'zhangsanfeng'), ('age', 18), ('gender', 'nan')] p = {'name':'zhangsanfeng','age':18,'gender':'nan'}print(zip

如何管理自己?

本文是<哈佛商业评论>创刊以来重印次数最多的文章之一.作者彼得·德鲁克,自1971年后长期在美国加利福尼亚州克莱尔蒙特研究生大学任教.该文首次发表于1999年,节选自其著作<21世纪的管理挑战>(Management Challenges for the 21st Century,HarperCollins 出版社,1999).本文有删节. 我们生活的这个时代充满着前所未有的机会:如果你有雄心,又不乏智慧,那么不管你从何处起步,你都可以沿着自己所选择的道路登上事业的顶峰. 不过,有