解决爬虫时网站采用gb2312编码所遇到的乱码问题!

import requests
from bs4 import BeautifulSoupall_url = ‘http://www.7160.com/qingchunmeinv/‘

# 请求头
header = {
    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36‘
}

start_html = requests.get(all_url,headers = header)
html = start_html.text.encode(‘iso-8859-1‘).decode(‘gbk‘)  # 将gb2312转为UTF-8格式
print(html)

原文地址:https://www.cnblogs.com/zhuifeng-mayi/p/9707091.html

时间: 2024-10-09 15:02:07

解决爬虫时网站采用gb2312编码所遇到的乱码问题!的相关文章

java程序应为CRT登录时启动未设置编码,造成启动乱码

1.以下提供CRT连接程序设置编码脚本,后缀为".vbs" # $language = "VBScript"# $interface = "1.0" Sub Main crt.Screen.Synchronous = True crt.Screen.WaitForString "$ " crt.Screen.Send "export LANG=zh_CN.utf-8" & vbCr crt.Scre

服务配置文件gb2312编码,使用SaltStack管理报错

Salt发布2014.7.0后,及时进行了更新,测试下来,在上一版本正常运行的操作,这一版本却出现报错.公司的好多服务由于历史原因,配置文件延续下来,使用的是gb2312编码,其中还有中文注释.在使用salt进行管理的时候,在Master端会报UnicodeDecodeError错误. 执行配置文件更新,并重启服务操作: salt 'zhaogb-202' state.sls update_conf.manager manager.sls是更新Manager服务配置文件的模板: ma_watch

ASP中Utf-8与Gb2312编码转换乱码问题的解决方法 页面编码声明

1 ASP程序在同一个站点中,如果有UTF-8编码的程序,又有GB2312编码的程序时,在浏览UTF-8编码的页面后,再浏览当前网站GB2312的页面,GB2312编码的页面就会出现乱码 2 出现这样的问题是当你浏览UTF-8编码的时候,服务器默认用UTF-8的引擎来输出html,当你用再浏览GB2312的页面时,它还是用UTF-8来输出本应是GB2312编码的页面所以会乱码. 3 4 5 6 首先让我们来了解一下Session对象提供了四个属性. 7 1.CodePage 读/写.整型. 8

PHP iconv 解决utf-8和gb2312编码转换问题

终于皇天不负有心人,答案还是让我找到了. 网上的都是这样用的 代码如下: $content = iconv("utf-8","gb2312",$content); 这样做其实也对着了,看着确实是把utf-8转化为gb2312了,但是实际运行的话,往往都是以失败告终的,原因呢? 原因实际上也很简单,因为任何的函数都是执行错误的时候,同时很不幸的是iconv();就很终于出现错误.现在给你正确的答案. 真正的答案是这样的 复制代码 代码如下: $content = ic

解决手机访问网站时整体相对屏幕缩小问题?(已解决)

自己开发出来的网站,在手机上访问时,总是整体小了一块,不能很好的适应屏幕,每次都要用手指再放大到合适尺寸,后发现,需要在开发代码中添加: <meta name="viewport" content="width=device-width, initial-scale=1">  (可添加到第一行) 参数说明: width - viewport的宽度 height - viewport的高度 initial-scale - 初始的缩放比例 minimum-s

记一次java生成csv文件乱码的解决过程 (GB2312编码)

系统:win7 (格式:中文(简体,中国)) 工具:Eclipse (默认编码utf-8) 服务两个:[restful接口]  和 [服务*** server]. 场景:[服务*** server]多次调用[restful接口],每次[restful接口]会返回一个生成好的csv文件内容.[服务*** server]将每次[restful接口]返回的csv内容保存成一个csv文件.并将生成的多个csv文件打包成一个zip压缩包. [restful接口]:根据一组数据生成csv文件 1. java

做网站用UTF-8编码还是GB2312编码?

经常我们打开外国网站的时候出现乱码,又或者打开很多非英语的外国网站的时候,显示的都是口口口口口的字符, WordPress程序是用的UTF-8,很多cms用的是GB2312. ● 为什么有这么多编码? ● UTF-8和GB2312有什么区别? ● 我们在国内做网站是用UTF-8编码格式还是GB2312编码格式好? 一. 各种编码的来历 可能很多同学一直对字符的各种编码方式懵懵懂懂,根本搞不清为什么他们有这么多编码. ANSI编码 其实在很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合

java中文乱码解决之道(三)—–编码详情:伟大的创想—Unicode编码

原文出处:http://cmsblogs.com/?p=1458 随着计算机的发展.普及,世界各国为了适应本国的语言和字符都会自己设计一套自己的编码风格,正是由于这种乱,导致存在很多种编码方式,以至于同一个二进制数字可能会被解释成不同的符号.为了解决这种不兼容的问题,伟大的创想Unicode编码应时而生!! Unicode Unicode又称为统一码.万国码.单一码,它是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言.跨平台进行文本

java中文乱码解决之道(三)-----编码详情:伟大的创想---Unicode编码

随着计算机的发展.普及,世界各国为了适应本国的语言和字符都会自己设计一套自己的编码风格,正是由于这种乱,导致存在很多种编码方式,以至于同一个二进制数字可能会被解释成不同的符号.为了解决这种不兼容的问题,伟大的创想Unicode编码应时而生!! Unicode Unicode又称为统一码.万国码.单一码,它是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言.跨平台进行文本转换.处理的要求.可以想象Unicode作为一个"字符大容器&qu