关于爬虫的编码格式问题

UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\uc0ac‘ in position

爬虫编码想从把构造的字典信息写进文件。

有两种方法:

一、用jsonimport jsonjs=json.dumps(a)fp.writelines(js+‘\n‘)二、直接强制转换fp.write(str(a)+‘\n‘)

   利用第一种方法输入网页信息,中文会变成编码。

   采用第二种方法,中文信息进行保留,但是,有时候会提出错误‘UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\uc0ac‘ in position‘.

   此时,在文件的目录下面创造一个utf-8编码的txt。并且fp的编码格式改为utf-8

fp=open("top500.txt","at",encoding=‘utf-8‘)

原文地址:https://www.cnblogs.com/ZQUACM-875180305/p/9463587.html

时间: 2024-10-08 11:13:45

关于爬虫的编码格式问题的相关文章

java爬虫爬取网页内容前,对网页内容的编码格式进行判断的方式

近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性. 在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从header标签中获取Content-Type=#Charset:二.从meta标签中获取Content-Type=#Charset:三.根据页面内容分析编码格式. 其中一/二方式并不能准确指示该页面的具体编码方式,周全考虑,加入第三种方式. 第三种方式引入开源jar包info.monitorenter.cp

解决pycharm的爬虫乱码问题(初步了解各种编码格式)

Ascii码(American Standard Code for Information Interchange,美国信息互换标准代码):最初计算机只在美国使用时,只用8位的字节来组合出256(2的8次方)种不同的状态,把所有的空格.标点符号.数字.大小写字母分别用连续的字节状态表示,一直编到了第127号, 拓展字符集:世界各地的都开始使用计算机,一直把序号编到了最后一个状态255.从128到255这一页的字符集被称"扩展字符集". GB2312:GB2312 是对 ASCII 的中

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

欢迎加入Python学习交流群:535993938  禁止闲聊 ! 名额有限 ! 非喜勿进 ! 本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试. Scrapy吸引人的地方在于

python实现网络爬虫下载天涯论坛帖子

最近发现天涯论坛是一个挺有意思的网站,有各种乱七八糟的帖子足以填补无聊时候的空虚感,但是相当不爽的一件事就是天涯的分页模式下想连贯的把楼主的内容看完实在是太心酸了,一个999页的帖子,百分之九十都是无聊网友的灌水,有时候连续翻几十页才能找到楼主的一条内容.所以无聊之下,就打算写一个简单的爬虫,能一次性把某一个帖子下楼主的所有内容一次性的下载下来.好吧,说了这么多废话,现在开始讲点正事. 网页的地址形式:http://bbs.tianya.cn/post-no05-355576-1.shtml,其

爬虫之Xpath案例

案例:使用XPath的爬虫 现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地. # tieba_xpath.py #!/usr/bin/env python # -*- coding:utf-8 -*- import os import urllib import urllib2 from lxml import etree class Spider: def __init__(self): self.tiebaName =

[Python爬虫] 中文编码问题:raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题

最近研究搜索引擎.知识图谱和Python爬虫比较多,中文乱码问题再次浮现于眼前.虽然市面上讲述中文编码问题的文章数不胜数,同时以前我也讲述过PHP处理数据库服务器中文乱码问题,但是此处还是准备简单做下笔记.方便以后查阅和大家学习. 中文编码问题的处理核心都是--保证所有的编码方式一致即可,包括编译器.数据库.浏览器编码方式等,而Python通常的处理流程是将unicode作为中间转换码进行过渡.先将待处理字符串用unicode函数以正确的编码转换为Unicode码,在程序中统一用Unicode字

爬虫01

import requests# requests模块,发出请求,接受响应,包括请求响应 headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"} params = dict(wd="python") r

python爬虫编码问题

爬虫,新手很容易遇到编码解码方面的问题.在这里总结下. 如果处理不好编码解码的问题,爬虫轻则显示乱码,重则报错UnicodeDecodeError: 'xxxxxx' codec can't decode byte 0xc6 in position 1034: invalid continuation byte,这个xxx可能是 ascii utf8  gbk等. 大家一定要选个专门的时间学习下这方面,网上资源很多的.因为编码 解码岁不关程序逻辑功能大局 ,但几乎每个程序中都会遇到这个东西,所以

Python定向爬虫实战

转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/7019963.html 一:requests模块介绍 requests是第三方http库,可以十分方便地实现python的网络连接,完美替代了urllib2模块. 二:实战 使用requests实现定向爬虫需要两步:首先使用requests获取目标网页的源代码:然后使用requests与正则表达式从中提取信息. 1:获取源码 获取源码有两种方式: 使用requests.get(url).text可以直接获取无