python爬虫之url中的中文问题

在python的爬虫学习中,我们的url经常出现中文的问题,
我们想要访问的url就需要对url进行拼接,变成浏览器可以识别的url
在python中已经有了这样的模块了,这就是urlencode
urlencode需要对中文和关键字组成一对字典,然后解析成我们的url

在python2中是
urllib.urlencode(keyword)
在Python中是
urllib.parse.urlencode(keyword)

查看一下代码:
python2

import urllib
import  urllib2

#例如我们需要在百度上输入个关键字哈士奇进行查询,但是哈士奇是中文的,我们需要对哈士奇进行编码
keyword = {"wd":"哈士奇"}

head_url = "http://www.baidu.com/s"

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

wd = urllib.urlencode(keyword)
url = head_url +"?"+ wd

req = urllib2.Request(url,headers=headers)

response = urllib2.urlopen(req)
html = response.read()
print(url)
print(html.count(‘哈士奇‘))

结果如下:

在python3中:

# -*- coding: utf-8 -*-
# File  : url中出现的中文问题.py
# Author: HuXianyong
# Date  : 2018-09-13 17:39
from urllib import request
import urllib

#例如我们需要在百度上输入个关键字哈士奇进行查询,但是哈士奇是中文的,我们需要对哈士奇进行编码
keyword = {"wd":"哈士奇"}

head_url = "http://www.baidu.com/s"

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}

wd = urllib.parse.urlencode(keyword)
url = head_url +"?"+ wd

req = request.Request(url,headers=headers)

response = request.urlopen(req)
html = response.read()

print(html.decode().count("哈士奇"))

print(url)

结果如下:

如果需要吧转换的字符变成中文
可以用unquota

如下:
python2

In [25]: dic = {"say":"你好!"}

In [26]: urllib.urlencode(dic)
Out[26]: ‘say=%E4%BD%A0%E5%A5%BD%21‘

In [27]: aa  = urllib.urlencode(dic)

In [28]: aa
Out[28]: ‘say=%E4%BD%A0%E5%A5%BD%21‘

In [29]: bb = urllib.unquote(aa)

In [30]: bb
Out[30]: ‘say=\xe4\xbd\xa0\xe5\xa5\xbd!‘

In [31]: print(bb)
say=你好!

python3

In [16]: dic = {"say":"你好!"}

In [17]: aa = urllib.parse.urlencode(dic)

In [18]: aa
Out[18]: ‘say=%E4%BD%A0%E5%A5%BD%21‘

In [19]: bb = urllib.parse.unquote(aa)

In [20]: bb
Out[20]: ‘say=你好!‘

原文地址:http://blog.51cto.com/853056088/2174896

时间: 2024-12-11 17:40:30

python爬虫之url中的中文问题的相关文章

js的url中传递中文参数乱码,如何获取url中参数问题

一:Js的Url中传递中文参数乱码问题,重点:encodeURI编码,decodeURI解码: 1.传参页面Javascript代码: <script type=”text/javascript”> function send(){ var url = "test01.html"; var userName = $("#userName").html(); window.open(encodeURI(url + "?userName="

jquery对url中的中文解码

项目中要实现一个select选择器选择后跳转url,并保存selected的值. url是用get来传递参数,所以考虑加载新页面时,读取参数值,并赋值到select中. 但是由于url的参数使用的是中文,select不识别,所以通过jquery现成的转码函数,一句话搞定~! select选中值的防刷新: 每次加载页面后读取url中的参数值,然后设定select的选中值,由于url中包含中文,使用了jquery的解码函数, var myurl=new LG.URL(window.location.

Extjs4.2 ajax请求url中传中文參数乱码问题

今天有个需求须要在url中传入中文參数.结果在后台取得时出现乱码,怀疑可能是编码问题.上网查询了资料,试了几种办法.发现有一种可行,记录在此,以便查阅. url中用encodeURI 进行2次编码: Ext.Ajax.request({ url:"updateadminuser.do?"+userid+"&uname="+encodeURI(encodeURI(uname)), success:function (response) { store.load

jquery.ajax的url中传递中文乱码问题的解决方法

jquery.ajax的url中传递中文乱码问题的解决方法 JQuery JQuery默认的contentType:application/x-www-form-urlencoded 这才是JQuery正在乱码的原因,在未指定字符集的时候,是使用ISO-8859-1 ISO8859-1,通常叫做Latin-1.Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符. JQuery的Ajax根本没有考虑到国际化的问题,使用了欧洲的字符集,所以才引起了传递中文出现乱码的问题. 而我们的UTF-8

如何自动识别判断url中的中文参数是GB2312还是Utf-8编码?

using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Web;using System.Text.RegularExpressions; namespace ConsoleApplication2 {        class Program {                public static string DecodeURL2(String uriS

url中含有中文造成文件下载失败

一.场景 前段时间由于安卓客户端并发播放视频的需求量太大,造成视频卡顿的现象,因此使用java做了一套缓存视频的服务,把远程服务器的视频下载到内网服务器来解决这个问题. 二.问题引入 可是在使用流进行视频下载的时候,不含有中文的url会正常下载视频,包含中文的就会下载失败,后来经过一番查找解决办法之后发现只需要将url中的中文进行UTF-8转码即可,需要注意的是: 不能对整个url进行UTF-8转码,必须用正则表达式对url进行中文过滤板,只转码中文即可: 正则匹配方法: public stat

url中拼接中文参数,后台接收为乱码的问题

遇到在URL中拼接中文的参数,后台拿到的数据为乱码的问题. 解决的方法是在客户端对这个中文参数进行编码,然后服务端再进行解码就行了. 客户端编码(JavaScript) var url = "contract!select.action?chineseParam=" + encodeURI(encodeURI("我是中文参数")); 注意:编码的时候需要使用两次encodeURI()方法,写一个就是????号,写两个则输出: %4d%5a这种. 服务端解码(Java

为什么URL中的中文需要Encode两次?

在URL中传参的时候常常需要传入中文,这个时候就需要对中文参数进行编码,即URLEncode.但是,常常是Encode两次,而不是一次,为什么呢? 首先要知道,tomcat会自动解码一次: 这样的话,如果只Encode一次就传过去,会出现两种情况: 1.Tomcat的decode字符集与你Encode的字符集一致,正常显示中文: 2.decode与encode字符集不一致,乱码: 现在假设encode两次,那么: tomcat解码一次,将encode一次的字符串传出去: 程序员手动decode一

[转]asp.net URL中包含中文参数造成乱码的解决方法

本文转自:http://www.jb51.net/article/22437.htm 问题: 前段时间,在系统中做了一个类似于友情链接的功能块,一直运行良好,直到有一天加了类似于以下的链接地址:http://www.****.com/user.aspx?id=水天,就出现大问题了: 1.从IE地址栏中直接输入这个地址,访问没错: 2.做一个静态页,其中包括这个超链接,点击访问也没错: 3.就是把这个链接添加到这个功能块中,点击访问那边接收到的是乱码. 一开始,被这个问题也搞得头大,在google