爬虫中 r.text 与 r.content 的区别

1.简单粗暴来讲:

text 返回的是unicode 型的数据,一般是在网页的header中定义的编码形式。

content返回的是bytes,二级制型的数据。

如果想要提取文本就用text

但是如果你想要提取图片、文件,就要用到content

2.详细一点来讲:

用了request.get方法后,返回一个response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等。

其中返回的网页部分会存在.content和.text两个对象中。如果需要获得这些网页原始数据,我们可以通过r.text 或 r.content来获取数据。

  • .text 存的是.content 编码后的字符串
  • .content中间存的是字节码

一般来说 .text直接用比较方便,返回的是字符串,但是有时候会解析不正常,导致返回的是一堆乱码。这时需要用.content.decode(‘utf-8‘),使其正常显示。

总的来说.text是现成的字符串,.content还要编码,但是.text不是所有时候显示都正常(需要用.content.decode()进行手动编码)

3.举栗子

3.1 例一 r.text

输入:

import requests
response = requests.get("http://m.news.cctv.com/2019/09/12/ARTI80tyFZxlGernTG2Wljf7190912.shtml")
print(response.text)
print("Finish!")

输出结果:

   <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="filetype" content="1">
<meta name="publishedtype" content="1">
<meta name="pagetype" content="1"> 

<meta name="author" content="?? ??§???">
<meta name="source" content="?¤?è§???°é????¢??·??ˉ">
<title>????????°é???????¨?o??¥???°??-?????????70??¨?1′????¤?????1 è???13??o???è§??ˉ?è????a??°??1???_?¤?è§???°é????¢??·??ˉ_?¤?è§????(cctv.com)</title>
    var commentTitle = "????????°é???????¨?o??¥???°??-?????????70??¨?1′????¤?????1 è???13??o???è§??ˉ?è????a??°??1???"; //èˉ?è?o? ?é¢?
    /* èˉ?è?o?ˉ1è±?ID 20?????¥???????-???|??2 ?ˉ???aè¢?èˉ?è?o?ˉ1è±???????20120420------ */(此处省略一万字)  </script>
<!--Gridsum tracking code end. -->
</body>
</html>
Finish!

明显看到有乱码出现,在例三解决。

3.2 例二 r.content

输入:

import requests
response = requests.get("http://m.news.cctv.com/2019/09/12/ARTI80tyFZxlGernTG2Wljf7190912.shtml")
print(response.content)
print("Finish!")

输出结果:

b'   <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\r\n<html xmlns="http://www.w3.org/1999/xhtml">\r\n<head>\r\n<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\r\n<meta name="filetype" content="1"> \r\n<meta name="publishedtype" content="1"> \r\n<meta name="pagetype" content="1"> \r\n\r\n<meta name="author" content="\xe5\xbc\xa0\xe6\x85\xa7\xe5\xbd\xac"> \r\n<meta name="source" content="\xe5\xa4\xae\xe8\xa7\x86\xe6\x96\xb0\xe9\x97\xbb\xe5\xae\xa2\xe6\x88\xb7\xe7\xab\xaf"> \r\n\r\n\r\n<title>\xe6\x97\xb6\xe6\x94\xbf\xe6\x96\xb0\xe9\x97\xbb\xe7\x9c\xbc\xe4\xb8\xa8\xe5\xba\x86\xe7\xa5\x9d\xe6\x96\xb0\xe4\xb8\xad\xe5\x9b\xbd\xe6\x88\x90\xe7\xab(此处省略一万字)ript type=\'text/javascript\'>\r\n    (function () {\r\nvar s = document.createElement(\'script\');\r\ns.type = \'text/javascript\';\r\ns.async = true;\r\ns.src = (location.protocol == \'https:\' ?\'https://ssl.\' : \'http://static.\') + \'gridsumdissector.com/js/Clients/GWD-002757-56B3A5/gs.js\';\r\nvar firstScript = document.getElementsByTagName(\'script\')[0];\r\nfirstScript.parentNode.insertBefore(s, firstScript);\r\n    })();\r\n</script>\r\n<!--Gridsum tracking code end. -->\r\n</body>\r\n</html>'
Finish!

与r.text相比,多了b开头,这是bytes的标志哟(字节字符串),要用的话还要编码一下。

3.3 例三 r.text出现乱码,怎么解决(例一作乱码示范)

输入:

import requests
response = requests.get("http://m.news.cctv.com/2019/09/12/ARTI80tyFZxlGernTG2Wljf7190912.shtml")
print(response.content.decode('utf-8'))
print("Finish!")

输出结果:

   <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="filetype" content="1">
<meta name="publishedtype" content="1">
<meta name="pagetype" content="1"> 

<meta name="author" content="张慧彬">
<meta name="source" content="央视新闻客户端"> 

<title>时政新闻眼丨庆祝新中国成立70周年前夕,xxx为何视察这个地方?_央视新闻客户端_央视网(cctv.com)</title>
<meta name="catalogs" content="PAGE137(此处省略一万字)
</script>
<!--Gridsum tracking code end. -->
</body>
</html>
Finish!

与例一对比,这里用了.content.decode(‘utf-8‘)后就没有乱码啦,get到了吗?

3.4 例四 r.content() 打开图片,写入相关数据

输入:

import requests
response = requests.get("http://b-ssl.duitang.com/uploads/item/201707/20/20170720111208_EHX2K.jpeg")
with open("love_img.jpeg","wb") as f:
     f.write(response.content)
print(response.content)
print("Finish!")

输出结果:
b‘\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x00\x00\x01\x00\x01\x00\x00\xff\xdb\x00C\x00\x03\x02\x02\x03\x02\x02\x03\x03\x03\x03\x04\x03\x03\x04\x05\x08\x05\x05\x04\x04\x05\n\x0(省略一万字)\xdf\x93\xff\x00Cj(\xa6#\xa7P6t\xedQ\x1e\xa6\x8a(\x01(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00(\xa2\x8a\x00\xff\xd9‘
Finish!

3.4 例四 用r.text() 看图片,将出现乱乱乱码

输入:

import requests
response = requests.get("http://b-ssl.duitang.com/uploads/item/201707/20/20170720111208_EHX2K.jpeg")
print(response.text)
print("Finish!")

输出结果:

?????JFIF?????????C?

?????"??????????????
???????}?!1AQa"q2???#B??R??$3br?
%&'()*456789:CDEFGHIJSTUVWXYZcdefghijstuvwxyz???????????????????????????????????????????????????????????????????????????????????
??????w?!1AQaq"2?B????   #3R?br?(此处省略一万字)
????Cj(?#?P6t?Q??((???(???(???(???(???(???(???(???(???(???(???(???(???(?????
Finish!

好的,你get到了吗?
又是一年中秋,月是故乡明,祝大家中秋快乐,家庭幸福。

原文地址:https://www.cnblogs.com/wyy1480/p/11516693.html

时间: 2024-08-30 05:28:22

爬虫中 r.text 与 r.content 的区别的相关文章

r.text和r.json()区别

原文地址:https://www.cnblogs.com/jiaoliuxuexi/p/12598891.html

Android中View自定义XML属性详解以及R.attr与R.styleable的区别

为View添加自定义XML属性 Android中的各种Widget都提供了很多XML属性,我们可以利用这些XML属性在layout文件中为Widget的属性赋值. 如下所示: <TextView android:layout_width="wrap_content" android:layout_height="wrap_content" android:text="Hello World!" /> 我们可以通过TextView所提供

Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动 创建 SparkDataFrames 从本地的 data frames 来创建 SparkDataFrames 从 Data Sources(数据源)创建 SparkDataFrame 从 Hive tables 来创建 SparkDataFrame SparkDataFrame 操作 Selecting rows(行), columns(列) Groupin

C语言中文件打开模式(r/w/a/r+/w+/a+/rb/wb/ab/rb+/wb+/ab+)浅析

C语言文件打开模式浅析 在C语言的文件操作语法中,打开文件文件有以下12种模式,如下图: 打开模式  只可以读   只可以写  读写兼备 文本模式 r w a r+ w+ a+ 二进制模式 rb wb ab  rb+ (r+b)   wb+ (w+b)   ab+ (a+b)  其中,二进制模式与文本模式操作相似,只不过是以二进制流的形式读写而已,下面以文本模式为例分析: 1."r" 模式: 1.1 打开文件进行“只读”操作,即只能从文件读取内容. 1.2 若欲操作的文件不存在,则打开

PhpCms V9中的{date(&#39;Y-m-d&#39;,$r[inputtime])}问题解决方法

不少朋友会碰到这个问题:在PhpCms V9中的首页或者文章内容页调用发布时间{date('Y-m-d',$r[inputtime])}调用显示1970-01-01,然后尝试用截断的方法也没有成功,应怎么办? 有朋友建议“先转换成时间格式,在截取吧”,具体代码为“{str_cut($inputtime,12,$dot='')}”,还有人说“{$updatetime} 直接用这个调用就好了”,但是很多朋友还是没有成功! 下面我来具体说明下调用不成功的真实的原因,以及解决方法! 第一,或许你是没有正

R语言中的并行计算——搭建R的集群

转载:http://blog.sina.com.cn/s/blog_83bb57b70101qeys.html 一直纠结于R的大数据计算问题,希望可以找到一个彻底的方案解决它.而云服务器当然是解决这个问题的最佳方案,所以,至少从这方面入手. R的云服务器部署有两种解决方案,一种是使用R语言的并行计算,另外一种是使用RHadoop框架. RHadoop框架其实就是M / R 算法的R语言实现,需要使用者有M / R的计算基础,和R语言平常使用的计算方式有很大的不同,因此,我采用的解决方案是搭建R

Android项目中gen文件下R文件无法生成的解决的方法

帮一个网友解决R文件无法生成的问题,搜集了些材料特整理例如以下,刚開始学习的人參考他人代码时极易出现此种问题,一般都是xml文件出错,无法被正确解析. gen文件夹无法更新,或者gen文件夹下的R.JAVA文件无法生成 1.gen文件夹的用处 android gen文件夹下的R.java并非由用户创建,而是androidproject本身将android的资源进行自己主动"编号"(ID)值. 2.gen文件夹下R文件无法更新/生成的原因 1)res文件夹下的layout下的xml文件名

S?Q?L? ?S?e?r?v?e?r?中??的?P?W?D?E?N?C?R?Y?P?T?与?P?W?D?C?O?M?P?A?R?E?函?数

前幾天有個客戶的網站出問題(不是我們開發的),請我們幫他看,主要的問題是他們的網站會員在進行查詢密碼時,會員收到信的時候在密碼的欄位竟然會出現 System.Binary[] 字樣.而我進去資料庫中查看時,發現該會員資料表中的密碼欄位是 varbinary 格式,而我當然不知道他儲存的是什麼值,進而查看他們資料庫中的 Stored Procedure 對於密碼欄位的操作方法,這才發現他們用來驗證會員是否正確登入的方法是使用 PWDCOMPARE 函數. 由於我沒看過這個函數,便上網去查看看,發現

关?于?h?i?b?e?r?n?a?t?e?中?双?向?外?键?关?联?o?n?e?-?t?o?-?o?n?e?的?p?r?o?p?e?r?t?y?-?r?e?f?=?的?问?题(转)

大家都知道hibernate中的one-to-one映射主要有两种策略,(1)一对一主键关联(单向和双向).(2)一对一外键映射(单项和双向).本文主要讲解一下,一对一外键映射中的双向问题,在此前先通过一个实例了解. person和idCard,是一种一对一的关系,其中   t_person表 id        name       idCard(unique) 1         张三 2         王五       1 其中王五是没有idcard,这也符合现实中的,有些人是没有身份证