汽车之家数据爬取:文章链接//图片//标题

(1)打印出来的东西乱码,如何处理这个问题?

import requests

response=requests.get(
    url=‘https://www.autohome.com.cn/beijing/‘          #最新的地址是可以出来的
    # url=‘https://www.autohome.com.cn/news/‘               #老的地址会出现乱码问题
)
print(response.text)

(2)

import requests

response=requests.get(
    # url=‘https://www.autohome.com.cn/beijing/‘          #最新的地址是可以出来的
    url=‘https://www.autohome.com.cn/news/‘               #老的地址会出现乱码问题
)
# response.encoding=‘utf-8‘       #(utf-8)这个地方又做了一下处理:依然部分乱码
response.encoding=‘gbk‘       #(gbk)这个地方又做了一下处理:依然部分乱码

print(response.text)

(3)

import requests
response=requests.get(
    # url=‘https://www.autohome.com.cn/beijing/‘          #最新的地址是可以出来的
    url=‘https://www.autohome.com.cn/news/‘               #老的地址会出现乱码问题
)
# response.encoding=‘utf-8‘       #(utf-8)这个地方又做了一下处理:依然部分乱码
# response.encoding=‘gbk‘       #(gbk)这个地方又做了一下处理:依然部分乱码

response.encoding=response.apparent_encoding   #注意在这里默认就是utf-8
                                               #这里和写gbk是一样的
print(response.text)

(4)

import requests
from bs4 import BeautifulSoup
response=requests.get(
    # url=‘https://www.autohome.com.cn/beijing/‘          #最新的地址是可以出来的
    url=‘https://www.autohome.com.cn/news/‘               #老的地址会出现乱码问题
)

response.encoding=response.apparent_encoding   #注意在这里默认就是utf-8
                                                 #这里和写gbk是一样的
soup=BeautifulSoup(response.text,features=‘html.parser‘)       #第一步把文本转换成对象
                                        #后边的features=表示以什么引擎,或者以什么方式转换
                                        #python内置的参数是‘html.parser‘   #这个是默认的
                                        #python的第三方参数‘features=‘lxml‘,需要额外安装才能使用
                                        #实际生产中都是会用lxml,性能会更好一些
target=soup.find(id=‘auto-channel-lazyload-article‘)
target.find(‘li‘)   #根据标签来寻找
#继续寻找
print(target)

(5)目前的最终版(后期有待完善)  注意注释

import requests
from bs4 import BeautifulSoup
response=requests.get(
    # url=‘https://www.autohome.com.cn/beijing/‘          #最新的地址是可以出来的
    url=‘https://www.autohome.com.cn/news/‘               #老的地址会出现乱码问题
)

response.encoding=response.apparent_encoding   #注意在这里默认就是utf-8
                                                 #这里和写gbk是一样的
soup=BeautifulSoup(response.text,features=‘html.parser‘)       #第一步把文本转换成对象
                                        #后边的features=表示以什么引擎,或者以什么方式转换
                                        #python内置的参数是‘html.parser‘   #这个是默认的
                                        #python的第三方参数‘features=‘lxml‘,需要额外安装才能使用
                                        #实际生产中都是会用lxml,性能会更好一些
target=soup.find(id=‘auto-channel-lazyload-article‘)
# obj=target.find(‘li‘)   #根据标签来寻找
                        #只找到一个标签927530<li>

li_list=target.find_all(‘li‘)   #找所有的li标签
                                #继续寻找
                                #此时li_list是个列表,
for i in li_list:
    a=i.find(‘a‘)
    # print(a.attrs)      #有些标签是没有a标签的,所以报错
    if a:
        print(a.attrs.get(‘href‘))
        txt=a.find(‘h3‘)
        print(txt)      #url+文本     #拿到后放到app或者数据库中
        img=a.find(‘img‘)
        print(img.get(‘src‘))       #图片链接

(6)

#同学案例       #有问题
import requests
from bs4 import BeautifulSoup
url=‘https://www.autohome.com.cn/news/‘
response=requests.get(url)
response.encoding=response.apparent_encoding
# soup=BeautifulSoup(response.text,‘lxml‘,)   #没有安装所以报错
soup=BeautifulSoup(response.text,‘html.parser‘,)   #没有安装lxml模块所以报错

print(soup.title.text)

#结果:【图】最新汽车新闻_资讯_汽车之家

原文地址:https://www.cnblogs.com/studybrother/p/10164017.html

时间: 2024-10-06 11:35:38

汽车之家数据爬取:文章链接//图片//标题的相关文章

链家数据爬取

爬取杭州在售二手房的数据 https://hz.lianjia.com/ershoufang/这是首页地址,我们可以看见有翻页栏,总共100页,每一页30条数据, 第二页地址https://hz.lianjia.com/ershoufang/pg2/,对比可以发现多了一个参数pg2,这样就可以找到规律,1-100页请求地址都可以找到 使用正则表达式提取每一页的数据 '<li.*?LOGCLICKDATA.*?class="info clear".*?title.*?<a.*

数据挖掘工具分析北京房价 (一) 数据爬取采集

一. 前言 房价永远是最让人头疼且激动的话题,尤其是在帝都,多少人一辈子都为了一套房子打拼.正好我也想用一个大家比较关心的话题作为案例,把目前我开发的这套软件进行一次完整的演练.从数据采集,到清洗,分析,和最终可视化和报告的呈现,实现一次完整的流程.一方面可以给大家切实的分享一些有用的信息,再者可以更好地了解这套软件的使用流程.  关于本工具的介绍,可参考数据挖掘平台介绍(综述)——平台简介. 自然的,文章分为四部分,本节是第一部分:数据爬取和采集. 二.  准备工作 俗话说巧妇难为无米之炊,没

python实现数据爬取-清洗-持久化存储-数据平台可视化

基于python对淘宝模特个人信息进行筛选爬取,数据清洗,持久化写入mysql数据库.使用django对数据库中的数据信息筛选并生成可视化报表进行分析. 数据爬取,筛选,存库: # -*- coding:utf-8 -*-   import requests from bs4 import BeautifulSoup import sys import re reload(sys) sys.setdefaultencoding('utf-8') import MySQLdb import cha

基于CrawlSpider全栈数据爬取

CrawlSpider就是爬虫类Spider的一个子类 使用流程 创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider -t crawl spider_name www.xxx.com 构造链接提取器和规则解析器 链接提取器: 作用:可以根据指定的规则进行指定连接的提取 提取的规则: allow = "正则表达式" 会先在全局匹配所有的url,然后根据参数allow的规则匹配需要的链接 规则解析器 作用:获取链接提取器提取到的链接,对其进行请求发送,根据

教育行业漏洞报告平台(Beta)数据爬取分析

解决问题 对教育漏洞提交平台的漏洞相关数据进行分析. 内容与要求 爬取网站提交的漏洞的相关信息,对每年漏洞数量,漏洞类型变化,漏洞类型比例,提交漏洞排名,存在漏洞数最多等方面进行统计分析,并可视化 使用工具 Requests 用于爬取页面 BeautifulSoup用于页面分析 Pandas用于数据分析 Time 用于爬取时进度条显示进度 tqdm用于爬取时进度条显示进度 matplotlib用于数据可视化,绘制统计图 wordcloud 用于数据可视化,绘制云图 爬取数据 网站分析 1.网站为

python实现人人网用户数据爬取及简单分析

这是之前做的一个小项目.这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据.并对用户数据进行分析挖掘,终于效果例如以下:1.存储人人网用户数据(户主的全部好友.户主好友的全部好友.户主及好友关注的公共主页).2.信息可视化,绘制户主好友间的关系网络图:3.数据挖掘,通过分析户主好友关注的公共主页,向户主推荐公共主页. 项目分为三个部分,各自是人人网登录及用户数据爬取与存储.用户关系可视化.公共主页推荐.以下分别介绍这三个部分. 第一部分实现

Python爬虫 股票数据爬取

前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析 地址分析 http://money.finance.sina.com.cn/corp/go.php/vFD_FinancialGuideLine/stockid/000001/ctrl/2017/displaytype/4.phtml 在浏览器(PC上)中打开这个地址,就可以看到下图显示的财务数据.这个地址是一个通用格式:(

链家信息爬取

一.数据库封装 import pymysql class MysqlHelper(object):    def __init__(self):        self.db = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='abc123', database='py1011', charset='utf8')        self.cursor = self.db.cursor() def execut

爬虫案例—中基协数据爬取

因为工作原因,需要爬取相关网站的数据,包括中基协网站和天眼查部分数据. 一.中基协网站 爬取思路: 1.查看目标页:http://gs.amac.org.cn/amac-infodisc/api/pof/manager?rand=0.9775162173180119&page=%s&size=50 发现有随机数字串(刷新反爬措施),以及页码和每页信息条数,可以用来拼接爬取url 用一个循环爬取所有展示页面,用到requests库以及random函数生成随机数 返回的是json数据,直接用r