【学习笔记】python爬取百度真实url

今天跑个脚本需要一堆测试的url，，，挨个找复制粘贴肯定不是程序员的风格，so，还是写个脚本吧。

环境：python2.7

编辑器：sublime text 3

一、分析一下

首先非常感谢百度大佬的url分类非常整齐，都在一个类下

即c-showurl,所以只要根据css爬取链接就可以，利用beautifulsoup即可实现，代码如下：

        soup = BeautifulSoup(content,‘html.parser‘)
        urls = soup.find_all("a",class_=‘c-showurl‘)

还有另外的一个问题是百度对url进行了加密，要想获得真实的url，我的思路是访问一遍加密的url，再获得访问界面的url，这时获取到的url即为真实的url。

完整代码如下：

#coding = utf-8
import requests
from bs4 import BeautifulSoup
import time

headers = {
                    ‘Accept‘:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8‘,
                    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 QIHU 360SE‘
            }

page_start = raw_input(‘please input stratpage\n‘)
page_end = raw_input(‘please input endpage\n‘)
word = raw_input(‘please input keyword\n‘)

if page_start == 1:
    page_start = 0
else:
    page_start = (int(page_start)-1)*10

page_end = (int(page_end)-1)*10

for i in range(page_start,page_end,10):
    url = ‘http://www.baidu.com/s?wd=‘+word+‘&pn=‘+str(i)
    try:
        response = requests.get(url,headers=headers,timeout=10)
        print ‘downloading...‘+url
        content = response.content
        soup = BeautifulSoup(content,‘html.parser‘)
        urls = soup.find_all("a",class_=‘c-showurl‘)
        for href in urls:
            a = href[‘href‘]
            try:
                res = requests.get(a,headers=headers,timeout=10)
                with open(‘urls.txt‘,‘a‘) as f:
                    f.write(res.url)
                    f.write(‘\n‘)
                time.sleep(1)
            except Exception,e:
                print e
                pass
    except Exception,e:
        print e
        pass

当然，这只是简单的功能，如果爬取大量的url，建议利用线程进行处理，不然等到爬完也等到地老天荒了。。。。。我是爬取百十来个url，亲测还可以。

时间： 2024-07-30 00:33:42

【学习笔记】python爬取百度真实url的相关文章

python爬取百度翻译返回：{'error': 997, 'from': 'zh', 'to': 'en', 'query 问题

解决办法: 修改url为手机版的地址:http://fanyi.baidu.com/basetrans User-Agent也用手机版的测试代码: # -*- coding: utf-8 -*- """ ------------------------------------------------- File Name: requestsGet Description : 爬取在线翻译数据s Author : 神秘藏宝室 date: 2018-04-17 --------

python 爬取百度url

1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # @Date : 2017-08-29 18:38:23 4 # @Author : EnderZhou ([email protected]) 5 # @Link : http://www.cnblogs.com/enderzhou/ 6 # @Version : $Id$ 7 8 import requests 9 import sys 10 from Queue import Queu

python3 爬虫学习-根据关键词爬取百度百科内容

小白编了好久才写出来,记录一下免得之后再用的时候都忘了还得重新学~ 学习爬虫最开始是学习了慕课上的python课程,然后学习了慕课和网易云上的爬虫教程.这两个自己去查一下就好了~ 开始还比较费劲,毕竟熟悉需要时间么,而且python也不太熟悉. 关于python版本:我一开始看很多资料说python2比较好,因为很多库还不支持3,但是使用到现在为止觉得还是pythin3比较好用,因为编码什么的问题,觉得2还是没有3方便.而且在网上找到的2中的一些资料稍微改一下也还是可以用. 好了,开始说爬百度百

Python爬取百度贴吧内容

参考资料:https://cuiqingcai.com/993.html 即静觅» Python爬虫实战二之爬取百度贴吧帖子我最近在忙学校的一个小项目的时候涉及到NLP的内容.但是在考虑如何训练的时候却才懂什么叫巧妇难为无米之炊的滋味.中文语料库实在少的可怜,偶尔有一两个带标签的语料库,拿出一看,标注惨不忍睹,都让我怀疑是不是机器标注的.正应了那句话,人工智能,有多少智能就有多少人工. 有什么办法呢,硬着头皮,走一步是一步吧,总比停滞不前要好.项目涉及到帖子,那么我相信不管是谁,首先想到的

python爬取百度搜索图片

在之前通过爬取贴吧图片有了一点经验,先根据之前经验再次爬取百度搜索界面图片废话不说,先上代码 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2017/7/22 10:44 # @Author : wqj # @Contact : [email protected] # @Site : # @File : test.py # @Software: PyCharm Community Edition import requests

python入门学习之Python爬取最新笔趣阁小说

Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后迎刃而解了.这个程序非常的简单,程序的大概就是先获取网页的源代码,然后在网页的源代码中提取每个章节的url,获取之后,在通过每个url去获取文章的内容,在进行提取内容,然后就是保存到本地,一TXT的文件类型保存.大概是这样1:获取网页源代码2:获取每章的url3:获取每章的内容4:下载保存文件中 1

python爬取百度搜索结果ur汇总

写了两篇之后,我觉得关于爬虫,重点还是分析过程分析些什么呢: 1)首先明确自己要爬取的目标比如这次我们需要爬取的是使用百度搜索之后所有出来的url结果 2)分析手动进行的获取目标的过程,以便以程序实现比如百度,我们先进行输入关键词搜索,然后百度反馈给我们搜索结果页,我们再一个个进行点击查询 3)思考程序如何实现,并克服实现中的具体困难那么我们就先按上面的步骤来,我们首先认识到所搜引擎,提供一个搜索框,让用户进行输入,然后点击执行我们可以先模拟进行搜索,发现点击搜索之后的完整url中有一

Python 爬取qqmusic音乐url并批量下载

qqmusic上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦人的登录什么的.于是,来了个qqmusic的爬虫. 至少我觉得for循环爬虫,最核心的应该就是找到待爬元素所在url吧.下面开始找吧(讲的不对不要笑我) #寻找url: 这个url可不想其他的网站那么好找.把我给累得不轻,关键是数据多,从那么多数据里面挑出有用的数据,最后组合为music真正的music.昨天做的时候整理的几个中间url: #url1:https://c.y.qq.com/soso/fcgi-b

Python爬取百度实时热点排行榜

今天爬取的百度的实时热点排行榜按照惯例,先下载网站的内容到本地: 1 def downhtml(): 2 url = 'http://top.baidu.com/buzz?b=1&fr=20811' 3 headers = {'User-Agent':'Mozilla/5.0'} 4 r = requests.get('url',headers=headers) 5 with open('C:/Code/info_baidu.html','wb') as f: 6 f.write(r.cont