Python 简单爬虫案例

Python 简单爬虫案例

import requests
url = "https://www.sogou.com/web"
# 封装参数
wd = input(‘enter a word‘)
param = {
    ‘query‘:wd
}
response = requests.get(url=url,params=param)

page_text = response.content
fileName = wd+‘.html‘
with open(fileName,‘wb‘) as fp:
    fp.write(page_text)
    print(‘over‘)

需求:爬去搜狗指定词条搜索后的页面数据

import requests
url = "https://fanyi.baidu.com/sug"
wd = input(‘enter aword‘)
data = {
    ‘kw‘:wd
}
response = requests.post(url=url,data=data)
print(response.json())

需求:抓取百度翻译

import requests
url = "https://movie.douban.com/j/chart/top_list"
param = {
    "type": "5",
    "interval_id": "100:90",
    "action": "",
    "start": "40",
    "limit": "100",
}

movie_data = requests.get(url=url,params=param).json()
print(movie_data)

需求:抓取豆瓣电影分类https://movie.douban.com/排行榜中的电影详情数据

import requests
url = ‘http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx‘
wd = input(‘enter aword:‘)
data = {
    "cname": ‘‘,
    "pid": ‘‘,
    "keyword":wd ,
    "pageIndex": "1",
    "pageSize": "10",
}
response = requests.post(url=url,data=data).json()
print(response)

需求:抓取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数据

http://125.35.6.84:81/xk/
import requests
url = ‘http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsList‘

headers = {
    ‘User-Agent‘:"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}

id_list = []
for page in range(1,11):
    data = {
        "on": "true",
        "page": str(page),
        "pageSize": "15",
        "productName": ‘‘,
        "conditionType": "1",
        "applyname": ‘‘,
        "applysn": ‘‘,
    }
    json_data = requests.post(url=url,data=data,headers=headers).json()
    for dic in json_data["list"]:
        id = dic["ID"]
        id_list.append(id)

detail_url = "http://125.35.6.84:81/xk/itownet/portalAction.do?method=getXkzsById"
for id in id_list:
    detail_data = {
        "id":id
    }
    detail_json = requests.post(url=detail_url,data=detail_data,headers=headers).json()
    print(detail_json)

需求:爬去国家药品监督管理总局中基于中华人民共和国化妆品生产许个证相关数据 http://125.35.6.84:81/xk/

import os
import re
import urllib
import requests

url = ‘https://www.qiushibaike.com/pic/page/%d/?s=5170552‘
# page = 1
headers = {
    ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36‘
}
if not os.path.exists(‘./qiutu‘):
    os.mkdir(‘./qiutu‘)

start_page = int(input(‘enter a start pageNum:‘))
end_page = int(input(‘enter a end pageNum:‘))

for page in range(start_page,end_page+1):
    new_url = format(url%page)
#     print(new_url)
    page_text = requests.get(url=new_url,headers=headers).text
    img_url_list = re.findall(‘<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>‘,page_text,re.S)
    for img_url in img_url_list:
        img_url = ‘https:‘+img_url
        imgName = img_url.split(‘/‘)[-1]
        imgPath = ‘qiutu/‘+imgName
        urllib.request.urlretrieve(url=img_url,filename=imgPath)
        print(imgPath,‘下载成功!‘)

print(‘over!!!‘)

需求:爬去糗事百科中所有图片进行保存

import requests
url = "https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1564643415&di=423648f96f24460811fc7a39e23d29f8&imgtype=jpg&er=1&src=http%3A%2F%2Fimg1.replays.net%2Flol.replays.net%2Fuploads%2Fbody%2F2017%2F06%2F1496734520iBi.jpg"
headers = {
    ‘User-Agent‘:"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}
img_data = requests.get(url=url,headers=headers).content
with open(‘./kapai.jpg‘,‘wb‘) as fp:
    fp.write(img_data)

需求:爬取卡牌大师4k照片

原文地址:https://www.cnblogs.com/xiangsikai/p/11251658.html

时间: 2024-11-05 12:07:08

Python 简单爬虫案例的相关文章

Python 简单爬虫

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 import os import time import webbrowser as web import random count = random.randint(20,40) j = 0 while j < count:     i = 0     while i <= 5:         web.open_new_tab('http://www.cnblogs.com/evilxr/p/37642

Python简单爬虫入门二

接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一 上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素 首先回顾以下我们BeautifulSoup的基本结构如下 #!/usr/bin/env python # -*-coding:utf-8 -*- from bs4 import BeautifulSoup import requests headers = { 'User-Agent':'Mozilla/5.0 (Win

Python简单爬虫第六蛋!(完结撒花)

第六讲: 今天我们来实战一个项目,我本人比较喜欢看小说,有一部小时叫<圣墟>不知道大家有没有听说过,个人觉得还是不错的,现在联网的时候,都可以随时随地用手机打开浏览器搜索查看,但是有时候也会遇到没有网络的情况,这个就很扎心了,有什么办法呢?所以这个项目基于这么一个现实背景来分析实现一下,把我们前几次讲到一些技术方法都运用一遍. (有人可能会说直接下载一个txt格式的小说文本文件不就好了,虽然是挺方便的,但是懒惰是不好的习惯,而且也没有运用到所学的知识,那么我们何必要学习呢?为什么要学,看完实例

python简单爬虫

爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2.BeautifulSoup实现简单爬虫,scrapy也有实现过.最近想更好的学习爬虫,那么就尽可能的做记录吧.这篇博客就我今天的一个学习过程写写吧. 一  正则表达式 正则表达式是一个很强大的工具了,众多的语法规则,我在爬虫中常用的有: . 匹配任意字符(换行符除外) * 匹配前一个字符0或无限次 ? 匹配前一个字符0或1次 .* 贪心算法 .*? 非贪心算法 (.*?) 将匹配到的括号中的结果输出 \d 匹配数字 re.S 使得.

python 简单爬虫(beatifulsoup)

---恢复内容开始--- python爬虫学习从0开始 第一次学习了python语法,迫不及待的来开始python的项目.首先接触了爬虫,是一个简单爬虫.个人感觉python非常简洁,相比起java或其他面向对象的编程语言,动态语言不需要声明函数或变量类型.python有20年的发展历史,以简洁高效闻名,python最初只是一个马戏团的名字,它的哲学是'用一种方法完成一件事情'.我第一次使用python时就被它的简洁高效迷住了,相比起c++和java,他简直太棒了.而且现阶段的大数据和人工智能领

python 简单爬虫diy

简单爬虫直接diy, 复杂的用scrapy import urllib2 import re from bs4 import BeautifulSoap req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"}) webpage= urllib2.urlopen(req) soap = BeautifulSoap(webpage.read()) ...

python简单爬虫定时推送同花顺直播及荐股至邮箱

1.初衷:实践 2.技术:python requests Template 3.思路:根据直播页面获取评价最高的前十博主,定时爬行最新的消息和实战股票 4.思路:python 编辑简单邮件html模板 5.难点:邮件html模板的设计,还需要邮箱支持 爬虫文件 '''-- #coding:utf-8import requestsfrom lxml import etreefrom sendmail import sendmailimport sys, timefrom string import

python简单爬虫的实现

python强大之处在于各种功能完善的模块.合理的运用可以省略很多细节的纠缠,提高开发效率. 用python实现一个功能较为完整的爬虫,不过区区几十行代码,但想想如果用底层C实现该是何等的复杂,光一个网页数据的获得就需要字节用原始套接字构建数据包,然后解析数据包获得,关于网页数据的解析,更是得喝一壶. 下面具体分析分析用python如何构建一个爬虫. 0X01  简单的爬虫主要功能模块 URL管理器:管理待抓取URL集合和已抓取URL集合,防止重复抓取.防止循环抓取.主要需要实现:添加新URL到

Python简单爬虫第一蛋!

Python爬虫简单教程 一.准备工作: ①python 3.x 的环境 ②Windows 10 操作系统 ③能连接上互联网 二.注意事项: ①仅供参考学习,如有转载请注明出处! ②获取的数据不能用于商业应用,仅供学习. ③注意动手实践. 第一讲:第一个模块(requests)的使用教程 首先,需要安装一下requests 模块,这个在系统命令行(cmd)中用 pip install requests 命令完成.(这是很基本的操作,直接跳过哈) 然后打开我们的IDE(这里我用的是Spyder,也