python网络爬虫与信息提取mooc------爬取实例

实例一--爬取页面

1 import requests
2 url="https//itemjd.com/2646846.html"
3 try:
4   r=requests.get(url)
5   r.raise_for_status()
6   r.encoding=r.apparent_encoding
7   print(r.text[:1000])
8 except:
9   print("爬取失败")

正常页面爬取

实例二--爬取页面

 1 import requests
 2 url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
 3 try:
 4    kv={‘user-agent‘:‘Mozilla/5.0‘}
 5    r=requests.get(url,headers=kv)
 6    r.raise_for_status()
 7    r.encoding=r.apparent_encoding
 8    print(r.text[1000:2000])
 9 except:
10    print("爬取失败")

对访问用户名有限制，模拟浏览器对网站请求

实例三--爬取搜索引擎

 1 #百度的关键词接口：http://www.baidu.com/s?wd=keyword
 2 #360的关键词接口：http://www.so.com/s?q=keyword
 3 import requests
 4 keyword="python"
 5 try:
 6     kv={‘wd‘:keyword}
 7     r=requests.get("http://www.baidu.com/s",params=kv)
 8     print(r.request.url)
 9     r.raise_for_status()
10     print(len(r.text))
11 except:
12     print("爬取失败")--------------------------------------------------

import requestskeyword="python"try:    kv={‘q‘:keyword}    r=requests.get("http://www.so.com/s",params=kv)    print(r.request.url)    r.raise_for_status()    print(len(r.text))except:    print("爬取失败")

实例四--:爬取图片

 1 import requests
 2 import os
 3 url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
 4 root="F://pics//"
 5 path=root+url.split(‘/‘)[-1]
 6 try:
 7     if not os.path.exists(root):
 8         os.mkdir(root)
 9     if not os.path.exists(path):
10         r=requests.get(url)
11         with open(path,‘wb‘) as f:
12             f.write(r.content)
13             f.close()
14             print("文件保存成功")
15     else:
16         print("文件已经存在")
17 except:
18     print("爬取失败")

爬取并保存图片

实例五--IP地址归属地查询：

http://m.ip138.com/ip.asp?ip=ipaddress

url="http://www.ip138.com/iplookup.asp?ip="
try:
    r=requests.get(url+‘202.204.80.112‘+‘&action=2‘)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[-500:])
except:
    print("爬取失败")

有反爬了

原文地址：https://www.cnblogs.com/cy2268540857/p/12424091.html

时间： 2024-10-09 03:11:57

python网络爬虫与信息提取mooc------爬取实例的相关文章

python网络爬虫第三弹(<爬取get请求的页面数据>)

一.urllib库 urllib是python自带的一个用于爬虫的库,其主要作用就是通过代码模拟浏览器发送请求,其常被用到的子模块在 python3中的为urllib.request 和 urllib.parse,在python2中的是 urllib 和 urllib2 二.由易到难首页面所有的数据值 1.爬取百度首页所有的数据值 import urllib.request import urllib.parse url = 'http://www.baidu.com' # 通过 URLopen

【Python网络爬虫四】多线程爬取多张百度图片的图片

最近看了女神的新剧<逃避虽然可耻但有用> 被大只萝莉萌的一脸一脸的,我们来爬一爬女神的皂片. 百度搜索结果:新恒结衣 1.下载简单页面通过查看网页的html源码,分析得出,同一张图片共有4种链接: {"thumbURL":"http://img5.imgtn.bdimg.com/it/u=2243348409,3607039200&fm=23&gp=0.jpg", "middleURL":"http://i

Python网络爬虫（6）--爬取淘宝模特图片

经过前面的一些基础学习,我们大致知道了如何爬取并解析一个网页中的信息,这里我们来做一个更有意思的事情,爬取MM图片并保存.网址为https://mm.taobao.com/json/request_top_list.htm.这个网址有很多页,通过在网址后添加?page=页码来进入指定的页. 为了爬取模特的图片,我们首先要找到各个模特自己的页面.通过查看网页源码,我们可以发现,模特各自的页面的特点如下: 我们可以通过查找class属性为lady-name的标签,然后取其href属性来获取各个模特各

python网络爬虫（7）爬取静态数据详解

目的爬取http://seputu.com/数据并存储csv文件导入库 lxml用于解析解析网页HTML等源码,提取数据.一些参考:https://www.cnblogs.com/zhangxinqi/p/9210211.html requests请求网页 chardet用于判断网页中的字符编码格式 csv用于存储文本使用. re用于正则表达式 from lxml import etree import requests import chardet import csv import re

Python网络爬虫与信息提取（中国大学mooc）

目录目录 Python网络爬虫与信息提取淘宝商品比价定向爬虫目标获取淘宝搜索页面的信息理解淘宝的搜索接口翻页的处理技术路线requests-refootnote 代码如下股票数据定向爬虫列表内容爬取网站原则代码如下代码优化 Python网络爬虫与信息提取淘宝商品比价定向爬虫股票数据定向爬虫 1. 淘宝商品比价定向爬虫功能描述目标:获取淘宝搜索页面的信息理解:淘宝的搜索接口翻页的处理技术路线:requests-re[^footnote]. 代码如下: #CrowTa

什么是Python网络爬虫？带你爬向顶峰

首先我们来介绍一下什么是Python网络爬虫,先大概了解一下关于Python网络爬虫的相关知识点. Python作为一门入门简单,功能强大的,库类完善的语言,身受广大猿友们的喜欢.本身对Python也是非常有好感的,所以时不时的逛逛有关Python的网站啥的.通过在各大Python学习群和论坛的学习,我发现学习Python的人大部分都对网络爬虫很感兴趣.下面给各位介绍下Python的学习流程,并且会给出对应的学习教程. 第一步--学习Python 不管你有没有编程语言基础,也不管你其他语言是多厉

Python网络爬虫与信息提取-Requests库网络爬去实战

实例1:京东商品页面的爬取 import requests url="https://item.jd.com/2967929.html" try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000]) except: print("爬取失败") 实例2:亚马逊商品页面的爬取 import requests url="https

MOOC《Python网络爬虫与信息提取》学习过程笔记【requests库】第一周1-3

一得到百度网页的html源代码: >>> import requests >>> r=requests.get("http://www.baidu.com") >>> r.status_code #查看状态码,为200表示访问成功,其他表示访问失败 200 >>> r.encoding='utf-8' #更改编码为utf-8编码 >>> r.text #打印网页内容 >>> r.

python网络爬虫与信息提取【笔记】

以下是''网络爬虫''课程(中国MOOC)学习笔记 [万能的b站] 核心思想: The Website is the API 课程大纲: 一.Requests与robots.txt 1.Requeests 自动爬取HTML页面,自动网络请求提交 2.robots.txt 网络爬虫排除标准二.BeautifulSoup解析HTML页面三.Re正则表达式详解,提前页面关键信息四.Scrapy网络爬虫原理介绍,专业爬虫框架介绍