python 爬取淘宝的模特照片

前段时间花了一部分时间学习下正则表达式，总觉得利用正则要做点什么事情，所以想通过爬取页面的方式把一些美女的照片保存下来，其实过程很简单。

1.首先读取页面信息；

2.过滤出来照片的url地址；

3.通过URL地址来保存图片；

#-*-coding:utf-8 -*-
‘‘‘爬取评论区的美女照片‘‘‘
import requests
import re
RE_PICTURE_NAME = re.compile(r‘(\w)+\.[A-Za-z]+$‘)
RE_URL = re.compile(r‘(\w)+\.(\w)+\.(\w)+/(\w)+\/(\w){2,}\/(\w)+.jpg‘)
request_top_list = requests.get(‘https://mm.taobao.com/json/request_top_list.htm‘)
RESPONSE = request_top_list.text #resp.text返回的是Unicode型的数据
def Get_Reuest_Picture_List(RESPONSE):
    ‘‘‘抓取页面的所有URL‘‘‘
    URLS = []
    for match in RE_URL.finditer(RESPONSE): #所有与pattern相匹配的全部字串，以迭代器的形式返回 与findall的区别,findall在字符串中找到正则表达式所匹配的所有子串，并组成一个列表返回
        URL = match.group()
        URLS.append(‘http://‘+URL)
    return URLS

def Download_Url_Picture(URL):
    ‘‘‘下载图片‘‘‘
    REQUEST_CONTENT = requests.get(URL).content #resp.content返回的是bytes型也就是二进制的数据
    PICTURE_NAME = RE_PICTURE_NAME.search(URL).group(0) #根据url获取图片名字
    FILE_OBJECT = open(str(PICTURE_NAME),‘wb‘) #以二进制的方式写文件
    FILE_OBJECT.write(‘picture\\‘+REQUEST_CONTENT)
    FILE_OBJECT.close()

def Save_All_Picture(URLS):
    ‘‘‘保存所有请求中的图片‘‘‘
    for URL in URLS:
        Download_Url_Picture(URL)

if __name__ == ‘__main__‘:
    URLS = Get_Reuest_Picture_List(RESPONSE)
    Save_All_Picture(URLS)

时间： 2024-12-25 23:09:28

python 爬取淘宝的模特照片的相关文章

python 爬取淘宝模特信息

通过本篇博文,介绍一下我对指定信息进行爬取的时候的思路,顺便贴一下代码. 一.首先获取想要爬取的网站的url链接的规则变化可以看出来该网站页面的url结构简单,变化的只是https://mm.taobao.com/json/request_top_list.htm?page= page的值二.对网站页面的DOM树的结构进行分析,方便我们获取我们想要的内容信息, 我写了个简单的网页分析脚本analyze.py:用来输出DOM树,方便我后面做筛选. # -*- coding:utf-8 -*-

使用python爬取淘宝商品名称和价格

最近在家闲得无聊,由于家里开网点,妈妈对于起商品标题感到很头痛,所以我就想在淘宝爬取一些信息. 小破站找了个学习视频,跟一遍发现视频是2018年的,而淘宝在2019年可能加入了反爬取机制,使用正常的方法爬不到结果. 但是有一种方式可以爬取,要先登陆淘宝网页版,然后去搜索,获取cookie和user-agent. 代码如下: import requests import re def getHTMLText(url): kv = {'cookie':'cna=54y8Fm+TyioCATzcP+B

Python 爬取淘宝商品信息和相应价格

!只用于学习用途! plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html) :获得商品价格和view_price字段,并保存在plt中 tlt = re.findall(r'\"raw_title\"\:\".*?\"',html) :获得商品名称和raw_price字段,并保存在tlt中 price = eval(plt[i].split(':')[1]) :使用冒号分隔键

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程

项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. 不同关键词word对应的sales的统计分析 3. 商品的价格分布情况分析 4. 商品的销量分布情况分析 5. 不同价格区间的商品的平均销量分布 6. 商品价格对销量的影响分析 7. 商品价格对销售额的影响分析 8. 不同省份或城市的商品数量分布 9.不同省份的商品平均销量分布注:本项目仅以以上几项分析为

python基础项目实战:selenium控制浏览器爬取淘宝商品信息

今天为大家介绍一个Python利用selenium打开浏览器的方式来爬取淘宝商品的信息,下面就来看看,关于selenium的知识点,是如何做到控制浏览器获取网站的信息导入第三方库关键词搜索抓取索引页大家在学python的时候肯定会遇到很多难题,以及对于新技术的追求,这里推荐一下我们的Python学习扣qun:784758214,这里是python学习者聚集地!!同时,自己是一名高级python开发工程师,从基础的python脚本到web开发.爬虫.django.数据挖掘等,零基础到项目实

利用Selenium爬取淘宝商品信息

一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,这样,使用了异步加载技术的网页,也可获取其需要的数据. Selenium模块是Python的第三方库,可以通过pip进行安装: pip3 install selenium Selenium自己不带浏览器,需要配合第三方浏览器来使用.通过help命

python3爬取淘宝美食

环境:ubuntu16.04python3.5python库: selenium, pyquery,pymongo, re 要求:设置×××面浏览器访问,并将商品列表存入mongoDB数据库. 分析流程: #!/usr/bin/env python # -*- coding:utf-8 -*- """ 1.爬取淘宝美食的流程 - 搜索关键字: 用selenium打开浏览器,模拟输入关键字,并搜索对应的商品列表. - 分析页码并翻页,模拟翻页,查看到所有页面的商品列表. - 分

用selenium爬取淘宝美食

'''利用selenium爬取淘宝美食网页内容''' import re from selenium import webdriver from selenium.common.exceptions import TimeoutException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.su

爬虫实例之selenium爬取淘宝美食

这次的实例是使用selenium爬取淘宝美食关键字下的商品信息,然后存储到MongoDB. 首先我们需要声明一个browser用来操作,我的是chrome.这里的wait是在后面的判断元素是否出现时使用,第二个参数为等待最长时间,超过该值则抛出异常. browser = webdriver.Chrome() wait = WebDriverWait(browser,10) 声明好之后就需要进行打开网页.进行搜索的操作. #使用webdriver打开chrome,打开淘宝页面,搜索美食关键字,返回