用python爬虫爬取百度外卖店铺排名

#!/usr/bin/env python
# encoding: utf-8

"""
@version: ??
@author: phpergao
@license: Apache Licence 
@file: baidu_paiming.py
@time: 2016/8/1 11:10
"""

import requests,re,urllib,codeop,urllib.request,nturl2path,macurl2path

urllist = ["f7a2bee997ef68e8",  # 丽影
           "3b246a0864597e50",  # 穗丰
           "0ebf88697141f32f",  # 冠城
           "eff209d4a7f538ca",  # 礼岗
           "57f9e38e087acf61",  # 购书
           ]
def chapaiming(urllist):
    User_Agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"#伪装成浏览器访问
    headers = (‘User-Agent‘, User_Agent)
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    num0=1
    num=1
    flag=True

    while flag:

        url="http://waimai.baidu.com/waimai/shoplist/{}?display=json&page={}&count=40".format(urllist,num0)
        num0 += 1
        ret = opener.open(url)
        #ret =urllib.request.urlopen(url)
        ret=ret.read().decode(‘unicode_escape‘)
        html = re.findall(r‘‘‘"shop_name":"(.*?)","shop_announcement":‘‘‘, ret)
        address=re.findall(r‘‘‘"poi_address":"(.*?)"},"sortby":‘‘‘,ret)
        for i in html:
            num += 1
            if ‘72‘ in str(i):

                print(i,"排名在:{},定位地址:{}".format(num,address))
                num0 = 1
                flag=False

                break
            #print(i)

if __name__=="__main__":
    for i in urllist:
        chapaiming(i)

时间： 2024-12-14 01:37:04

用python爬虫爬取百度外卖店铺排名的相关文章

python爬虫—爬取百度百科数据

爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数据生成html模块 html_parser 获取有用数据 url_manager url管理器 spider_main 爬虫启动代码 spider_main.py 1 #!/usr/bin/python 2 #-*- coding: utf8 -*- 3 4 import html_download

Python爬虫爬取百度贴吧的帖子

同样是参考网上教程,编写爬取贴吧帖子的内容,同时把爬取的帖子保存到本地文档: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2import reimport sys reload(sys)sys.setdefaultencoding("utf-8")#处理页面标签,去除图片.超链接.换行符等class Tool: #去除img标签,7位长空格 removeImg = re.compile('<img.*

Python爬虫爬取百度贴吧的图片

根据输入的贴吧地址,爬取想要该贴吧的图片,保存到本地文件夹,仅供参考: #!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2import reimport osimport sys reload(sys)sys.setdefaultencoding("utf-8")#下载图片class GetPic: #页面初始化 def __init__(self,baseUrl,seelz): #base链接地址 self.

Python爬虫-爬取百度贴吧帖子

这次主要学习了替换各种标签,规范格式的方法.依然参考博主崔庆才的博客. 1.获取url 某一帖子:https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1 其中https://tieba.baidu.com/p/3138733512?为基础部分,剩余的为参数部分. http:// 代表资源传输使用http协议 tieba.baidu.com 是百度的二级域名,指向百度贴吧的服务器. /p/3138733512 是服务器某个资源,即这个帖子的地址定位符

python --爬虫--爬取百度翻译

import requestsimport json class baidufanyi: def __init__(self, trans_str): self.lang_detect_url = 'https://fanyi.baidu.com/langdetect' # 语言检测地址 self.trans_str = trans_str self.headers= {'User-Agent:Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA5

python爬虫爬取csdn博客专家所有博客内容

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImgUrl(html,src): srcre = re.compile(src) srclist = re.findall(srcre,html)

Python爬虫爬取博客园并保存

Python爬虫爬取博客园并保存爬取博客园指定用户的文章修饰后全部保存到本地首先定义爬取的模块文件: crawlers_main.py 执行入口 url_manager.py url管理器 download_manager.py 下载模块 parser_manager.py html解析器(解析html需要利用的内容) output_manager.py 输出html网页全部内容文件(包括css,png,js等) crawlers_main.py 执行入口 1 # coding

用Python爬虫爬取广州大学教务系统的成绩（内网访问）

用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是"选择器"."选择器"指明了{}中的"样式"的作用对象,也就是"样式"作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asph