Python爬虫爬企查查数据

因为制作B2b网站需要，需要入库企业信息数据。所以目光锁定企查查数据，废话不多说，开干！

#-*- coding-8 -*-
import requests
import lxml
import sys
from bs4 import BeautifulSoup
import xlwt
import time
import urllib
 
def craw(url,key_word,x):
    User_Agent = ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0‘
#    if x == 0:
#        re = ‘http://www.qichacha.com/search?key=‘+key_word
#    else:
#        re = ‘https://www.qichacha.com/search?key={}#p:{}&‘.format(key_word,x-1)
    re = r‘https://www.qichacha.com/search?key=‘+key_word
    headers = {
            ‘Host‘:‘www.qichacha.com‘,
            ‘Connection‘: ‘keep-alive‘,
            ‘Accept‘:r‘text/html, */*; q=0.01‘,
            ‘X-Requested-With‘: ‘XMLHttpRequest‘,
            ‘User-Agent‘:r‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36‘,
            ‘Referer‘: re,
            ‘Accept-Encoding‘:‘gzip, deflate, br‘,
            ‘Accept-Language‘:‘zh-CN,zh;q=0.9‘,
            ‘Cookie‘:r‘xxxxxxxxx这里换成你的cookiexxxxxxxx这里换成你的cookiexxxxxxxxx这里换成你的cookiexxxxxxx‘,
            }
 
    try:
        response = requests.get(url,headers = headers)
        if response.status_code != 200:
            response.encoding = ‘utf-8‘
            print(response.status_code)
            print(‘ERROR‘)   
        soup = BeautifulSoup(response.text,‘lxml‘)
    except Exception:
        print(‘请求都不让，这企查查是想逆天吗？？？‘)
    try:
        com_all_info = soup.find_all(class_=‘m_srchList‘)[0].tbody
        com_all_info_array = com_all_info.select(‘tr‘)
        print(‘开始爬取数据，请勿打开excel‘)
        for i in range(0,len(com_all_info_array)):
#            try:
                temp_g_name = com_all_info_array[i].select(‘td‘)[2].select(‘.ma_h1‘)[0].text    #获取公司名
                temp_g_tag = com_all_info_array[i].select(‘td‘)[2].select(‘.search-tags‘)[0].text    #获取公司标签
                temp_r_name = com_all_info_array[i].select(‘td‘)[2].select(‘p‘)[0].a.text    #获取法人名
                temp_g_money = com_all_info_array[i].select(‘td‘)[2].select(‘p‘)[0].select(‘span‘)[0].text.strip(‘注册资本：‘)    #获取注册资本
                temp_g_date = com_all_info_array[i].select(‘td‘)[2].select(‘p‘)[0].select(‘span‘)[1].text.strip(‘成立日期：‘)    #获取公司注册时间
                temp_r_email = com_all_info_array[i].select(‘td‘)[2].select(‘p‘)[1].text.split(‘\n‘)[1].strip().strip(‘邮箱：‘)    #获取法人Email
                temp_r_phone = com_all_info_array[i].select(‘td‘)[2].select(‘p‘)[1].select(‘.m-l‘)[0].text.strip(‘电话：‘)    #获取法人手机号
                temp_g_addr = com_all_info_array[i].select(‘td‘)[2].select(‘p‘)[2].text.strip().strip(‘地址：‘)    #获取公司地址
                temp_g_state = com_all_info_array[i].select(‘td‘)[3].select(‘.nstatus.text-success-lt.m-l-xs‘)[0].text.strip()  #获取公司状态
                 
                g_name_list.append(temp_g_name)
                g_tag_list.append(temp_g_tag)
                r_name_list.append(temp_r_name)
                g_money_list.append(temp_g_money)
                g_date_list.append(temp_g_date)
                r_email_list.append(temp_r_email)
                r_phone_list.append(temp_r_phone)
                g_addr_list.append(temp_g_addr)
                g_state_list.append(temp_g_state)
                 
#            except Exception:
#                print(‘错误！‘)
    except Exception:
        print(‘好像被拒绝访问了呢...请稍后再试叭...‘)
         
if __name__ == ‘__main__‘:
    global g_name_list
    global g_tag_list
    global r_name_list
    global g_money_list
    global g_date_list
    global r_email_list
    global r_phone_list
    global g_addr_list
    global g_state_list
     
    g_name_list=[]
    g_tag_list=[]
    r_name_list=[]
    g_money_list=[]
    g_date_list=[]
    r_email_list=[]
    r_phone_list=[]
    g_addr_list=[]
    g_state_list=[]
 
    key_word = input(‘请输入您想搜索的关键词：‘)
    num = int(input(‘请输入您想检索的次数：‘))+1
    sleep_time = int(input(‘请输入每次检索延时的秒数：‘))
     
    key_word = urllib.parse.quote(key_word)
     
    print(‘正在搜索，请稍后‘)
     
    for x in range(1,num):
        url = r‘https://www.qichacha.com/search_index?key={}&ajaxflag=1&p={}&‘.format(key_word,x)
        s1 = craw(url,key_word,x)
        time.sleep(sleep_time)
    workbook = xlwt.Workbook()
    #创建sheet对象，新建sheet
    sheet1 = workbook.add_sheet(‘企查查数据‘, cell_overwrite_ok=True)
    #---设置excel样式---
    #初始化样式
    style = xlwt.XFStyle()
    #创建字体样式
    font = xlwt.Font()
    font.name = ‘仿宋‘
#    font.bold = True #加粗
    #设置字体
    style.font = font
    #使用样式写入数据
    print(‘正在存储数据，请勿打开excel‘)
    #向sheet中写入数据
    name_list = [‘公司名字‘,‘公司标签‘,‘法定法人‘,‘注册资本‘,‘成立日期‘,‘法人邮箱‘,‘法人电话‘,‘公司地址‘,‘公司状态‘]
    for cc in range(0,len(name_list)):
        sheet1.write(0,cc,name_list[cc],style)
    for i in range(0,len(g_name_list)):
        print(g_name_list[i])
        sheet1.write(i+1,0,g_name_list[i],style)#公司名字
        sheet1.write(i+1,1,g_tag_list[i],style)#公司标签
        sheet1.write(i+1,2,r_name_list[i],style)#法定法人
        sheet1.write(i+1,3,g_money_list[i],style)#注册资本
        sheet1.write(i+1,4,g_date_list[i],style)#成立日期
        sheet1.write(i+1,5,r_email_list[i],style)#法人邮箱
        sheet1.write(i+1,6,r_phone_list[i],style)#法人电话
        sheet1.write(i+1,7,g_addr_list[i],style)#公司地址
        sheet1.write(i+1,8,g_state_list[i],style)#公司状态
    #保存excel文件，有同名的直接覆盖
    workbook.save(r"D:\wyy-qcc-"+time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime()) +".xls")
    print(‘保存完毕~‘)

原文地址：https://www.cnblogs.com/68xi/p/11206584.html

时间： 2024-10-09 07:02:19

Python爬虫爬企查查数据的相关文章

python爬虫——爬取网页数据和解析数据

1.网络爬虫的基本概念网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.只要浏览器能够做的事情,原则上,爬虫都能够做到. 2.网络爬虫的功能图2 网络爬虫可以代替手工做很多事情,比如可以用于做搜索引擎,也可以爬取网站上面的图片,比如有些朋友将某些网站上的图片全部爬取下来,集中进行浏览,同时,网络爬虫也可以用于金融投资领域,比如可以自动爬取一些金融信息,并进行投资分析等. 有时,我们比较喜欢的新闻网站可能有几个,每次

用Python爬虫爬取广州大学教务系统的成绩（内网访问）

用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code] 在{}之前的部分就是"选择器"."选择器"指明了{}中的"样式"的作用对象,也就是"样式"作用于网页中的哪些元素.可参考:http://www.w3school.com.cn/cssref/css_selectors.asph

java调用Linux执行Python爬虫，并将数据存储到elasticsearch--（环境脚本搭建）

java调用Linux执行Python爬虫,并将数据存储到elasticsearch中一.以下博客代码使用的开发工具及环境如下: 1.idea: 2.jdk:1.8 3.elasticsearch:5.2.0 4.Linux 5.Python 6.maven 二.maven坐标:  <dependency> <groupId>ch.ethz.ganymed</groupId> <artifactId>

python之爬取网页数据总结（一）

今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件. 因为配置了环境变量,可以cmd命令直接安装.假如电脑上有两个版本的python,建议进入到目录安装. 安装的命令为 pip install requests(Beautifulsoup4 /lxml ) 三条分别执行. 安装结束,可以尝试网上一些简单的例子,明白了解 Beautifulso

python爬虫—爬取英文名以及正则表达式的介绍

python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv文件中:再读取csv文件当中的每个英文名链接,采用循环的方法读取每一个英文名链接,根据每个英文名链接爬取每个链接中的数据,保存在新的csv文件当中. 需要写一个爬取英文名链接的函数.将爬取的内容保存在csv文件的函数以及读取csv文件内容的函数.爬取英文名详情页内容的函数. 表5.3.1 函数名

Python爬虫--2019大学排名数据抓取

Python爬虫--2019大学排名数据抓取准备工作输入:大学排名URL连接输出:大学排名信息屏幕输出所需要用到的库:requests,bs4 思路获取网页信息提取网页中的内容并放到数据结构中利用数据结构展示并输出结果程序设计定义函数getHTMLText()获取网页信息定义函数UnivList()放入数据结构定义函数printUnivList()输出到屏幕总体而言: 写出需要自定义的函数,制作出总体的框架写出主函数框架,实现功能最后调用函数步骤查看url源代码

python爬虫爬取csdn博客专家所有博客内容

简单的python爬虫爬的乌云漏洞类型

import urllib.request import re starturl="http://wooyun.org/searchbug.php?q=%E9%87%91%E8%9E%8D" def get_html_response(url): html_response = urllib.request.urlopen(url).read().decode('utf-8') return html_response def geturl(starturl): a=get_html_

python爬虫爬取美女图片

python 爬虫爬取美女图片 #coding=utf-8 import urllib import re import os import time import threading def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImgUrl(html,src): srcre = re.compile(src) srclist = re.findall(srcre,html)