python3.6+BeautifulSoup4.2 爬取各类app应用信息并下载app包

---------------环境配置---------------

1、在Windows操作系统下安装python-3.6.4-amd64.exe

2、配置环境变量

Path变量:如C:\Users\Administrator\AppData\Local\Programs\Python\Python36\

打开cmd命令窗口,输入:python命令,可以进入python 编辑命令行,即可。

3、把beautifulsoup4-4.6.0.tar.gz解压后,放在Python36\目录下,在cmd中...\Python36\beautifulsoup4-4.6.0\下执行命令

python setup.pyinstall ,安装成功不报错。

4、把get-pip.py放在...\Python36\目录下,执行命令:python get-pip.py,安装pip成功。

5、在...\Python36\Scripts目录下,打开cmd,导入requests、pymysql、urllib等模块,执行命令如下

pip installrequests

pip installpymysql

pip installurllib

测试一下python的环境---导入几个包,不报错即可

import requests

from bs4 importBeautifulSoup

import pymysql

fromurllib.request import urlopen

-------------执行app应用信息爬取-----

1、首先把app爬取脚本getmiAppInfo整个文件夹放在...\Python36\Lib\site-packages目录下

2、修改数据库配置文件

\GetAllAppInfo\baseconfig.ini

如下:

[db]

DB_HOST=192.168.2.73

DB_PORT=3306

DB_USERNAME=root

DB_PASSWORD=cecgw

DB_BASEDATA=app

3、需要创建一个mysql数据库,数据库名称为app

执行表创建脚本

------------------------------

-- Tablestructure for appinfo1

------------------------------

DROP TABLE IFEXISTS `appinfo1`;

CREATE TABLE`appinfo1` (

`id` int(11) NOT NULL AUTO_INCREMENT,

`channel` varchar(50) DEFAULT NULL,

`Faclassname` varchar(255) DEFAULT NULL,

`subclassname` varchar(100) DEFAULT NULL,

`appname` varchar(255) DEFAULT NULL,

`score` varchar(50) DEFAULT NULL,

`loadcounts` varchar(50) DEFAULT NULL,

`size` varchar(50) DEFAULT NULL,

`author` varchar(255) DEFAULT NULL,

`updatetime` varchar(50) DEFAULT NULL,

`version` varchar(100) DEFAULT NULL,

`supsystem` varchar(100) DEFAULT NULL,

`suplang` varchar(50) DEFAULT NULL,

`appurl` varchar(255) DEFAULT NULL,

`loadurl` varchar(255) DEFAULT NULL,

`str1` varchar(255) DEFAULT NULL,

`str2` varchar(255) DEFAULT NULL,

`str3` varchar(255) DEFAULT NULL,

`str4` varchar(255) DEFAULT NULL,

`str5` varchar(255) DEFAULT NULL,

PRIMARY KEY (`id`)

) ENGINE=InnoDBAUTO_INCREMENT=1038 DEFAULT CHARSET=utf8;

4、运行app爬取脚本

打开...\Python36\Lib\site-packages\GetAllAppInfo\目录,打开cmd,

执行命令python RunMain.py

根据渠道说明,输入渠道标号

如输入1,自动执行‘360手机助手’渠道的app应用信息爬取

存储到数据库后,根据loadurl需要下载app.apk包下载到\GetAllAppInfo\pkg,请执行python appDownload.py

注意:

源代码详见

链接:https://pan.baidu.com/s/1ggOJl2j 密码:0auz

原文地址:https://www.cnblogs.com/xianjie0318/p/8431266.html

时间: 2024-10-11 10:54:26

python3.6+BeautifulSoup4.2 爬取各类app应用信息并下载app包的相关文章

xpath案例 爬取58出租房源信息&解析下载图片数据&乱码问题

58二手房解析房源名称 from lxml import etree import requests url = 'https://haikou.58.com/chuzu/j2/' headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Mobile Safari/537.

【Python3 爬虫】U11_爬取中国天气网

目录 1.网页分析 2.代码实现 1.网页分析 庚子年初,各种大事件不期而至,又赶上最近气温突变,所以写个爬虫来爬取下中国天气网,并通过图表反映气温最低的前20个城市. 中国天气网:http://www.weather.com.cn/textFC/hb.shtml 打开后如下图: 从图中可以看到所有城市按照地区划分了,并且每个城市都有最低气温和最高气温,通过chrome查看Elements,如下: 从上图可以看到展示当天的数据,那么<div class='conMidtab'>..这个标签则没

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

一. 文章介绍 前一篇文章"[python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID.用户名.微博数.粉丝数.关注数等. 微博信息:包括转发或原创.点赞数.转发数.评论数.发布时间.微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩: http://weibo.cn/guangxianliuya 因为手机端数据相对精简简单,所以采用输

Node.js爬虫-爬取慕课网课程信息

第一次学习Node.js爬虫,所以这时一个简单的爬虫,Node.js的好处就是可以并发的执行 这个爬虫主要就是获取慕课网的课程信息,并把获得的信息存储到一个文件中,其中要用到cheerio库,它可以让我们方便的操作HTML,就像是用jQ一样 开始前,记得 npm install cheerio 为了能够并发的进行爬取,用到了Promise对象 //接受一个url爬取整个网页,返回一个Promise对象 function getPageAsync(url){ return new Promise(

[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对比,你可以进一步加深Python爬虫的印象.同时,文章给出了我以前关于爬虫的基础知识介绍,方便新手进行学习.        总之,希望文章对你有所帮助,如果存在不错或者错误的地方,还请海涵~ 一. DOM树结构分析 豆瓣Top250电影网址:https://movie.douban.com/top2

利用Selenium爬取淘宝商品信息

一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一个强大的网络数据采集工具,其可以让浏览器自动加载页面,这样,使用了异步加载技术的网页,也可获取其需要的数据. Selenium模块是Python的第三方库,可以通过pip进行安装: pip3 install selenium Selenium自己不带浏览器,需要配合第三方浏览器来使用.通过help命

Python爬虫项目--爬取自如网房源信息

本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2 的p参数控制分页 2. get请求 2.获取单页源码 1 # -*- coding: utf-8 -*- 2 import requests 3 import time 4 from requests.exceptions import

Python 爬取拉勾网python职位信息

今天的任务是爬取拉勾网的职位信息. 首先,我们进入拉勾网,然后在职位搜索栏搜索Python 的同时,打开控制面板F12,来查看网页构成. 在XHR里,可以清楚的看见Ajax请求,所以需要使用session模块来模拟浏览器的行为来操作. 源代码如下: import requests import json header = { 'Accept': 'application/json, text/javascript, */*; q=0.01', 'Referer': 'https://www.la

[实战演练]python3使用requests模块爬取页面内容

本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取响应状态码 5.案例演示 后记 1.安装pip 我的个人桌面系统用的linuxmint,系统默认没有安装pip,考虑到后面安装requests模块使用pip,所以我这里第一步先安装pip. $ sudo apt install python-pip 安装成功,查看PIP版本: $ pip -V 2.