百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量-笔记篇

需要结合:《百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量-代码篇》一起学习

#百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量

#知识点

‘‘‘

1 网络爬虫

2 Python开发网络爬虫

3 requests库

4 文件操作

‘‘‘

#项目结构

‘‘‘

key.txt                 关键字文档,根据这个文档中的关键字进行爬取

demo.py               爬虫文件内容了

res/软件开发.txt    爬虫采集来的URL

‘‘‘

#在Pycharm中新建项目:C:...0501

#该项目暂时没有多线程和多进程

#在项目中新建脚本spider.py

#版本信息

‘‘‘

1 环境              python3

2 第三方模块  requests     安装方法 pip install requests

3 IDE               PyCharm

‘‘‘

#数据在哪里?爬取哪里的数据呢?

#打开浏览器,打开百度,在搜索框中输入“程序设计”  点击“百度一下”按钮,在百度返回的信息中,广告部分不要,其余部分的每个网站的网址

#爬虫其实就是在模拟浏览器,向目标网站发一个http请求,这个http请求是如何发送的呢?

#在浏览器按F12,可以帮助我们监控浏览器发送的请求,,90%以上的网站都是基于http请求的

#在搜索框中输入“程序设计”,点击 “百度一下”按钮之后,在Network栏会出现很多数据,每一条数据都代表一个http请求

#点击“百度一下”按钮之后,展示的页面超文本是什么样子的呢? 在空白的地方右键-->"查看网页源代码",就会发现网页其实就是一个html文本,经过浏览器处理,展示成用户看到的样子。前台看到的每一项信息都会是一个<a></a>标签,是一个超链接来的。

#所以首先需要找到html文本中的<a>标签中的超链接信息,在Network中的每个http请求的Respont栏下都有很多信息,想要拿到这个数据,就要去Headers栏下去找Request URL信息(如:Request URL:https://ss3.baidu.com/6ONWsjip0QIZ8tyhnq/ps_default.gif?_t=1525188253376)。

#要想访问一个网页首先需要知道的是,网址栏中的URL,如:https://www.baidu.com/s?wd=%E7%A8%8B%E5%BA%8F%E8%AE%BE%E8%AE%A1&rsv_spt=1&rsv_iqid=0x967855b80019cdd1&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=0&rsv_sug3=3&rsv_sug1=2&rsv_sug7=100&inputT=643536&rsv_sug4=644636

#过一遍原理

#网络爬虫

‘‘‘  简单定义一下什么是爬虫

本质上就是一个程序,在获取text之前的这几行代码就是一个爬虫了

这个程序可以模拟浏览器自动去互联网上下载我们需要的网络资源

‘‘‘

#网络资源

‘‘‘

在互联网上能够访问到的图片、视频、网页、文件等

每一个网络资源,通过什么访问呢?

比如网页要通过网址来访问 url

‘‘‘

#url

‘‘‘

全球统一资源定位符

‘‘‘

#浏览器的工作流程

‘‘‘

第一步:浏览器先要访问某个资源,首先要有URL,根据这个URL去访问网络资源,这个url执行其对应的服务器,根据URL,浏览器发送HTTP请求(常用的两种方式get/post)

忽略服务器的处理环节了(毕竟不是web开发)

第二步:服务器把结果返还给浏览器,返回就是HTTP响应,正常情况下,正常返回的数据,浏览器会从中解包数据进行渲染、展示(如果是图片就展示成图片)给用户

不同的爬虫区别就在请求的部分了,根据爬的网站不同,get()需要带的参数就不同

‘‘‘

#爬虫的原理讲完了

#难在分析过程

#简单在就是发送一个http请求

#开发爬虫的几个步骤

‘‘‘

1,找到目标数据

找到目标数据所在的页面或目标数据所在的url

2,找到数据的加载流程

分析怎么发送http请求的

3,发送http请求

模拟浏览器,在“浏览器的工作流程”中有介绍

4,提取数据

数据清洗、处理

5,数据持久化

入库或写入文件

‘‘‘

#获取到response之后,就是数据处理环节了,从返回的页面html中提取有用的信息,做数据清洗--这个环节就要用到正则表达式的内容了

分析出每一条返回的结果都会被class="result c-container"的div包裹,其中的 href = ""中的内容就是我们想要的URL,就要用正则表达式去从text中提取出这一部分内容,,这一部分尽量用正则表达式去写吧,BeautifulSoap等底层也是正则表达式,效率是没有直接用正则表达式高的。

#需要复习一下正则表达式的内容

#需要复习一下文件操作

#需要复习一个html的知识

#学习正则表达式的方法:

‘‘‘

不要贪心,,很多人学习正则很贪心,以为只要看一下就能把所有元字符都学会,如果这么去想就是给自己找不痛快。

需要逐个学习元字符,,每学一个元字符,要多练,自己设计字符串去匹配。不停地去写,直到把这个元字符弄懂弄透了。

什么叫弄懂弄透了?就是3天以后再回来看,还能把它写出来。

‘‘‘

#学习方法:

#听课学习的是老师的思路,直到大概怎么做,课下再去研究。不会的时候再来看看视频,看看笔记。

#写代码方法:死去活来法

#先把程序写死,然后不停地优化,最后能让程序适应多种情况

#如何学习第三方库

#学习别人的代码,看文档知道怎么用就行了

----------------------------------------------爬虫部分学完了

原文地址:https://www.cnblogs.com/avention/p/8981563.html

时间: 2024-11-05 23:32:39

百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量-笔记篇的相关文章

爬虫任务二:爬取(用到htmlunit和jsoup)通过百度搜索引擎关键字搜取到的新闻标题和url,并保存在本地文件中(主体借鉴了网上的资料)

采用maven工程,免着到处找依赖jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd&qu

Python实验:百度搜索关键字自动打开相关URL

#! python # coding: utf-8 # python实现百度搜索关键字,并依次用浏览器打开前五个搜索结果 ## ##Beautiful Soup 是一个模块,用于从HTML 页面中提取信息(用于这个目的时,它比正则表达式好很多).BeautifulSoup 模块的名称是bs4(表示Beautiful Soup,第4 版).要安装它,需要在命令行中运行pip install beautifulsoup4 import bs4, sys, webbrowser, requests #

mycncart系统后台主动推送网址url给百度搜索引擎收录

自mycncart 1.3版本开始具有此功能.本功能主要作用是利用百度的主动推送功能,将mycncart系统的相关网址,如分类,品牌,商品,文章等url地址主动推送给百度搜索引擎,百度搜索引擎收录后会返回成功的提示.当然,网址啥时候给你释放出来,还是百度说了算. 开通步骤:1. 登录百度站长平台: http://zhanzhang.baidu.com , 管理你的网站,网站验证通过后,点击左侧[链接提交], 找到[主动推送(实时)], 点击里面的[php推送示例],会看到里面代码中有api一行,

谈《百度搜索引擎网页质量白皮书》

今年上半年,百度发布了<百度搜索引擎网页质量白皮书>,官方给出的发布理由是"此次推出<网页质量白皮书>,目的是开放百度在网页质量方面的判断标准,给站长提供参考,希望有更多.更优质的内容产生,满足搜索引擎用户的需求,同时为站长带来流量,实现共赢." 几乎可以肯定,用户在浏览网页时,使用最多的网站,绝大多数是搜索引擎,如百度.搜狗.360以及现在几乎没法用的谷歌.用户将自己的需求传递给搜索引擎,搜索引擎帮助用户在整个网页库中搜寻用户希望知道的信息,并将网页链接呈现给

百度搜索引擎排名原理、因素

再有五六天就开学了,查找有关搜索引擎排名,以下这篇文章还是比较不错的,先赞一个^_^! 搜索引擎排名定义: 在搜索引擎里输入一个关键字,通常得到很多搜索结果,这些搜索结果的排名有先后之分,这就是搜索引擎排名 搜索引擎的排名原理 搜索引擎优化简称SEO,指的是在符合用户友好性及搜索引擎算法的基础上,使用网站内或者网站外的优化手段,使网站在搜索引擎的关键词排名提高,从而获得目标搜索流量,进而建立直接销售或建立网络品牌. 搜索引擎的排名基本上分为四个步骤: 1. 爬行和抓取 搜索引擎派出一个能够在网上

百度搜索引擎变现策略指标体系

下文就百度商业变现的指标体系进行概要描述,并针对一个类似于百度LBS系统的变现思路,阐述一个商业系统变现策略指标体系的建立过程. 为什么需要商业变现策略指标体系 一般情况下,一个互联网产品,或是一个移动端产品在发展前期,主要会关注流量及用户量的增长.当流量,用户量做到一定程度时,就会考虑商业变现.例如今日头条,美丽说,高德地图这样的产品现在都开始商业化变现.而要从变现效果,效率衡量整个系统,以及监控技术策略对系统变现的贡献时,就需要建立一套完善的策略指标体系监控系统当前的状况, 发现系统策略效果

discuz X3.1的门户文章实现伪静态,利于搜索引擎收录url的地址修改

最近在捣鼓DZ框架,这两天发现文章的收录情况并不是太理想,做了很多优化方面的工作,今天主要解决了DZ门户的文章链接伪静态化,在这次修改之前,也做过一次在网上找的静态化修改,之前做的方式是: 1.在DZ管理后台->全局->seo设置->url静态化模块中,开启如下配置 2.在nginx的配置文件中,添加url的rewrite规则如下图,添加完规则后,在门户首页和频道列表中显示的url规则是:http://xxx.com/article-aid-page.html;其中aid是文章id,pa

thinkphp之url的seo优化

1.网站url做seo优化的原因 SEO是由英文Search Engine Optimization缩写而来, 中文意译为"搜索引擎优化".SEO是指通过对网站进行站内优化(网站结构调整.网站内容建设.网站代码优化等)和站外优化,从而提高网站的关键词排名以及公司产品的曝光度. URL优化的效果跟站点在百度的权重关联性不大,但是对收录.蜘蛛爬行和传递权重有明显的提升. 蜘蛛爬行原理:蜘蛛爬行原理有 深度优先和宽度优先了解: (1)深度优先:深度优先适用于一些大站,蜘蛛很渴望得到他的内容,

ASP.NET MVC URL重写与优化(初级篇)-使用Global路由表定制URL

ASP.NET MVC URL重写与优化(初级篇)-使用Global路由表定制URL 引言--- 在现今搜索引擎制霸天下的时代,我们不得不做一些东西来讨好爬虫,进而提示网站的排名来博得一个看得过去的流量. URL重写与优化就是搜索引擎优化的手段之一. 假如某手机网站(基于ASP.NET MVC)分类页面URL是这样的, http://www.xxx.com/category/showcategory?categoryid=1000&view=list&orderby=price&p