爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影

本教程由“做全栈攻城狮”原创首发，本人大学生一枚平时还需要上课，但尽量每日更新文章教程。一方面把我所习得的知识分享出来，希望能对初学者有所帮助。另一方面总结自己所学，以备以后查看。

可能看着文章很短，但大家想想高考时800字的作文用了多长时间。字都是一个字一个字的码出来的，也需要很多精力。

非常需要各位的支持，哪怕点个赞，评论一下。更多技术方向的文章可以关注我。力求写出高质量文章。帮助更多学习技术的人。

本人大学生一枚，如各位有Asp.Net和安卓开发方向的兼职，可以联系微信：cxx7177.感谢您。

一、项目描述：

作为资深电影迷，最新的电影是什么？热门电影又是啥？这些问题一直困扰着我。恰逢休息无聊，想找个电影看一下，而众所周知各大搜索引擎设有热搜榜单。我们可以通过榜单进行查看最热热搜电影。而作为程序员，总得把学得的技术应用一下。当然这段时间程序员抢月饼事件，却吓得除了一阵冷汗。当然，我们做的事情是合乎道德的。不能因为我们爬了个电影热榜成为众讨的对象的。哈哈，开个玩笑。

开发爬虫程序，爬取360电影热搜榜的热门电影。地址：http://top.so.com/index?c=%E7%94%B5%E5%BD%B1。

二、所需技术点：

XPath
WebRequest请求
Winform
HTML解析器：HtmlAgilityPack DLL地址：http://htmlagilitypack.codeplex.com/

三、XPath：

1.XPath介绍：

XPath是对XML文档通过路径表达式，进行信息查找的一种语言。同样XPath支持Html，类似于javascript的形式，通过XPath，可以进行标签的获取了。配合请求逻辑。这可以堪称开发爬虫的神器。

2.XPath语法：

//定位根节点

/往下层寻找

/text()提取文本内容

/@xxx提取属性xxx的值

例如：

//ul/li[@id="test"]/text() -------表示根节点下面ul下id为test的li标签的文本内容

3.WebRequest 进行Get请求:

我这里写了个helper的Get方法供以参考：

四、使用XPath提取热门电影：

新建Winform项目，如图添加如下控件：

做点调整：
为了使用HtmlAgilityPack我们先进行引用。访问：http://htmlagilitypack.codeplex.com/并下载。引用。
为了方便使用，添加一个根据XPATH获取筛选的字符串的方法：
书写XPath字符串：（根据插件获取XPath，然后修改一下）

多获取几个电影标题，如图：

即可找到规律，所以最终的XPath：
抓爬热门电影，按钮点击事件：

五、最后扩充

这只是简单的获取第一页的热门电影情况，仍然可以通过以上的方式，爬取下方换页按钮的链接，进行跳转，抓取更多的电影名称。

时间： 2024-10-29 19:08:16

爬虫神器XPath，程序员带你免费获取周星驰等明星热门电影的相关文章

程序员带你学习安卓开发，十天快速入门-开发工具配置学习

上次课程:.Net程序员学习Android开发-第一课讲到,.Net程序员学习Android开发的必要性以及对安卓大环境的相关介绍. 其中看到有网友评论,称,搞C#的去搞安卓,还怪自己的移动平台不给力.有的人说,学习.Net就学.Net学习什么安卓.这时的我首先想到了,固步自封的大清朝.当然并不是对这部分人排斥.只能说是想法不一致,认知略有不同,也没有错与对,我只是想把我自己的想法表达出来,期望与您产生共鸣.的确迄今为止,我仍然认为C#是当今我见过的最好的语言.设计规范语法总使我赶到兴奋其优美

程序员带你十天快速入门Python,玩转电脑软件开发（二）

关注今日头条-做全栈攻城狮,学代码也要读书,爱全栈,更爱生活.提供程序员技术及生活指导干货. 如果你真想学习,请评论学过的每篇文章,记录学习的痕迹. 请把所有教程文章中所提及的代码,最少敲写三遍,达到熟悉的效果. 声明:本次教程主要适用于已经习得一门编程语言的程序员.想要学习第二门语言.有梦想,立志做全栈攻城狮的你如果是小白,也可以学习本教程.不过可能有些困难.如有问题在文章下方进行讨论.或者添加QQ群538742639.群马上就满了,名额不多. 上节课主要讲解了以下内容: 为什么学习Pyth

程序员带你学习安卓开发系列-Android文件存储

这是程序员带你学习安卓开发系列教程.本文章致力于面向对象程序员可以快速学习开发安卓技术. 上篇文章:.Net程序员快速学习安卓开发-布局和点击事件的写法主要讲解了布局和点击事件的写法. 上篇文章补充: 控件单位介绍: px 像素 dip或者dp 设备独立像素 sp 比例像素控件的高度宽度一般用dip或者dp.字体用sp. Android 存储数据项目: 描述:实现QQ登录效果.如图: 输入帐号密码,并勾选记住帐号 ,点击登录时,保存帐号信息.下次登陆可以直接显示上次保存的QQ帐号. 前台界面

程序员带你学习安卓开发，十天快速入门-基础知识（四）

关注今日头条-做全栈攻城狮,学代码也要读书,爱全栈,更爱生活.提供程序员技术及生活指导干货. 如果你真想学习,请评论学过的每篇文章,记录学习的痕迹. 请把所有教程文章中所提及的代码,最少敲写三遍,达到熟悉的效果. 本系列课程是.Net程序员学习安卓开发系列课程. 下面是前三次课程列表: 程序员带你学习安卓开发,十天快速入门-安卓学习必要性程序员带你学习安卓开发,十天快速入门-开发工具配置学习程序员带你学习安卓开发,十天快速入-对比C#学习java语法为了大家系统有效的快速入门安卓开发,推荐

程序员带你十天快速入门Python,玩转电脑软件开发（三）

声明:本次教程主要适用于已经习得一门编程语言的程序员.想要学习第二门语言.有梦想,立志做全栈攻城狮的你 . 如果是小白,也可以学习本教程.不过可能有些困难.如有问题在文章下方进行讨论.或者添加QQ群538742639.群马上就满了,名额不多. 这是高级程序员快速入门Python语言课程.助你快速学习Python语言.这是第三课. 程序员带你十天快速入门Python,玩转电脑软件开发(一) 程序员带你十天快速入门Python,玩转电脑软件开发(二) 因技术知识连贯性,还没有学习前两课的同学,建议点

程序员带你十天快速入门Python,玩转电脑软件开发（一）

关注今日头条-做全栈攻城狮,学代码也要读书,爱全栈,更爱生活.提供程序员技术及生活指导干货. 如果你真想学习,请评论学过的每篇文章,记录学习的痕迹. 请把所有教程文章中所提及的代码,最少敲写三遍,达到熟悉的效果. 声明:本次教程主要适用于已经习得一门编程语言的程序员.想要学习第二门语言的你.有梦想的你,立志做全栈攻城狮. 如果是小白,也可以学习本教程.不过可能有些困难.如有问题在文章下方进行讨论.或者添加QQ群538742639.群马上就满了,名额不多. 目录: 为什么学习Python? Pyt

程序员带你学习安卓开发，十天快速入-对比C#学习java语法

关注今日头条-做全栈攻城狮,学代码也要读书,爱全栈,更爱生活.提供程序员技术及生活指导干货. 如果你真想学习,请评论学过的每篇文章,记录学习的痕迹. 请把所有教程文章中所提及的代码,最少敲写三遍,达到熟悉的效果. 上次课程:.程序员带你学习安卓开发,十天快速入门-开发工具配置学习讲的是java环境的配置以及as安装工具的安装. 其中有网友@鹅鹅鹅_说道,其实jdk的环境变量配置,不用配置的那么麻烦了.当前的jdk版本只要设置一个变量javahome就可以了,其他的可以不需要配置.在这里提一下.

程序员带你学习安卓开发-XML文档的创建与解析

这是程序员带你学习安卓开发系列教程.本文章致力于面向对象程序员可以快速学习开发安卓技术. 上篇文章:程序员带你学习安卓开发系列-Android文件存储因知识连贯性推荐关注头条号:做全栈攻城狮.从头开始学习. 链接:http://www.toutiao.com/m5443584213/ 项目概述: 学生信息管理系统.添加学生信息,到XML文件库. 显示所有添加的学生列表. 界面: 前台界面代码: XML生成: 生成的xml: XML解析: 更多教程,欢迎大家关注今日头条-做全栈攻城狮.一起交流探

好程序员带你五分钟了解一致性hash算法

好程序员带你五分钟了解一致性hash算法,一致性哈希算法的设计目标是为了解决因特网中的热点问题,现在也被广泛应用在分布式系统中. 比如针对负载均衡问题,对hash值取模的算法扩展性差,当增加或者减少服务器时,映射关系可能会出现问题,采用一致性hash算法,就能较好的解决该问题. Hash值取模算法存在的问题比如,我们有海量的图片存储在服务器上,假如,现在有4台服务器,我们可以根据图片名称,采用hash算法,决定图片存储在哪台服务器如果现在需要增加服务器,那么存取图片的服务器的算法就会发生改变

猜你喜欢

使用HeartBeat实现高可用HA的配置过程详解

使用HeartBeat实现高可用HA的配置过程详解一.写在前面 HA即(high available)高可用,又被叫做双机热备,用于关键性业务.简单理解就是,有2台机器 A 和 B,正常是 A 提供 ...

shell一些方法

字符串截取转自原文地址:http://www.jb51.net/article/56563.htm 一:字符串截取有var变量: var=http://www.aaa.com/123.htm 1. ...

第五章 CSS页面布局基础

1.标准文档流在正常流中,在没有使用浮动或者定位的情况下,文本元素按照从上到下.从左到右的格式布局.这是浏览器的默认行为.在正常流中,块级元素从上到下依次排列,而行级元素从左到右依次排列.正常流中的 ...

仅靠“博客园”就能推动net的崛起么？

我感觉里,一个语言社区的推动,大部分靠的都是中下层人来推动的,而不是精英层.当然也不是说精英层不重要,而是如果一个东西只有精英层会用,它只会沦为小众化的产品.举个例子orchard,很牛逼的一个net ...

HttpClient使用具体解释

Http协议的重要性相信不用我多说了,HttpClient相比传统JDK自带的URLConnection,添加了易用性和灵活性(详细差别,日后我们再讨论),它不仅是client发送Http请求变得ea ...

别让Open Sans字体拖慢wordpress后台速度

最近打开wordpress后台是不是很慢?国内GG登不上了?这两者有没什么直接的联系?没错,WordPress后台是自动加载的谷歌Open Sans字体,据说gg服务器已经迁移到阿嘛丽可,需要一些小手 ...

python 开发之settings 变量的全局引用

前提: 当网站里面的一些内容,如邮箱,网站标题,网站的描述,这些东西我们可以存在数据库中也可以存放在我们的setting 文件中首先我们在settings 里面创建我们要的变量: 原后我们要在vie ...

java复制文件夹及所有子目录和文件

package text; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; im ...

hdu 5305 Friends　（dfs）

Friends Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Sub ...

iOS TextField数字键盘的限制位数处理(特别适用于手机登陆)

Hi~大家好,这么长时间不和大家见面了,说来惭愧,最近忙于工作,已经很久没有写博客了, 接下来和大家分享一下在iOS下数字键盘限位的处理---好,废话不多说直接上代码在用手机号登陆的时候大家有没有遇 ...

Sum square difference

简单: e sum of the squares of the first ten natural numbers is, 12 + 22 + ... + 102 = 385 The square o ...

iOS数据安全小结

本文主要介绍下现阶段以iOS客户端安全应用及iOS9系统可能需要考虑的一些安全策略 1.指纹识别 iOS 8 SDK向开发者公开了Touch ID指纹识别功能,允许App对用户身份进行本地验证. 使用 ...

Codeforces 385C Bear and Prime Numbers [素数筛法]

Code: #include<iostream> #include<cstdio> #include<cstring> #include<cmath> ...

登陆状态持久化

前几天,一直都想实现登陆持久化功能,于是到网上各种翻阅资料.最终总结实现登陆持久化无非那么几种方法. 1.将信息存入session 2.将信息存入cookie,(可以采用MD5加密) 3.拉长cook ...

JS省市区联动

JS省市区使用文档一:服务器返回JSON格式要求如下网址里面data的格式:(拿KISSY组件data格式来做的) http://gallery.kissyui.com/cityselector/d ...

spring源码学习(1)——spring整体架构和设计理念

Spring是在Rod Johnson的<Expert One-On-One J2EE Development and Design >的基础上衍生而来的.主要目的是通过使用基本的java ...

css3干货

CSS3是CSS2的升级版本,3只是版本号,它在CSS2.1的基础上增加了很多强大的新功能. 目前主流浏览器chrome.safari.firefox.opera.甚至360都已经支持了CSS3大部分 ...

Delphi Xe2 后的版本如何让Delphi程序启动自动“以管理员身份运行"

由于Vista以后win中加入的UAC安全机制,采用Delphi开发的程序如果不右键点击“以管理员身份运行”,则会报错. 在XE2以上的Delphi版本处理这个问题已经非常简单了. 右建点击工程,选择 ...

【JavsScript】XMLHttpRequest2的进步之处

本文参考自:XMLHttpRequest2 新技巧 (重点保留demo,方便自己日后查阅) HTML5是现在web开发中的热点,虽然关于web app和local app一直有争论,但是从技术学习的角 ...

ZOJ 3703 Happy Programming Contest（0-1背包）

http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=3703 Happy Programming Contest Time Lim ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.018 s.