网站数据获取

本例中主要是通过HtmlAgilityPack解析html源码获取所需的数据.

using HtmlAgilityPack;

1.通过C#中WebRequest，WebResponse，StreamReader类获取网页源代码

WebRequest request = WebRequest.Create(url);
using (WebResponse response = request.GetResponse())
using (StreamReader reader = new StreamReader(response.GetResponseStream(), encoding))
result = reader.ReadToEnd();

2．通过网页URL获取HtmlNode ，通过HtmlAgilityPack中的HtmlDocument类获取

HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
document.LoadHtml(htmlSource);
HtmlNode rootNode = document.DocumentNode;
return rootNode;

3.通过HtmlNode的SelectSingleNode方法就可获取你所需要的内容了，注意以下代码中path是HTML的标签路径如:path="//div[@class=‘article_title‘]/h1/span/a";//文章标题PATH

对应于

<div class=’article_title’>

<h1>

<span>

<a>获取这里的内容

</a>

</span>

</h1>

</div>

参考源码如下:

HtmlNode temp = srcNode.SelectSingleNode(path);
if (temp == null)
return null;
return temp.InnerText;

返回值为: 获取这里的内容

其中temp.InnerHtml可获取网站HTML的内容如：<a>获取这里的内容</a>

通过以上操作就可获取到网站中你所需要的内容，希望此内容对大家有所帮助，引用源码文章链接http://blog.csdn.net/gdjlc/article/details/11620915

时间： 2024-10-25 03:59:06

网站数据获取的相关文章

PyCon 2014：机器学习应用占据Python的半壁江山

来自http://www.infoq.com/cn/news/2014/07/pycon-2014 今年的PyCon于4月9日在加拿大蒙特利尔召开,凭借快速的原型实现能力, Python在学术界得到了广泛应用.最近其官方网站发布了大会教程部分的视频和幻灯片,其中有很多(接近一半数量)跟数据挖掘和机器学习相关的内容,本文对此逐一介绍. 如何形式化一个科学问题然后用Python进行分析目前有很多很强大Python数据挖掘库,比如Python语言的交互开发环境IPython,Python机器学习库S

Python 爬虫实战—盘搜搜

近期公司给了个任务:根据关键搜索百度网盘共享文件并下载. 琢磨了几天写下了一段简单的demo代码,后期优化没有处理. 主要的思路:(1)根据关键字爬取盘搜搜的相关信息 (2)解析并获取盘搜搜跳转到百度网盘的URL地址 (3)解析百度网盘获取真实下载URL然后下载文件本来下了一段ip代理处理的, 可惜免费爬取的IP时效性差基本上用不了,所以下面给出的是没有ip代理demo 然而没有ip代理处理的话, 下载不到几个文件ip就被封了.所以下面的代码仅供学习. # -*- coding=utf-8 -

网站的优化----首页优化---现有首页

首页流量时非常大,如果按照一般的动态加载数据的形式来相应用户的每次的访问,读取数据数据,开销很大,导致首页访问速度降低,所以把数据预先刷入到redis服务器中.(不是做成静态页面刷入缓存中) 当用户用户访问时,访问www服务器时,由 php 调取 redis 数据,这里redis作为响应服务器提供数据,mysql作为数据存储.定时由脚本去读取数据,刷入redis. 在渲染页面的时候,采用的时懒加载. 懒加载(Load On Demand)是一种独特而又强大的数据获取方法,它能够在用户滚动页面的时

网站优化—页面静态化技术

数据库检索的问题主要是为了减少数据库的操作,让MySQL能够提供更强大的服务 ? 使用缓存技术磁盘缓存:就是将用户请求数据库的数据,保存到磁盘文件形成一个静态的HTML文本,下次用户的访问的时候,直接返回该HTML文本. 内存缓存:将MySQL的数据取出之后,保存到内存(memcache,不算一个NOSQL数据库,但是是一个缓存系统)之中,下次直接从内存中返回.(效率非常高) 注意:只要不使用sql语句作为查询条件的数据库(仓库)就叫做NOSQL数据库优化MySQL 设计:存储引擎的选择,

JSP网站开发基础总结《八》

JSP的学习总结到本篇已经八篇了,内容比较多,但都是实战,本篇最后为大家介绍一个小效果:百度分页.就是当我们遍历的数据对象较多时,这时我们就会看到了这个效果了,那他是如何实现的呢?下面我们就一起学习一下. 1.分页数据获取方法: 获得数据总数: public int getSize() { int num = 0; Connection conn = null; Statement st = null; ResultSet rs = null; conn = DBO.getConnection(

网站统计中的数据收集原理及实现

转载自:http://blog.sina.com.cn/s/blog_62b832910102w5mx.html Avinash Kaushik将点击流数据的获取方式分为4种:log files.web beacons.JavaScript tags和packet sniffers,其中包嗅探器(packet sniffers)比较不常见,最传统的获取方式是通过WEB日志文件(log files):而beacons和JavaScript是目前较为流行的方式,Google Analytics目前就

网站页面的呈现方式

下午经过一场激烈的关于前端页面呈现问题的头脑风暴,: 经过讨论之后初步确定应该是两种方式: 第一种为,页面模板由后端返回,并由浏览器进行缓存.页面需要的业务数据,则通过服务调用的从后端获取.当数据获取之后,在前端页面通过JS的方式,将数据渲染. 第二种为,浏览器呈现的页面是有后端实现模板和数据的整合,并生成页面的HTML字符串,并把该字符串从后端返回给浏览器.页面的JS文件则主要完成前端的交互. 其实这两种方案,现有的技术都有使用,但是他们还是有一定的区别,此时我能想到的区别有: 1)第一种方案

Android之通过向WebService服务器发送XML数据获取相关服务

原理图如下: 即客户端向WebService服务器通过HTTP协议发送XML数据(内部包含调用的一些方法和相关参数数据),然后WebService服务器给客户端返回一定的XML格式的数据,客户端通过解析这些XML数据即可得到需要的数据. 具体实现过程如下: 建立一个HTTP连接: 通过加载一个XML格式的SOAP协议数据,把该数据封装成实体并通过HTTP请求发送给WebService服务器: 获得WebService服务器返回的XML数据,通过解析获得需要的数据. 一些提供免费的WebSer

常见浏览器的宽高代码写法！有原生JavaScript和jquery两种写法-------------------------------以及我的个人网站

我的个人网站点击链接!欢迎大家访问下面是网页一些常见的宽高的获取.........这是原生的写法(JavaScript) 网页可见区域宽: document.body.clientWidth 网页可见区域高: document.body.clientHeight 网页可见区域宽: document.body.offsetWidth (包括边线的宽) 网页可见区域高: document.body.offsetHeight (包括边线的高) 网页正文全文宽: document.body.scro

猜你喜欢

那些回不去的年少时光（桐华）

那些回不去的年少时光(上) ——桐华这么多年来,我一直在学习一件事情,就是不回头.只为自己没有做过的事情后悔,不为自己做过的事情后悔.人生每一步行来,都需要付出代价,我得到了我想要的一些,失去了不想 ...

NPN&PNP

一.晶体管基础知识晶体管分2种:NPN.PNP 晶体管通常封装为TO-92,下面是元件实物图和元件符合: NPN: 当电压和电流被加到基极上时,NPN晶体管: 其工作原理: 就像水龙头—给控制开 ...

c#中base64编码解码

//编码: byte[] bytes = Encoding.Default.GetBytes("要转换的字符"); string str = Convert.ToBase64Str ...

基础——类分析

1. 应用程序放在硬盘中,启动时以main为入口加载到内存中,内存中有代码区.数据区.堆区.栈区. @interface Person : NSObject { int _age; NSStr ...

软件工程结课总结

一个学期软件工程的课程结束了,但自己的感受颇多,通过学习这门课程, 还有认真听老师讲课,不但让我从理论上掌握软件工程,而且能从实践中的学到东西,让理论和实践得到了很好的结合.整一个学期下来,总的来说还 ...

DataSanp的控制老大-DSServer

DSServer作用:管理DataSnap服务器生命周期.(启动,停止) 方法: 1.BroadcastMessage 向所以客户端发送消息,客户端必须已注册通道. 2.BroadcastObject ...

DSO的记录模式Record Mode字段测试

声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将 ...

php设计模式（3）-观察者模式

<?php class User implements SplSubject{ public $loginNum; public $hobby; public $observers = null ...

Ruby环境配置

一.rvm 1.简介 rvm是一个命令行工具,可以提供一个便捷的多版本ruby环境的管理和切换. 2.安装步骤 1.新建文件:rvm-installer.sh vi rvm-installer.sh ...

js之setTimeout方法

hdu 5120 (求两圆相交的面积的公式)

S = A大B大 - A大B小 - A小B大 + A小B小.(A表示A环,大表示大圆,B同).然后直接套模板,,,, 1 #include <stdio.h> 2 #include < ...

NHibernate 映射基础(第三篇) 简单映射、联合主键

NHibernate 映射基础(第三篇) 简单映射.联合主键 NHibernate完全靠配置文件获取其所需的一切信息,其中映射文件,是其获取数据库与C#程序关系的所有信息来源. 一.简单映射下面先来 ...

【数据结构】第6章树(上)

第一次用markdown-..好高端的赶脚数据结构第6章树(上) §6.1 树的定义和基本术语树是n(n>=0)个结点的有限集在非空树中有且仅有一个特定的根(root) 树的结构定义是一 ...

UVa 10635 (LIS+二分) Prince and Princess

题目的本意是求LCS,但由于每个序列的元素各不相同,所以将A序列重新编号{1,2,,,p+1},将B序列重新编号,分别为B中的元素在A中对应出现的位置(没有的话就是0). 在样例中就是A = {1 7 ...

学习IOS开发UI篇--控制器的管理

控制器的创建方式: 1.代码直接创建ZYViewController * Vc = [[ZYViewController alloc] init]; 2.通过storyboard: UIStorybo ...

用于数组的delete p324

delete 对象地址; delete 首先调用待清除对象的析构函数,然后释放内存如果delete一个void指针,唯一发生的事情就是释放了内存.因为通过void指针,无法知道对象的类型,就无法调用 ...

解题报告之 ZOJ3877 Earthstone Keeper

解题报告之 ZOJ3877 Earthstone Keeper Description Earthstone Keeper is a famous roguelike game created by ...

电工助手App开发第二周

2015年9月开始,每天两个主要任务,四个星期,完成了名为 “电工助手” 的iOS应用,App Store, GitHub 这是我的第一个上架App.下面是第二周的开发过程记录:

ORA-00922：选项缺失或无效

1.错误描述 2.错误原因由于在设置密码时,首个字符用的是数字,导致出错 3.解决办法取消安装过程,将Oracle全部卸载干净,重新安装

java面试每日一题11

题目:求1+2!+3!+...+20!的和 public class Recursion { public static void main(String args[]) throws NumberF ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.