.net新手爬虫教学,简单易懂。

这两天没事研究爬虫,发现了好多处理方法,但是我用着最顺手的是Nsoup这个包。

下面给大家分享一下我在亚马逊上爬取的数据。我是用的webForm写的,用winForm是一样的。今天给打加分享一下我写的代码。希望得到打什么的指点。

 System.Net.CookieContainer testcookie = new System.Net.CookieContainer();
    protected void Button1_Click(object sender, EventArgs e)
    {
        string htnmStr = GetPost.Get(this.TbUrl.Text.Trim(), testcookie, Encoding.UTF8);
        this.TbCode.Text = htnmStr;
    }

上面是下载整个网页信息的,这种代码网上有很多开源的,我这里是自己写了一个类。

 protected void Button2_Click(object sender, EventArgs e)
    {
         NSoup.Nodes.Document htmlDoc = NSoup.NSoupClient.Parse(this.TbCode.Text);

         NSoup.Select.Elements ele = NSoup.NSoupClient.Parse(TbCode.Text).GetElementsByClass("s-result-item");
                System.Text.StringBuilder sb = new StringBuilder();
                sb.Append("<ul>");
                    for (int i = 0; i < ele.Count; i++)
                    {
                        string xingji = ele[i].Select(".a-icon-alt").Html();
                        string shuliang=ele[i].Select(".a-span5").Select(".a-spacing-mini").Select("a").Select(".a-size-small").Html();
                        Regex reg = new Regex("[1-9]\\d*.\\d*|0.\\d*[1-9]\\d*");
                        Match match = reg.Match(xingji);
                        Regex reg1 = new Regex("^\\d+(,\\d+)*$");
                        Match match1 = reg1.Match(shuliang);
                        sb.Append("<li>标题:" + ele[i].Select(".a-size-medium").Html() + "</br>产品图片:" + ele[i].Select(".s-access-image").Attr("src") + "</br>卖家名称:" + ele[i].Select(".a-fixed-left-grid-col").Select("span").Eq(1).Html() + "</br>主图地址:" + ele[i].Select(".a-link-normal").Attr("href") + "</br>星级:" + match + "</br>评价数量:" + match1 + " </br>ASIN:" + ele[i].Attr("data-asin") + "<li>");
                    }
                    sb.Append("</ul>");
                TbElement.Text = sb.ToString();

        }

上边的代码是我爬取的亚马逊内容也得标题,店家名称,产品图片等一些数据,通过类名去搜索。简单易懂 适合一些刚入门的人看。。。。。。。。。。。。。。。。我也是刚入门,又不会的可以问我,,一起讨论,研究

时间: 2024-11-07 09:45:23

.net新手爬虫教学,简单易懂。的相关文章

ios通知使用 书上案例 简单易懂

/* The notification name */const NSString *ResultOfAppendingTwoStringsNotification =@"ResultOfAppendingTwoStringsNotification"; /* Keys inside the dictionary that our notification sends */const NSString*ResultOfAppendingTwoStringsFirstStringInfo

以麦当劳,肯德基优惠券接口数据为例进行的数据解析方法,简单易懂

以麦当劳,肯德基优惠券接口数据为例进行的数据解析方法,简单易懂,这是我个人觉得是一种比较简单易懂的json数据解析方法: 看下其中一个类的代码 package com.example.text_json_deno_model; import java.util.ArrayList; import java.util.List; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject;

java生成RSA公私钥字符串,简单易懂

java生成RSA公私钥字符串,简单易懂 解决方法: 1.下载bcprov-jdk16-140.jar包,参考:http://www.yayihouse.com/yayishuwu/chapter/1537 2.java代码 KeyPairGenerator keyPairGenerator = KeyPairGenerator .getInstance("RSA"); keyPairGenerator.initialize(2048); KeyPair keyPair = keyPa

1分钟学会百度网盘不限速教程,简单易懂

由于百度网盘的限速,下载个资料速度堪比蜗牛,不想冲会员,又想要高速下载百度网盘资源怎么办,今天给大家带来的1分钟学会百度网盘不限速教程,简单易懂,亲测有效. https://www.macdown.com 由网友"哩呵"制作的网盘助手脚本,需要通过拓展 Violentmonkey (暴力猴)或者 Tampermonkey (油猴)来启用,原理是通过显示直链,然后使用Neat Download Manager Mac来加速下载. 使用方法:(安装部分) 1.安装浏览器插件,Violent

爬虫的简单操作

今天学习了python爬虫的简单操作. 1.学会创建文件夹和创建文件: 1 import os 2 3 def mkdir(path): 4 if os.path.exists(path):###判断是文件夹否存在,否则有可能会报错 5 print("The path has already existed .") 6 else: 7 os.makedirs(path)###新建文件夹 8 print("Done .") 9 10 def write(path,st

使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图)

初学Scrapy,实现爬取网络图片并保存本地功能 一.先看最终效果 保存在F:\pics文件夹下 二.安装scrapy 1.python的安装就不说了,我用的python2.7,执行命令pip install scrapy,或者使用easy_install 命令都可以 2.可能会报如下错误 *********************************************************** Could not find function xmlCheckVersion in l

Perl爬虫的简单实现

由于工作中有个项目需要爬取第三方网站的内容,所以在Linux下使用Perl写了个简单的爬虫. 相关工具 1. HttpWatch/浏览器开发人员工具 一般情况下这个工具是用不到的,但是如果你发现要爬取的内容在页面的HTML源码里找不到,如有的页面是通过AJAX异步请求数据的,这时候就需要HttpWatch之类的工具来找到实际的HTTP请求的URL了,当然现在很多浏览器都有开发人员工具(如Chrome, Firefox等),这样可以更方便查看所有请求的URL了. 2. curl/wget 这是爬虫

CKplayer 新手入门超简单使用教程

网页播放器都有使用的前提(问1). ~~~~~~~分隔线~~~~~~~ 只需一步先看播放器效果(问2): 下载附件,解压内容(ckplayer文件夹和ckplayer.html)到网站根目录,在浏览器中打开你的调试网站就可以看到网页播放效果,如:http://localhost/ckplayer.html ~~~~~~~分隔线,正题,使用步骤~~~~~~~ 1.同上,下载附件并解压到网站根目录,在你的网站测试环境中看看播放器是否正常显示. 2.用 Editplus 或 DreamWeaver 等

爬虫的简单实现

大数据时代虽然给我们的生活带来了很多的便利,但是往往我们想要获取或整理我们想要的资源却还是一件很难的事情,难在查找和搜寻资料,有了可共享数据的网站,却还要一页一页的点进去,筛选我们想要的信息,是不是很麻烦?是的,那么,这个时候你一定要有一个会写爬虫的朋友(或者男朋友^_^),前几次我们也已经实现了利用webcollector和htmlparser爬取网易云音乐和豆瓣图书,但是有很多网友评论说看不懂或者不明白,而且网上的资源少之又少,我自己其实也在摸索阶段,确实关于爬虫的资料很少,想买本书来学学,