用C#实现修改网页数据

背景
    由于某宝最近升级，导致朋友买的刷单软件不能用了；在又付过钱之后，那个刷单软件供应商竟然捐款跑路了...于是，朋友委托我做一个功能一样的软件。
功能
    他给我描述的软件功能，是这个样子的：在网页登陆我的某宝之后，在【已买到的宝贝】页面，有待付款、待发货、待收货、待评价数量，软件可以随意修改这些数据；页面下边还有交易单，软件还可以隐藏指定的单据...然后他把之前买的软件发给我，让我研究研究...
分析
    按照他的描述，我概括之后，软件的功能就是修改网页数据。我先用Reflector打开朋友给我的程序，看看能不能反编译，要是能反编译就好办了，0.0，结果反编译不了，看来自己得从头开始找资料...
实现一
    工作之余，开始百度相关信息，无意进入一个网站，有个人上传了一个工具，名字好像是淘宝数据修改器之类的，他的附件上附带了一句话，“用BHO实现”！！！然后我赶紧百度【BHO】，百度百科说，BHO(Browser Helper Object，浏览器辅助对象，简称BHO) BHO是微软推出的作为浏览器对第三方程序员开放交互接口的业界标准，通过简单的代码就可以进入浏览器领域的“交互接口”(INTERACTIVED Interface)。我瞬间两眼放光，赶紧百度个BHO的例子，这个例子的功能是在打开的网页上添加3个按钮。我按照步骤，在我的电脑上跑例子，我第一次打开的是64位的IE浏览器，打开网页之后，网页还是原来的样子；第二次打开的是32位的IE，IE首页上多了3个按钮，再打开一个标签页，上面也有三个按钮！！！
    能在网页上添加3个按钮，就说明它能修改网页的html数据，那这不就正是我要的么！
    工程都不用新建了，直接在原程序上进行开发，看了程序之后，了解了程序的工作原理：首先得在注册表注册dll，这个dll必须实现IObjectWithSite接口，IE在启动的时候，会自动加载已注册的dll。在SetSite函数里，可以获取到浏览器对象，然后就可以注册各种事件，修改网页数据是在DocumentComplete事件里进行，因为在这个事件之后，DOM才允许修改...
    因为是dll，并且是浏览器自己加载dll，因此没有办法调试，附加到IE的进程里调试，断点也不会命中...要是能打个断点，在断点处查看HtmlDocument对象多好，现在还得苦逼的打日志...
    现在的工作是怎么遍历HtmlDocument找到目标节点，并且修改节点的数据。
    我在网上没有找到遍历HtmlDocument的资料，只能多输出点日志信息分析了。经过分析发现，HtmlDocument是一个树，并且每个节点都实现IHtmlElement，每个节点的子节点集合都实现IHtmlElementCollection，So，知道怎么遍历了...我是在尝试了无数次typeof之后才知道的...一定要把节点转换为IHtmlElement之后再用typeof，否则你只会得到System._ComObject类型...
    找到节点之后，修改数量值很好实现，把目标节点的innerHTML改为指定文本就行；隐藏单据就是隐藏一个节点，把节点的Style.Display置为none就行了。
    就这样，这个BHO版本的实现了，但是在测试过程中，发现有点不完美：因为我是在DOM完成之后才修改的数据，但是浏览器是收到多少数据，就解析多少显示多少，那么就在浏览器【显示原始数量数据】之后到【整个页面】完成，这段期间，页面显示的将是真实数据，而不是我修改的数据。这个空白期理论上不可消除，除非你的网速达到光速，配置达到天河二号...
    我把情况给朋友说了之后，朋友说在他电脑上跑跑，看看效果。周日晚上，在朋友的电脑上，程序跑起来之后，他进入到已买到的宝贝页面，刷新再刷新，数据还是真实的数据，不是修改过的数据，OMG，我登时傻眼了...
    朋友：这玩意支持搜狗浏览器吗？刷单不能用IE...
    我：不知道，我下个搜狗试试...
    我赶紧下个搜狗，跑起来，进入已买到的宝贝页面，刷新再刷新，KAO，不行...
    我马上对朋友说，这个版本的不行，我下周整个新版本的...
实现二
    上次惨败之后，我又重新分析这个程序到底该怎么做才能让它支持各种浏览器，并且是在数据达到浏览器之前进行修改。
    首先想到的是对本地网卡进行抓包，监视所有的包，把符合规则的数据修改之后再放行：抓包好抓，但是分析数据就有难度了，http的还好，https的怎么办...
    我又去分析朋友给我的软件，我发现里面还有3个dll，我尝试用Reflector打开，顶，全部打开！！！他买的程序竟然是用C#开发的，那我肯定也能做出来。我分别百度他们，直到输入fiddler之后，我已经看到胜利的曙光了。
    Fiddler是一个http协议调试代理工具，它能够记录并检查所有你的电脑和互联网之间的http通讯，设置断点，查看所有的“进出”Fiddler的数据（指cookie,html,js,css等文件，这些都可以让你胡乱修改的意思）。 Fiddler 要比其他的网络调试器要更加简单，因为它不仅仅暴露http通讯还提供了一个用户友好的格式。

    Fiddler 是用C#写出来的,它包含一个简单却功能强大的基于JScript .NET 事件脚本子系统，它的灵活性非常棒，可以支持众多的http调试任务，并且能够使用.net框架语言进行扩展。
    我先下载了Fiddler调试工具，在调试工具里，我成功的更换了百度首页的logo，把搜索输入框后边的【百度一下】替换为【yp一下】，并且百度是https的。有了Fiddler这个利器，改个网页数据应该不是问题。
    容我简单介绍下Fiddler的工作原理：Fiddler是以代理的方式进行工作的，相当于中间人的角色，浏览器把请求交给Fiddler，Fiddler处理后再发出去，Fiddler接收到数据之后，处理完再发给浏览器，也就是浏览器数据进出都要经过Fiddler，浏览器发出接收的数据也都是Fiddler处理过的数据。
    下面写我开发过程中的几个关键点：
    1.在C#程序中怎么启动Fiddler？
    FiddlerApplication.Startup(m_Port, true, true, true);
    Fiddler在启动之后，会自动修改IE的代理设置，并把IE改为代理模式。我们把其他浏览器的代理设置改为使用IE代理设置或者使用系统代理设置，就可以对所有浏览器有效。
    FiddlerApplication.ShutDown();
    当然，退出的时候得关闭Fiddler，关闭Fiddler时，会自动把IE代理设置关闭。
    2.在什么地方处理浏览器接收的数据？
    FiddlerApplication.BeforeResponse += new SessionStateHandler(FiddlerApplication_BeforeResponse);
    在Fiddler响应浏览器之前进行数据处理，这样就不会出现空白期了。
    3.怎么修改浏览器接收的数据？
    在BeforeResponse事件响应函数FiddlerApplication_BeforeResponse中：
    string strResponse = oSession.GetResponseBodyAsString();
    这句是获取浏览器接收数据的字符串，在处理html格式数据时，用这个方法。
    oSession.utilSetResponseBody(strResponse);
    这句是设置浏览器的接收数据，即把修改之后的数据给浏览器。
    对于strResponse你可以用任意规则处理，0.0...
4.怎么使修改的数据有效？
    在BeforeRequest事件响应函数中：
    oSession.bBufferResponse = true;
    这样3中的修改才有效。
    5.对于https，证书怎么解决？
    对于证书问题，大家看这里Using FiddlerCore to capture HTTP Requests with .NET，这个链接来之不易，请大家好好珍惜，不客气...
    最后，最后，这个程序如期的做出来了。
后记
    因为这个程序只是修改了浏览器接收到的数据，并没有影响服务器数据，所以我给它起名Madoff。
Over

时间： 2024-12-14 02:23:38

用C#实现修改网页数据

用C#实现修改网页数据的相关文章

使用fiddlercore修改网页的返回内容

【技术宅5】抓去网页数据的3种方法

Android解析HTML网页数据第一个方法Jsoup（一）

Python爬虫-抓取网页数据并解析，写入本地文件

使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取

oracle特殊恢复-bbed修改某个数据文件头

Asp.net 使用正则和网络编程抓取网页数据(有用)

nodejs 通过 get获取数据修改redis数据

python抓网页数据【ref:http://www.1point3acres.com/bbs/thread-83337-1-1.html】