Discuz 楼主帖子采集

       try
            {
                for (int i = 1; i < 130; i++)
                {
                    var html = GetHtmls("http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page="+i,"","","gbk");
                    var ms = Regex.Matches(html, @"<table[\s\S]+?</table");
                    File.AppendAllText("1.html",string.Format( "<h4>第{0}页</h4><hr>",i));
                    foreach (Match m in ms)
                    {
                        var temp = m.Groups[0].Value;
                        if (!temp.Contains("鱼骨的个人空间")) continue;
                        var m1 = Regex.Match(temp, @"t_msgfont"">([\s\S]+?)</div>\s+<br");
                        var str = m1.Groups[1].Value;
                        str = Regex.Replace(str, @"\[<i>\s*本帖最后由.+?编辑\s*</i>\]", "");
                        File.AppendAllText("1.html","<p>"+str+"</p>");
                    }
                }
                MessageBox.Show("over");
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }

看到这帖子不错 http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page=1

写了一段代码 进行采集,看着方便多了

时间: 2024-10-12 23:00:41

Discuz 楼主帖子采集的相关文章

小工具,把天涯等论坛的楼主发言(回复)整理保存为txt

特性: 1.目前支持天涯社区(论坛).新浪论坛.等等.程序提供扩充框架,可以增加对新论坛的支持. 2.提供了自动排版的功能. 3.提供了简单的统计功能. 下载地址,用法见本文后一部分: http://pan.baidu.com/s/1ntwkwOD 截图,下载帖子: 截图,自动处理: 截图,统计: 以下为用法说明.新手留意褐色文字即可: tz2txt,此工具用于帮助您把<帖子里的楼主发言>转为<纯txt文件>. 本工具(包括源码)已经上传至GitHub,要获取最新版本可访问:htt

java+lucene中文分词,来看看百度究竟是怎么找到你想要的(十分重要,楼主幸苦之作)

我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like匹配其实会浪费大量的有用资源,原因这里不说了请自己想一想,我们还是直接摆事实验证. 现在用去转盘网搜:hello 找个单词,如下: http://www.quzhuanpan.com/source/search.action?q=hello&currentPage=1 翻页你会发现只要是包含hell

今天早上 “百度知道”有人提问 正则 ,看着挺有意思的写了一个,写好后还没有回复,楼主就关闭了,哈哈自己好慢呀

在html中,<div style="text-align: center; margin-top: 20px;"><img src="sdsd.jpg" /> <a href="http://www.sdfs.com" target="_blank"> <img src="sdsd.gif" /> </a></div><div

其实楼主心痛的不是MVP,是羡慕韦德手里的爱疯。

http://www.juexiang.com/detail/60952774081.htmlhttp://www.juexiang.com/detail/60952776085.htmlhttp://www.juexiang.com/detail/60952776635.htmlhttp://www.juexiang.com/detail/60952776775.htmlhttp://www.juexiang.com/detail/60952776810.htmlhttp://www.juex

写给那些常年战痘的痘友们~~~

转载:https://www.douban.com/group/topic/34900818/ 转机出现在八月份那时候虽然我的脸非常非常严重但是我在学车我们的教练人非常非常好我把我的事情告诉他教练像一个爸爸一样一直耐心的开导我我的心情终于豁然开朗不再想任何关于感情的事情了非常开心的度过了学车的时光~但是痘痘还是很大而且严重的是被我挤了虽然什么都挤不出来可我还是挤了挤过的地方就是一个大坑太悲剧了啊~~可是我太着急了因为以前额头上的痘痘一两天就冒白点了挤了第二天就平了一个星期就看不见痕迹了但是这些痘

Discuz! X2如何禁止帖子发外链和签名链接

很多用discuz 的朋友们都知道,论坛一打开,很多广告.注册机等等的都来发广告,且先不说那些文章.帖子里的广告,但论坛里面的帖子签名广告就听让人烦的. 一打开论坛,进去一看,擦,那么多的广告,尤其是那些签名,看起来乱糟糟的,眼晕.毕竟自己的论坛有它自己的作用,不是像百度贴吧那种,给闲人们留的. 现在写些方法,禁用掉那些签名的链接,也同时公布出来禁止发外链的方法. 如果感觉有用,就请帮忙点击下博客的广告,支持下楼主吧. Discuz! X2为例:(1)禁止帖子链接后台-用户-用户组-编辑允许发站

Discuz! X3.1论坛前台使用教程

帖子地址:http://www.g8f8.com/thread-21100-1-1.html 论坛首页 论坛首页是用户访问论坛时,进入到的第一个页面.它汇集了论坛分区.版块.子版块等核心元素,展示了论坛帖子和会员汇总信息.论坛公告.论坛热点.在线会员.友情链接等丰富信息,同时包含了首页右边栏和DIY等灵活的扩展区域. 下面来为大家详细介绍一下以上的元素,请看下图:<ignore_js_op> 以下是各项的详细内容: 论坛版块 论坛分区目的是将内容相近的版块归类,使论坛的结构清晰.管理员可以在后

Discuz!X2 附件分表与主题图片表解析

1.背景: 在 Discuz! X2 中,将原有的1个附件表和1个附件描述表合并,然后分为了 11 个表,在很大程度上加强了论坛对于附件数据量的支持,同时减轻在附件记录非常多的情况下,造成服务器负载比较高的问题. 同时增加了一个主题图片表,如果一个主题的楼主贴包含有图片附件,则将会将这些附件中宽度最大的图写入到这个表. 2.附件表解释: pre_forum_attachment 附件索引表 pre_forum_attachment_0 附件分表 0 pre_forum_attachment_1

MATLAB 中文论坛相关帖子整理

说明: 本资料所有问题及代码均摘选自matlab中文论坛(www.ilovematlab.cn),主要供自己学习使用. 非常感谢论坛的所有提出以及解答问题的会员. 目   录 1.GUI新手之--教你读懂GUI的M文件... 10 2.GUI程序中改变current directory引起的问题... 15 3.GUI中h0bject和handles 的区别... 16 4.handles结构中句柄和对象的关联问题... 17 5.Matlab利用定时器连续显示图片的问题... 19 5-1.G