小工具,把天涯等论坛的楼主发言(回复)整理保存为txt

特性:

1、目前支持天涯社区(论坛)、新浪论坛、等等。程序提供扩充框架,可以增加对新论坛的支持。

2、提供了自动排版的功能。

3、提供了简单的统计功能。

下载地址,用法见本文后一部分:

http://pan.baidu.com/s/1ntwkwOD

截图,下载帖子:

截图,自动处理:

截图,统计:

以下为用法说明。新手留意褐色文字即可:

tz2txt,此工具用于帮助您把<帖子里的楼主发言>转为<纯txt文件>。

本工具(包括源码)已经上传至GitHub,要获取最新版本可访问:
https://github.com/animalize/tz2txt

【安装Python】
本工具用Python编写,必须安装Python运行环境(版本在3.4以上)。到Python官网下载:
https://www.python.org/downloads/

也可以用下面的链接直接下载。如果不清楚是32位还是64位,下载32位即可:

windows 32位版本的Python安装包:
https://www.python.org/ftp/python/3.4.3/python-3.4.3.msi

windows 64位版本的Python安装包:
https://www.python.org/ftp/python/3.4.3/python-3.4.3.amd64.msi

在安装Python后,执行命令pip install colorama,部分信息将以彩色显示;不执行此命令的话也可以正常运行,但不会显示色彩。

【整体工作流程】
一、下载。
       下载帖子的一部分或全部页面,生成只包括楼主发言的<编排文本>。
二、编辑排版。
       这一步,可以自动处理、也可以手动处理。

在<编排文本>里,每条回复后面有个保留标记,如:
            <mark>══════保留标记:█
       如果想丢弃这个回复,删掉最后那个黑方块即可。

以<time>和<mark>开头的行之间是一条回复。只要保证<time>行和<mark>行配对,可以任意编辑回复内容。
三、编译。
       把未处理的或处理过的<编排文本>编译成<纯文本>。
       
【操作方法】
一、简单的用法是:
双击“_a全自动.bat”可以全自动生成auto.txt,但不保存下载文件、不保存自动处理后的编排文件。

二、比较全面的用法是:
依次双击“_1下载帖子.bat”、“_2处理编排.bat”、“_3编译最终.bat”。
这个过程中,会把下载的帖子保存为dl.txt,自动处理后的编排文本保存为bp.txt。
final.txt就是编译后的纯文本,~discard.txt就是自动处理时标记丢弃的内容。
(注意:自动处理有其局限性,用户也可以手动处理)

三、想查看编排文件bp.txt的统计信息,可以双击“_b统计编排.bat”。

【小经验】
☆不推荐用记事本编辑<编排文本>,可以用免费开源的文本编辑器Notepad++(http://notepad-plus-plus.org/)。

☆如果帖子太长,可以分段下载(例如每次下载50页)。

☆编译后,可以把下载的原<编排文本>和处理过的<编排文本>保留一段时间。

☆如果网速慢,可在fetcher.py文件里更改单次下载动作的超时秒数,默认是open_timeout = 60。

☆保存的文件都是GB18030编码(兼容GB2312/GBK)。

☆程序预留扩展空间,可以增加支持新的论坛,详见sites文件夹的说明。

【附录:程序参数】
1、d功能,下载帖子(只包含楼主的发言),并保存为<编排文本>,参数为:
      tz2txt.py d [-u 网址] [-t 页数] [-o 文件名]
      
      -u 网址:帖子的某一页的网址,可以不是首页
      -t 页数:打算下载的总页数,-1表示到最终页(如果帖子很长,慎用-1)
      -o 文件名:是输出的<编排文本>文件名
      
      例: tz2txt.py d -u http://bbs.sample.com/thread-12345.html -t 10 -o download.txt
             从当前页开始,一共下载10页,保存<编排文本>到download.txt
 
2、p功能,自动处理<编排文本>,比如去掉重复回复、处理引用格式:
      tz2txt p [-i 文件名] [-o 文件名]
      
      -i 文件名:输入的<编排文本>
      -o 文件名:输出的<编排文本>
      
      例: tz2txt.py p -i download.txt -o bp.txt
             自动处理download.txt并保存为bp.txt

3、s功能,统计<编排文本>的信息:
      tz2txt.py  s  [-i 文件名]
      
      -i 文件名:输入的<编排文本>
      
      例: tz2txt.py s -i bp.txt
             统计bp.txt文件的信息并显示

4、c功能,编译<编排文本>到<纯文本>:
      tz2txt c [-i 文件名] [-o 文件名] [-d 文件名]

-i 文件名:输入的<编排文本>
      -o 文件名:输出的<纯文本>
      -d 文件名:保存编译过程中丢弃的回复到这个文件

例: tz2txt.py c -i bp.txt -o final.txt -d ~discard.txt
             把<编排文本>bp.txt编译为<纯文本>final.txt,
             并把编译过程中丢弃的回复保存到~discard.txt
              
5、a功能,全自动生成<纯文本>:
      tz2txt.py a [-u 网址] [-t 页数] [-o 文件名] [-d 文件名]
      
      -u 网址:帖子的某一页的网址,可以不是首页
      -t 页数:打算下载的总页数,-1表示到最终页(如果帖子很长,慎用-1)
      -o 文件名:是输出的<纯文本>文件名
      -d 文件名:保存编译过程中丢弃的回复到这个文件
      
      例: tz2txt.py a -u http://bbs.sample.com/thread-12345.html -t 10 -o auto.txt -d ~discard.txt
             从当前页开始,一共下载10页,生成<纯文本>到auto.txt,
             并把编译过程中丢弃的回复保存到~discard.txt

时间: 2024-10-12 21:54:54

小工具,把天涯等论坛的楼主发言(回复)整理保存为txt的相关文章

经典的小工具软件的官方网址

今天在卡饭论坛上看到一个经典的小工具软件的官方网址列表,留此备用! NirSoft Utilites http://www.nirsoft.net/ Sysinternals Suite https://technet.microsoft.com/en-us/sysinternals/bb842062 Joeware http://www.joeware.net/freetools/ MiTeC http://www.mitec.cz NTCore http://www.ntcore.com/u

页面构建小工具---转载

我们将在本文中介绍一些关于页面构建常用的一些小工具,大部分是基于firefox的插件,通过这些小工具可以让我们在页面构建中事半功倍. 页面bug调试工具–Firebug 实时测量工具–Measureit 实时颜色选取工具–Colorzilla SEO优化工具–SenSEO CSS使用效率优化工具–CSS usage 网页截图存储工具–Pearl crescent page saver basic HTML页面与设计稿比对工具–Pixel perfect 本地调试页面样式利器–Fiddler DN

大有学问的刷漆小工具

在进行装修过程中占有相当重要的一部分--刷漆,因为墙面粉刷的结果会直接影响着整个家装的质量.要做到完美粉刷墙面当然少不了我们刷漆小工具,这些工具都有哪些呢?让我们一起来看看吧. 工具之一--需用滚筒刷墙面 又称滚筒,需搭配漆盘使用的滚筒刷,由于滚面范围广,所以是最省力.省时的刷具,尤其是接上延长杆后,可轻易粉刷墙面高处或天花板,但缺点是容易产生漆料喷溅的状况,所以滚筒刷的毛不要太短,但一定要细,这样刷出来的漆膜才会手感细腻. 滚筒刷分长毛,中毛.短毛三种,其表现为滚筒刷毛的长短,而不是滚筒本身的

手把手教你做音乐播放器(八)桌面小工具(上)

第8节 桌面小工具 桌面小工具是可以放置在主界面的.快速控制应用的小助手.例如我们的音乐小工具,它可以帮助用户在桌面上就完成音乐的暂停.播放.切换等操作,而不需要启动应用本身. 在安卓系统中,我们也常常叫它App widget. 实现一个App widget要经过以下几个步骤, 创建一个App widget类,让它继承自AppWidgetProvider,例如AnddleMusicAppWidget类: 放在res\layout目录下,为App widget的界面定义一个布局,例如anddle_

这些小工具让你的Android 开发更高效

在做Android 开发过程中,会遇到一些小的问题,虽然自己动手也能解决,但是有了一些小工具,解决这些问题就得心应手了,今天就为大家推荐一下Android 开发遇到的小工具,来让你的开发更高效. Vysor Vysor 是一个可以将手机的屏幕投影到电脑上,当然也可以操作,当我们做分享或者演示的时候,这个工具起到了作用. Vector Asset Android Studio 在1.4 支持了VectorAsset,所谓VectorAsset:它可以帮助你在Android 项目中添加Materia

原创SQlServer数据库生成简单的说明文档小工具(附源码)

这是一款简单的数据库文档生成工具,主要实现了SQlServer生成说明文档的小工具,目前不够完善,主要可以把数据库的表以及表的详细字段信息,导出到 Word中,可以方便开发人员了解数据库的信息或写技术说明文档. 技术上主要采用的 C#+Dapper+Npod ,开发工具为Vs2015,基于Net4.5框架. 实现思路: 1.首先获取数据库的字符串,测试链接是否成功, 2.通过脚本获取该服务器的数据库列表. 3.根据数据库找到该数据库的所有数据表 4.通过脚本找到该数据表所有的字段信息 5.使用N

Java正则表达式——测试正则表达式的一个小工具

正则表达式是一种强大而灵活的文本处理工具.使用它我们能以编程的方式,构造复杂的文本模式,并对输入的字符串进行搜索.一旦找到了匹配这些模式的部分,你就能够随心所欲地对它们进行处理. 关于正则表达式的语法,网上对此有介绍的文章实在是多不胜数,实在找不到,还可以查看Java的API文档,就不多介绍了.这里主要介绍一个可以测试正则表达式的小工具.直接上代码: 1 package com.test.stringregex; 2 //{Args: abcabcabcdefabc "abc+" &q

JSON格式化着色小工具

在我们系统开发过程中越来越多的使用JSON作为数据交换的载体.JSON的特点是层次结构简洁清晰,易于人阅读和编写.同时也易于机器解析和生成.对于机器解析和生成这点本人表示认可,然而对于易于人阅读和编写可以通过下面一段JSON字符串来验证下: {"strValue":"here is str value","nullValue":null,"intvalue":999,"doublevalue":999,&q

强大的pdf文件操作小工具——PDFtk的小白用法

前言 作为程序员,大家都知道的,总是会被技术小白问各种跟编程没什么关系的硬件.软件问题.曾经被一技术小白同事问到有没有什么办法合并pdf文件,当时自己也是一头雾水,因为自己工作生活很少会去操作pdf文件,而当时公司对开发人员的电脑权限管理很严格,不论是上网还是安装软件,都受到很大限制,最后硬着头皮忙活了一阵子也没在解决. 前两天在写批处理程序的时候,发现批处理程序是有合并文件的命令的,我忽然想起之前这个同事的问题,就试了一下合并pdf,然而并不行.虽然失落了一下,但本着学习的精神还是百度了一下关