手机版
访问手机版
Yx12345下载站用心打造专业的软件下载站
yx12345下载站
当前所在位置:下载首页 > yx12345电脑频道 > 应用软件 > 文字处理 > TextForever
网页转

网页HTML批量转TXT文本工具-TextForever-HTML转TXT格式 V1.79 下载

  • 软件大小:244KB
  • 更新时间:2022-12-12
  • 软件语言:简体中文
  • 所属分类:文字处理
  • 软件类型:国产软件
  • 授权方式:免费版
  • 用户评分:评分
  • 运行环境:XP,Win7,Win8,Win10

本地下载http下载地址

软件介绍猜您需要

不少朋友想把网页小说转换成txt文本格式导入进手机里慢慢看,但是HTML转TXT格式的工具真的很少。小编给大家找来了TextForever,它是一款免费的网页HTML批量转TXT文本工具,可以批量将HTML转TXT格式。

界面预览图:

网页HTML批量转TXT文本工具-TextForever-HTML转TXT格式

TextForever 是一个多功能txt处理软件,本页会用它来实现网页HTML批量转TXT文本,批量将HTML转TXT格式。

然而TextForever的功能并不单一,TextForever是一个专门为整理电子版小说而开发的工具,包含HTML到文本文件的转换、文件合并、文件切分、段落合并、段落切分、内码转换、文本替换、HTML整理、文本抽取、正则表达式(需要IE 5.5以上版本的支持)、批量OCR、tcr文件压缩/解压等一系列功能。

软件原名FineReader,后更名为TextForever。

功能特点:

1、HTML整理

2、文件切分

3、文本提取

4、正则表达式

5、OCR

6、HTML-text

7、文件合并

8、段落合并

9、段落切分

10、编码转换

11、文本替换

TextForever批量将网页HTML转换成TXT文本教程:

==========准备工具==========

TextForever Version 1.79

迅雷(任何版本)

文本编辑器(如 EmEditor 之类)

==========教程==========

1、打开网页,进入目录列表,F12或Ctrl+U获取所有章节地址,切换到源码模式。

HTML网页转TXT文本教程

2、将所有章节都覆盖到文本编辑器中,通过替换补全网址,href=后面引号的内容,部分会隐藏网址,如:

复制7039_1.html替换成http://www.yx12345.com/pcpdlist/7039_1.html

执行全部替换就OK了。

3、随后分隔每一章地址,同样可以通过批量替换,如:href=与 title=两者分别批量替换成,(注意,是半角的逗号),随后另存为 CSV 格式文件(对于该格式文件来讲,半角逗号就是分隔符),只用 Excel 打开,就可以直接复制地址那一列到迅雷下载,这样比较精准。如果章节ID连贯,还可以使用迅雷。

提取URL

4、迅雷批量下载完毕之后,运行 TextForever 工具,根据下图序号顺序,分别设置一下,当然,具体还要根据自己的实际情况进行设置。

用迅雷批量下载完成后,运行TextForever工具开始转换即可

5、第一步选择典型中文 HTML(这个主要是区别英文中的空格换行之类的),再取消选择UTF-8 转 ANSI(由于现在几乎所有网站都是UTF-8,所以就不要转编码了,不然反而变成乱码),最后点转换选择文件(点击后选择刚刚迅雷批量下载的HTML文件,记得全选)。这样您就实现了将HTML小说转换成TXT格式,再通过这款软件自带的文件合并功能,合并成一个大TXT文件就OK了。

使用说明:

============HTML文件到文本文件的转换(HTML->Text)============

根据需要设置选项(也可以什么不选,直接使用预设值),点击转换选择文件按钮,在弹出的对话框中选择需要转换的文件(按住Ctrl键或Shift键点击文件,即可选多个),随后点打开或Open按钮即可;或点转换选择文件夹按钮,在弹出的对话框中选择起始文件夹,随后点确定或OK按钮就OK了。

如果点的是转换选择文件夹按钮,并事先选了包含子文件夹选项,则转换时会自动转换所有子目录中的htm、html、shtml文件,不然只转换所选目录下的文件。

如果转换出来的内容错误,可能是因为真正的内容是用JavaScript动态生成的,可以选择使用IE内核,随后再点开始转换,重新试一遍。这个选项相当于IE的另存为文本文件功能,用缺省选项搞不定的网页,都能用这个选项试试看。与在IE中打开网页不同的是,如果网页中有错,这里不会弹出错误对话框要求调试网页,则是直接跳过,反正错误对获取文本没有什么影响。

对于使用UTF-8编码的HTML文件(这种文件似乎越来越多了),情况有点复杂:

如果没有选择使用IE内核,则转换结果取决于UTF-8转ANSI选项:如果该选项被选中,则结果是ANSI编码的文本文件,否就是UTF-8编码的文本文件。

如果选择了使用IE内核,则转换结果一律是ANSI编码的文本文件。

如果在简体中文Windows下转换简体UTF-8编码的HTML文件,或者在繁体中文Windows下转换繁体UTF-8编码的HTML文件,转换出来的ANSI编码文件都不会有任何问题,所以缺省情况下UTF-8转ANSI选项是被选中的。但是如果要在简体中文Windows下转换繁体UTF-8编码的HTML文件,或在繁体中文Windows下转换简体UTF-8编码的HTML文件,直接转成ANSI多半会出现乱码,在这种情况下,只能不选使用IE内核、不选UTF-8转ANSI,将UTF-8编码的HTML转换成UTF-8编码的文本文件,随后再用编码转换功能,先将UTF-8转换成Unicode,再将Unicode转换成GB或Big5编码。

============文件合并(Merge Files)============

一般网站刊登电子版小说时,都是一章一个文件,所以在将HTML文件转换成TXT文件后,一般还需要根据章节顺序将转换出来的诸多TXT文件合并成一个文件。

使用方法:根据界面上标示出来的1、2、3、4、5顺序,先选择需要合并的文件,再合并后的文件,并根据需要设置选项,点开始合并按钮即可开始合并。

需要注意的是,如果在第一步选择的是合并文件而不是合并文件夹,可以指定对文件根据中文数字进行排序,这是专门为了处理像第二十七章.txt、第三十一章.txt这样的文件名而设置的。

============段落合并(Paragraph)============

在把HTML转换成TXT文件后,由于取消了HTML中的段落控制,转出来的文件看起来可能会参差不齐,需要重新合并、分段。

使用方法:根据界面上标示出来的1、2、3顺序,先设置源文件段落开始标志选项,再设置输出文件段落控制选项,最后选择源文件。如果是对单个文件进行处理,则在选择源文件框中,先点选择...按钮选择源文件(如果前面做过文件合并,这里会自动填入合并后的文件名,则不再需要选择),再点开始合并按钮开始合并;如果是对多个文件进行操作,直接点对多个文件中的段落进行合并...按钮,随后在弹出的对话框中选择需要操作的所有文件(按住Ctrl键或Shift键点击文件,即可选多个)。

选项说明:

源文件段落开始标志框指定分段条件,即在输入文件中,满足什么样的条件算一个段落。这样的条件可以有4个:

以2个或指定个数的中文空格开头。

以4个或指定个数的英文空格开头。

上一行的长度比平均行长短少1/20。一般这个条件用于OCR出来、没有整理过的文件。

============段落切分(Reparagraph)============

有时候在用段落合并功能对原文中的段落进行合并、整理后,还需要根据指定的行宽,对段落进行分行,免除在没有自动环绕功能的浏览器上出现横向滚动条。

段落合并功能与段落切分功能互为逆过程,如果对切分结果不满意,可以合并后重新切分。

使用方法:根据界面上标示出来的1、2、3顺序,先设置输出段落选项,再设置源文件是否保留备份,最后选择源文件。如果是对单个文件进行处理,则在选择源文件进行操作框中,先点选择...按钮选择源文件(如果前面做过文件合并,这里会自动填入合并后的文件名,则不再需要选择),再点开始切分按钮开始切分;如果是对多个文件进行操作,直接点对多个文件中的段落进行切分...按钮,随后在弹出的对话框中选择需要操作的所有文件(按住Ctrl键或Shift键点击文件,即可选多个)。

如果切分结果出现行末最后一个字节是半个汉字,则该汉字被分到下一行,以免出现乱码;如果切分结果中,行末会出现把一个英文单词劈成两半,则整个单词分到下一行;如果行末是英文空白、标点符号,则根据习惯,就算这些字符超出最大行长,也不分到下一行。

选项说明:

最大行长项说明分行的行长,以英文字符为单位。注意一个中文字符等于两个英文字符。取值范围10至32767。

段落开头添加选项设置分行后段落的引导字符,可以是2个中文字符、4个英文字符或者什么也没有。

在段落后添加空行选项说明是否需要在段落后加一个空行。

============编码转换(GB/GBK/Big5)============

这个功能可以实现GB、GBK、Big5、Unicode码的相互转换,及从日文Shift JIS到中文GB 2312、UTF-8到Unicode的单向转换。为了省事,转码过程使用的是Windows本身提供的标准API接口。由于转码过程中需要用Unicode作为中间码,所以此功能不能在对Unicode支持非常有限的Windows 95/98/me下使用,只能在支持GBK/Big5/Shift JIS代码页的2000/XP下使用。正常情况下,只要IE可以正常显示中文简体、中文繁体、日文网页,即可正常转换。

使用方法:先设置文件选项、转码选项,随后点转换选择文件按钮,在弹出的对话框中选择需要转换的文件(按住Ctrl键或Shift键点击文件,即可选多个),随后点打开或Open按钮即可;或点转换选择文件夹按钮,在弹出的对话框中选择起始文件夹,随后点确定或OK按钮就OK了。

如果点的是转换选择文件夹按钮,并事先选了包含子文件夹选项,则转换时会自动转换所有子目录中的txt文件,不然只转换所选目录下的文件。

转码后如果出现固定的错别字,可以用文本替换功能进行修正。

文件选项说明:

覆盖原文件:转换后的文件将覆盖转换前的文件。

原文件另存为 bak 文件:转换后的文件不会覆盖转换前的文件,转换完成后将在原文件名后加后缀.bak。

转码选项说明:左侧为原文件中的汉字编码,右侧为转换后的汉字编码。

GB码:根据国家标准GB2312-80编排,包含全部简体字及常见符号。在中文简体版的Windows下显示为简体,在繁体版Windows下显示为乱码。

GBK码:是国家技术监督局1995年为中文Windows 95所制定的新的汉字内码规范(其中GB表示国标,K表示扩展)。该规范在字汇一级上支持ISO10646与GB13000中的全部中日韩(CJK)汉字,并与国家标准GB2312-80信息处理交换码相兼容。如果在中文简体版的Windows 95/98/2000下看到繁体中文或繁简混杂,那么这个时候多半这些中文是用GBK编码的。

Big5码:港台地区常见的汉字编码,对于繁体字。这种编码的汉字在中文简体版的Windows 95/98/2000下多半显示为乱码,但是在繁体版Windows下显示正常。

Unicode码:Windows 2000/XP下的字符编码,全世界的文字都能用统一的编码进行表示。在Windows 95/98/Me下显示,看到的可能是许多问号。

Shift JIS:日文编码的一种。

UTF-8码:Unicode编码的一种实现。

============文本替换(Replace)============

对指定的文件进行批量文本替换,包含去除HTML文件中的广告链接、js/css代码,或从TXT文件中取消某些固定的文本等。

在设计这个功能时,主要依据我平常对文件进行整理的经验,同时参考了32 v10.10a、居辰工作室的Text Witch v1.0、风林的文本整理器 v2.0等的长处。此外为了加快速度,替换前先将整个文件读入内存,随后在内存中进行替换,所以处理某些巨型文件时可能会有问题,不过处理平常几个MB的文件应该没什么问题。

使用方法:先设置替换选项,随后输入替换内容,即可开始替换。

替换选项说明:

匹配全词:对中文没用,不需要点。

忽略大小写:对中文没用,不需要点。

Unix格式转Windows格式:Unix格式的文本文件以\n为换行符,Windows格式的文本文件以\r\n为换行符。平常这个选项也不需要点。

替换选项中每选择一个选项,都会增加合适的处理时间,忽略大小写选项被选中后,还会增加内存消耗,所以请尽量不要选择不用要的选项。

输入替换内容的方法:可以点添加文本或添加字符按钮添加内容,也可以点调入按钮调入以前保存的内容。每项内容都能包含多行,一次可以对多项内容进行替换,特别适合于批量整理从网上下载的HTML文件。如果经常需要整理从同一个网站下载的网页,可以在输入全部替换内容后,点保存按钮存盘,之后再整理该网站的网页时,点调入按钮即可载入替换内容。

开始替换选项说明:

如果只需对某个或某几个文件进行替换,可以点选择并替换指定的文件按钮,在弹出的对话框中选择文件就OK了。按住Ctrl或Shift键点击文件,即可一次选择多个文件。

如果需要对某个目录下的文件进行替换,可以先在文件框中选择或输入文件选择标准,再点文件夹框右侧的按钮选择文件夹,点击替换指定目录下的文件按钮就OK了。如果包含子文件夹选项被选中,则连子目录下的文件一起替换。

============HTML整理(Tidy HTML)============

这个功能主要可用于整理从网站上批量下载的HTML文件,包含取消其中的广告链接、不合适的CSS设置及功能限制(禁止选择、禁止拷贝、禁止右键菜单)等,也可以解密某些HTML加密软件加密的HTML页。对于做E书的人来讲,还可以用来在打包前先检测一下HTML页面中是否包含指向本地磁盘的绝对链接。

使用方法:

先选择需要整理的HTML文件所在文件夹。

根据需要选择检测选项,随后点检测按钮开始对文件进行扫描。

扫描结果出来之后,先逐项双击打开看看,对不合适的可以编辑或删除。搞定后,点替换表中所有项按钮,对HTML文件进行替换。如果以为一项一项双击打开看太麻烦,也可以导出成HTML文件看,但是一定要看,不然可能发生悲剧。

注意:在第三步开始替换后,原始HTML文件将会被替换,请事先做好文件备份,以免后悔。

选项说明如下:

包含子文件夹:如果此选项被选中,则扫描时包含选择目录下面的所有子文件夹。

Unix格式转Windows格式:Unix格式的文本文件以\n为换行符,Windows格式的文本文件以\r\n为换行符。平常这个选项也不需要点。

解密网页:对加密HTML文件进行解密,随后对解密结果进行检测。对于未加密网页来讲,勾上这个选项后,不仅检测速度会变慢,并且整理后的网页代码看起来好象重新排过版一样(其实是被IE内核重新排版),所以缺省此选项未被选中。

检测绝对链接:检测网页中是否包含绝对链接。检测时不包含anchor链接。理论上说,打包E书的所有链接都必须是相对链接,不能是绝对链接。

检测CSS:检测网页中是否包含样式表。对于不满意的样式表可以替换或清除。

检测Script:检测网页中是否包含脚本。平常广告链接都在脚本里。

检测功能限制:检测网页里是否包含功能限制,包含禁止选择、禁止拷贝、禁止右键菜单等。

在选择解密网页、检测绝对链接、检测CSS、检测Script、检测功能限制等选项时要注意,如果都选上,不仅检测速度慢,并且可能一次列出太多的检测结果,所以应该根据需要,一次只检测一项或几项,不需要的选项不用选。

============文件切分(Split Files)============

可以根据指定的大小切分文本文件,并且免除因为切出半个汉字而造成乱码,或将一个英文单词切到两个文件中。

某些手机对jar文件大小有限制,所以在制作jar电子书前,通常需先对文本文件进行切分,随后再打包成jar书。

使用方法:

先设置文件选项,再设置文件最大长度,随后点击开始按钮,在弹出的对话框中选择需要切分的文件(可多选)就OK了。每切分一个文件,都会在您所选的文件所在目录下创建一个子目录,存放切分后的文件。

============文本提取(Extractor)============

从文本中抽取或删除指定的内容。其实这个功能完全可以通过正则表达式替换实现,不过考虑到正则表达式不是人人都懂,所以还是独自做了这么一个大众化的功能。

使用方法:

选择需要进行的操作,究竟是提取还是删除起始点到结束点中间的内容。

指定在输出时,是否要输出起始点、结束点的内容,如起始点字符串、结束点字符串。

设置起始点。

设置结束点。

设置在提取完成后,怎么处理原TXT文件。

根据需要,点击开始提取框中的按钮。

开始提取选项说明:

如果只需对某个或某几个文件进行提取,可以点选择并提取指定的文件按钮,在弹出的对话框中选择文件就OK了。按住Ctrl或Shift键点击文件,即可一次选择多个文件。

如果需要对某个目录下的文件进行提取,可以先在文件框中选择或输入文件选择标准,再点文件夹框右侧的按钮选择文件夹,点击提取指定目录下的文件按钮就OK了。如果包含子文件夹选项被选中,则连子目录下的文件一起提取。

============正则表达式(RegExp)============

应用正则表达式,实现批量文本查找、文本替换、文件切分功能。合理使用这些功能,可以全部或部分代替本软件的下列功能:Html->Text、段落合并、段落切分、文本替换、HTML整理、文件切分、文本提取,当然前提条件是您可以写出正确的表达式,不然建议您还是隐藏这个页面吧。

注意:如果选查找,则在查找之前先对文件进行排序,排列顺序与Windows资源管理器中按文件名排序的顺序相同,便于对查找结果进行核对。

支持正则表达式的软件在实现时平常都基于某个成熟的正则表达式引擎,现在可用的引擎有不少,从开源的到封装过的都有。从我试用的结果来看,开源的几个引擎用起来都有点麻烦,尤其在处理MBCS(多字节字符集)时,偏偏中文就是典型的MBCS。而微软在JScript/VBScript中提供的正则表达式引擎,不仅接口简单、使用方便,对MBCS的支持也没话说,所以成为我的首选。而这个引擎现在又有两个版本:1.0版与5.5版。1.0版从IE 5开始支持,5.5从IE 5.5开始支持。从我测试的情况看,5.5版至少在以下方面比1.0版强:

1、支持非贪婪模式,而1.0版所有匹配都是贪婪的。

2、支持Multiline选项,这个对^、$有影响,并且很常见。

所以我没什么好犹豫的,直接就选择了5.5版。当然由此也带来了两个限制:

1、TextForever的正则表达式功能只能在装有IE 5.5以上版本的机器上使用。不过现在IE 6应该已经算配置了吧?

2、由于JScript/VBScript内部均基于UNICODE,所以在表达式中计算字符数时,一个中文字也算一个字符,而不是象平常ANSI环境下,一个字母、数字算一个字符,一个中文字算两个字符。编码转换使用当前系统缺省代码页。

微软正则表达式引擎5.5版的仔细说明见JScript/VBScript的相关文档,在本文附录B部分给出了一个语法表,摘自微软出版的《VBScipt 用户指南》电子版。这个基本上是给会写正则表达式的人士参考用,用它来学写正则表达式可能有点困难,如果真想学,建议还是老老实实找该书去翻翻吧:这个正则表达式引擎要比我用过的EditPlus v2.10c、32 10.10a的复杂与强大很多,包含向后引用(Backreferencing)等。

使用方法:

1、添加正则表达式。添加时可以先测试一下表达式的效果。如果表达式不正确,在这里才给出提示。表达式输入后,可以上移、下移、删除、修改,也可以保存,在需要时再调入,以重复使用。

2、选择需要操作的文件所在文件夹,及需要操作的文件。如果含子文件夹选项被选中,则操作包含所选文件夹及其下所有子目录中的文件,不然只处理所选目录中的文件。

3、根据需要,选择查找、替换或文件切分操作。为了保险,建议在做替换或切分之前,先用查找功能查一次,看看正则表达式的匹配结果与想像的是否一样,以免一失足成千古恨。

在输入正则表达式时,允许有三个选项:

全局搜索(Global):指明在搜索正则表达式的匹配时,是搜索文件中的所有匹配,还是只搜索第一个匹配。缺省为选中,即搜索所有匹配。

忽略大小写(Ignore Case):指明搜索正则表达式匹配时是否忽略大小写。这个对中文没用,所以缺省未选中。

多行文本(Multiline):如果被选中,那么这个时候 ^ 匹配每行的开始位置,而 $ 匹配每行的结束位置。如果未被选中,那么这个时候 ^ 匹配文件的开始位置,而 $ 匹配文件的结束位置。缺省为选中。

============OCR============

将单色TIFF文件批量OCR成文本文件,结果文件可独自存放,也可以合并成一个大文本文件。使用本功能前请先阅读《用Pdg2Pic、TextForever实现批量OCR》、《在简体中文Office 2003下OCR繁体中文、日文、韩文》。

使用方法:先选择需要OCR的文件夹,随后选择结果文件,再根据需要设置OCR选项(平常不需要更改缺省设置),点开始OCR就OK了。

OCR选项说明:

1、自动旋转:如果页面出现歪斜,用此功能可以纠斜。

2、自动拉伸:如果页面长宽比例失调,或出现倾斜,可以用此功能校正。

3、OCR语言:选择OCR语言。现在允许选择英文、中文简体、中文繁体、日语。

自动旋转、自动拉伸均需要时间,考虑到多数PDG文件不需要进行校正,所以这两个选项缺省不选中。如果页面确实变形比较厉害,可以选中后重新OCR。

============TCR============

将文本文件批量压缩成tcr文件,或将tcr文件批量解压成文本文件。压缩时可以选择是否过滤空白符、段落标记,以节省存储与显示空间。这个功能是专门给制作在手机与PDA上阅读的电子书用的,如果您只打算在电脑看书,相信您不会用到这个功能。

使用方法:

TXT文件压缩:先设置压缩文件选项,随后点击开始压缩按钮,在弹出的对话框中选择需要压缩的文件(可多选)就OK了。压缩后的文件与您所选的文件在同一目录下,如果有同名文件,将会被自动覆盖。

TCR文件解压:点击开始解压按钮,在弹出的对话框中选择需要解压的文件(可多选)就OK了。解压后的文件与您所选的文件在同一目录下,如果有同名文件,将会被自动覆盖。

解压后,TextForever.htm文件是使用教程。

猜您需要为您推荐一些您可能需要的类似软件下载

下载地址

网页HTML批量转TXT文本工具-TextForever-HTML转TXT格式 V1.79 下载

本地免费下载

1、如果下载地址无法下载,请多试几个下载地址!安装教程与用法,请百度一下官方网站,安装方法与使用教程。
2、为确保高速下载,请使用迅雷等类似下载工具下载。如下载后出现不能解压,请安装最新版winrar等解压软件!
3、如果您下载的压缩包解压时需要输入解压密码,请输入解压密码(红字):www.yx12345.com
4、不提供TextForever的破解版,注册码,序列号,破解补丁,注册密钥,激活码,注册机等下载!

其他版本