FineReader: An application to format text file, including convert HTML file to text file, merge text files, paragraph and reparagragh.
作者:马健
邮箱:stronghorse@163.net
主页:http://stronghorse.yeah.net
FAQ
使用说明
一、软件安装/删除
二、软件使用
附录 版本更新记录
Q:FineReader是什么?
A:这是一个专为整理电子版小说而开发的工具,包括HTML到文本文件的转换,文件合并,段落合并,段落切分,内码转换等功能。
Q:文件转换、文件合并功能好理解,段落合并、段落切分是干什么的?
A:段落合并其实就是某些软件所吹嘘的“自动分段”功能:在转换、识别出来的文本文件中,往往在一个自然段中间加入了若干回车/换行符,成了一行一行的了,因此需要将这些多余的回车/换行符去掉,只在自然段结尾才出现回车/换行符。有人喜欢把这个功能称为“自动分段”,我更喜欢称为“段落合并”。
段落切分是段落合并的过程。段落合并完成以后,在某些软件下阅读时,可能因为行太长,给阅读带来不便,因此需要按照指定的行长,对段落进行切分,切成一个一个短行。
Q:为什么要开发FineReader?
A:我曾经极度热衷于电子版小说,但是看HTML版的小说总有点遗憾:看到错别字的时候修改很麻烦,打印是个问题,翻页也很累……最后发现解决的办法就是将HTML转换、合并成一个TXT文件,然后在Word下观看。现成的HTML到TXT的转换工具有不少,但是集转换、合并、分段等功能于一体的好像还没有,尤其是分段工具,多半分完段后都会有哭笑不得的感觉,所以我才自己开发了这个工具。把分完段后的文件再按照指定的行宽重新分行的功能,则是在一个网友的要求下加进去的,估计是用于整理网络图书馆。
本软件为纯正的绿色软件,不需要安装,下载ZIP包后直接展开、运行即可。删除时删除可执行文件和帮助文件即可。
软件包中仅包含下列两个文件,如果有其它的,保证不是我加的,请不要犹豫,立刻删除:
1、HTML文件到文本文件的转换(HTML->Text)
根据需要设置选项(也可以什么不选,直接使用预设值),点击Go按钮,在弹出的对话框中选择需要转换的文件(按住Ctrl键或Shift键点击文件,即可选多个),然后点“打开”或“Open”按钮即可。
2、文件合并(Merge Files)
一般网站刊登电子版小说时,都是一章一个文件,因此在将HTML文件转换成TXT文件后,一般还需要按照章节顺序将转换出来的诸多TXT文件合并成一个文件。
使用方法:点击“选择”按钮,在弹出的对话框中输入合并后的文件名,然后点“开始”按钮,在弹出的对话框中选择需要合并的文件即可。
注意:文件的合并顺序,等同于在点“开始”按钮后,弹出的对话框中“文件名”(File Name)项中的显示顺序。通常最先选择的文件将排在末尾,而最后选择的文件将排在开头。最简单的选择方法:先选择最后一个文件,然后按住Shift健,选择第一个文件。
3、分段(Paragraph)
在把HTML转换成TXT文件后,由于去掉了HTML中的段落控制,转出来的文件看起来可能会参差不齐,需要重新合并、分段。
使用方法:点“选择”按钮选择需要分段的文件(如果前面做过文件合并,这里会自动填入合并后的文件名),根据需要设置选项,点“开始”按钮开始分段。
选项说明:
“源文件段落开始标志”框指定分段条件,即在输入文件中,满足什么样的条件算一个段落。这样的条件可以有4个:
“输出文件段落控制”框指定输出格式,可以指定的内容包括:
4、分行(Reparagraph)
有时候在用分段功能对原文中的段落进行合并、整理后,还需要按照指定的行宽,对段落进行分行,避免在没有自动环绕功能的浏览器上出现横向滚动条。
使用方法:点“选择”按钮选择需要分行的文件(如果前面做过文件合并或分段,这里会自动填入文件名),根据需要设置选项,点“开始”按钮开始分段。
选项说明:
5、内码转换(GB/GBK/Big5)
这个功能可以实现GB、GBK、Big5码的相互转换。转码过程使用的是Windows本身提供的标准接口,转码效果与IE相当。
使用方法:先设置文件选项、转码选项,然后点“开始”按钮,选择需要转换的文件即可。
文件选项说明:
转码选项说明:左侧为原文件中的汉字编码,右侧为转换后的汉字编码。
GB码是按照国家标准GB2312-80编排的,包括全部简体字及常用符号。
GBK码是国家技术监督局1995年为中文Windows95所制定的新的汉字内码规范(其中GB表示国标,K表示扩展)。该规范在字汇一级上支持ISO10646和GB13000中的全部中日韩(CJK)汉字,并与国家标准GB2312-80信息处理交换码相兼容。如果在中文简体版的Windows 95/98/2000下看到繁体中文,那么多半这些中文是用GBK编码的。
Big5码是港台地区流行的汉字编码,针对繁体字。这种编码的汉字在中文简体版的Windows 95/98/2000下多半显示为乱码,但是在繁体版Windows下显示正常。
Version 1.47
新增功能:GB/GBK/Big5码转换。转码过程使用的是Windows本身提供的标准接口,转码效果与IE相当。
Verion 1.46
Version 1.45
在分段(Paragraph)的时候,可以去除行首、行尾的制表符。
Version 1.44
在HTML->TXT对话框中,增加“Convert iso8859-1 sequence”选项,即将 转成空格,将·转成·等。
Version 1.43
1、增加分行(Reparagrahp)功能。
2、增加本说明文件。