FineReader: An application to format text file, including convert HTML file to text file, merge text files, paragraph and reparagragh.

作者:马健
邮箱:stronghorse@163.net
主页:http://stronghorse.yeah.net

FAQ
使用说明
    一、软件安装/删除
    二、软件使用
附录 版本更新记录

FAQ

Q:FineReader是什么?
A:这是一个专为整理电子版小说而开发的工具,包括HTML到文本文件的转换,文件合并,段落合并,段落切分,内码转换等功能。

Q:文件转换、文件合并功能好理解,段落合并、段落切分是干什么的?
A:段落合并其实就是某些软件所吹嘘的“自动分段”功能:在转换、识别出来的文本文件中,往往在一个自然段中间加入了若干回车/换行符,成了一行一行的了,因此需要将这些多余的回车/换行符去掉,只在自然段结尾才出现回车/换行符。有人喜欢把这个功能称为“自动分段”,我更喜欢称为“段落合并”。
段落切分是段落合并的过程。段落合并完成以后,在某些软件下阅读时,可能因为行太长,给阅读带来不便,因此需要按照指定的行长,对段落进行切分,切成一个一个短行。

Q:为什么要开发FineReader?
A:我曾经极度热衷于电子版小说,但是看HTML版的小说总有点遗憾:看到错别字的时候修改很麻烦,打印是个问题,翻页也很累……最后发现解决的办法就是将HTML转换、合并成一个TXT文件,然后在Word下观看。现成的HTML到TXT的转换工具有不少,但是集转换、合并、分段等功能于一体的好像还没有,尤其是分段工具,多半分完段后都会有哭笑不得的感觉,所以我才自己开发了这个工具。把分完段后的文件再按照指定的行宽重新分行的功能,则是在一个网友的要求下加进去的,估计是用于整理网络图书馆。

使用说明

一、软件安装/删除

本软件为纯正的绿色软件,不需要安装,下载ZIP包后直接展开、运行即可。删除时删除可执行文件和帮助文件即可。

软件包中仅包含下列两个文件,如果有其它的,保证不是我加的,请不要犹豫,立刻删除:

  1. FineReader.exe。可执行文件。
  2. FineReader.htm。本帮助文件。

二、软件使用

1、HTML文件到文本文件的转换(HTML->Text)

根据需要设置选项(也可以什么不选,直接使用预设值),点击Go按钮,在弹出的对话框中选择需要转换的文件(按住Ctrl键或Shift键点击文件,即可选多个),然后点“打开”或“Open”按钮即可。

2、文件合并(Merge Files)

一般网站刊登电子版小说时,都是一章一个文件,因此在将HTML文件转换成TXT文件后,一般还需要按照章节顺序将转换出来的诸多TXT文件合并成一个文件。

使用方法:点击“选择”按钮,在弹出的对话框中输入合并后的文件名,然后点“开始”按钮,在弹出的对话框中选择需要合并的文件即可。

注意:文件的合并顺序,等同于在点“开始”按钮后,弹出的对话框中“文件名”(File Name)项中的显示顺序。通常最先选择的文件将排在末尾,而最后选择的文件将排在开头。最简单的选择方法:先选择最后一个文件,然后按住Shift健,选择第一个文件。

3、分段(Paragraph)

在把HTML转换成TXT文件后,由于去掉了HTML中的段落控制,转出来的文件看起来可能会参差不齐,需要重新合并、分段。

使用方法:点“选择”按钮选择需要分段的文件(如果前面做过文件合并,这里会自动填入合并后的文件名),根据需要设置选项,点“开始”按钮开始分段。

选项说明:

“源文件段落开始标志”框指定分段条件,即在输入文件中,满足什么样的条件算一个段落。这样的条件可以有4个:

  1. 以2个或指定个数的中文空格开头。
  2. 以4个或指定个数的英文空格开头。
  3. 某一行的长度小于平均行长的1/20(可设置)。一般这个条件用于OCR出来、没有整理过的文件。
  4. 后面跟一个空行。

“输出文件段落控制”框指定输出格式,可以指定的内容包括:

  1. 段落的引导字符:可以是2个中文空格、4个英文空格或者什么也没有。
  2. 在段落后面加一个空行。
  3. 删除原文文本行的引导空格。
  4. 删除原文文本行的末尾空格。

4、分行(Reparagraph)

有时候在用分段功能对原文中的段落进行合并、整理后,还需要按照指定的行宽,对段落进行分行,避免在没有自动环绕功能的浏览器上出现横向滚动条。

使用方法:点“选择”按钮选择需要分行的文件(如果前面做过文件合并或分段,这里会自动填入文件名),根据需要设置选项,点“开始”按钮开始分段。

选项说明:

  1. “最大行长”项说明分行的行长,以英文字符为单位。注意一个中文字符等于两个英文字符。
  2. “段落开头添加”选项设置分行后段落的引导字符,可以是2个中文字符、4个英文字符或者什么也没有。
  3. “在段落后添加空行”选项说明是否需要在段落后加一个空行。

5、内码转换(GB/GBK/Big5)

这个功能可以实现GB、GBK、Big5码的相互转换。转码过程使用的是Windows本身提供的标准接口,转码效果与IE相当。

使用方法:先设置文件选项、转码选项,然后点“开始”按钮,选择需要转换的文件即可。

文件选项说明:

  1. 覆盖原文件:转换后的文件将覆盖转换前的文件。
  2. 原文件另存为 bak 文件:转换后的文件不会覆盖转换前的文件,转换完成后将在原文件名后加后缀.bak。

转码选项说明:左侧为原文件中的汉字编码,右侧为转换后的汉字编码。
GB码是按照国家标准GB2312-80编排的,包括全部简体字及常用符号。
GBK码是国家技术监督局1995年为中文Windows95所制定的新的汉字内码规范(其中GB表示国标,K表示扩展)。该规范在字汇一级上支持ISO10646和GB13000中的全部中日韩(CJK)汉字,并与国家标准GB2312-80信息处理交换码相兼容。如果在中文简体版的Windows 95/98/2000下看到繁体中文,那么多半这些中文是用GBK编码的。
Big5码是港台地区流行的汉字编码,针对繁体字。这种编码的汉字在中文简体版的Windows 95/98/2000下多半显示为乱码,但是在繁体版Windows下显示正常。

附录 版本更新记录

Version 1.47

新增功能:GB/GBK/Big5码转换。转码过程使用的是Windows本身提供的标准接口,转码效果与IE相当。

Verion 1.46

  1. 发行简体中文版。
  2. 更正“关于”对话框中的email地址。
  3. 统一文件浏览对话框的风格。
  4. 修正定位代码,彻底解决改变字体后PropertyPage高度计算不精确的问题。
  5. 根据新的用户界面,更改了本帮助文件。

Version 1.45
在分段(Paragraph)的时候,可以去除行首、行尾的制表符。

Version 1.44
在HTML->TXT对话框中,增加“Convert iso8859-1 sequence”选项,即将 转成空格,将·转成·等。

Version 1.43
1、增加分行(Reparagrahp)功能。
2、增加本说明文件。