结构清晰、简单易懂
对软件各项功能进行严格的分类整理, 界面条理化,清晰明了、简单易懂
用较简单方式实现采集、易学易用
这是国内目前较简单的网页采集工具,我们摒弃了用户指定HTML标签处理方式的复杂处理模式, 内置强大的网页内容识别算法。
提供灵活、强大的动态控制设计
允许通过JS代码来对采集行为进行动态控制, 进而得到有效的采集结果。
强大的编辑功能
强大的数据审核和排版设计,灵活控制各种参数;提供排版模板管理,排版风格一键控制。
采用多任务并行处理模式
多线程 + 多进程设计,并行处理采集链接识别、内容采集与发布等复杂的任务。
采用高率的MySQL数据库
采用MySQL作为本地数据库,有效保证大容量数据的存取和检索
收割机网页采集工具(e-reaper) v1.4.0.1更新:
引入预处理机制
修正几个算法上的BUG