此版本有重大bug, 请直接下载2.0正式版。
20140910采集器2.0内测版下载地址http://pan.baidu.com/s/1hq68lvu
使用java -jar spider.jar -help可查看用法, 效果如下:
usage: yispider -c <arg> 采集指定目标站小说, 例如 -c 1,234,5678 或 -c 1-5 -ca 采集所有目标站小说 -help 获取帮助信息 -m 同时采集指定多个配置文件进行采集 -r <arg> 修复指定小说中目标站和本站均存在的小说,例如 -r 1,234,5678 或 -r 1-5 -ra 修复所有目标站和本站均存在的小说 -rp <arg> 指定小说需要修复的部分,指令包括:intro(简介)、degree(写作进度)、cover(封面图片)、top(小说 大类)、sub(小说细类), 必须和ra或r公用。 如 -ra -rp cover,top,sub,intro,degree -rule <file> 指定采集使用的规则文件 -version 获取软件版本信息
使用步骤:
修改数据库链接, 对应配置文件jdbc.propertiesjdbc.url=jdbc:postgresql://127.0.0.1:5432/yidujdbc.username=postgresjdbc.password=postgres
将红色部分修改成自己的配置即可
修改采集配置, 对应配置文件collect.ini具体配置参考对应的中文说明, 一般情况下, 主要修改rule_name、add_new_book两项配置
配置网站信息, 对应配置文件site.ini主要修改txt_dir、cover_dir, 将这两个对应的值改为网站txt文件、封面图片对应的绝对路径
选择性配置小说分类设置category.ini日志设置logback.xml 日志级别修改52行<root level="INFO">, 调试时将level值设置为debug, 稳定运行时将level值设置为info或error
启动: 进入采集器目录, 使用java -jar spider.jar & 运行
返回上一页 返回【采集器相关】