易大师采集器2.0beta版发布采集器相关

登录注册发新帖

henniu		易大师采集器2.0beta版发布此版本有重大bug，请直接下载2.0正式版。 20140910采集器2.0内测版下载地址http://pan.baidu.com/s/1hq68lvu 使用java -jar spider.jar -help可查看用法，效果如下： usage: yispider -c <arg> 采集指定目标站小说, 例如 -c 1,234,5678 或 -c 1-5 -ca 采集所有目标站小说 -help 获取帮助信息 -m 同时采集指定多个配置文件进行采集 -r <arg> 修复指定小说中目标站和本站均存在的小说,例如 -r 1,234,5678 或 -r 1-5 -ra 修复所有目标站和本站均存在的小说 -rp <arg> 指定小说需要修复的部分，指令包括：intro(简介)、degree(写作进度)、cover(封面图片)、top(小说大类)、sub(小说细类)，必须和ra或r公用。如 -ra -rp cover,top,sub,intro,degree -rule <file> 指定采集使用的规则文件 -version 获取软件版本信息使用步骤：修改数据库链接，对应配置文件jdbc.properties jdbc.url=jdbc:postgresql://127.0.0.1:5432/yidu jdbc.username=postgres jdbc.password=postgres 将红色部分修改成自己的配置即可修改采集配置，对应配置文件collect.ini 具体配置参考对应的中文说明，一般情况下，主要修改rule_name、add_new_book两项配置配置网站信息，对应配置文件site.ini 主要修改txt_dir、cover_dir，将这两个对应的值改为网站txt文件、封面图片对应的绝对路径选择性配置小说分类设置category.ini 日志设置logback.xml 日志级别修改52行<root level="INFO">，调试时将level值设置为debug，稳定运行时将level值设置为info或error 启动：进入采集器目录，使用java -jar spider.jar & 运行 #1楼
		发帖时间：2014-9-10 \| 查看数：0 \| 回复数：4

henniu

解决启动采集器后日志滚屏，导致无法输入命令问题：打开logback.xml，在53行附近找到<appender-ref ref="stdout" />，将其删掉，或者修改为

2014-9-10 #2楼

巴适小说

演示 www.8sxs.com

2014-9-10 #3楼

巴适小说

示例 java -jar spider.jar -ra -rp intro,cover&
jara -jar spider.jar -r 1-60000 -rp intro,cover &

2014-10-8 #4楼

qxwo

需要用screen吗？运行完直接关掉shell就可以吗？

2014-10-18 #5楼

游客组

返回上一页返回【采集器相关】