2.1 修复了2.0之前的两个bug, 增加了两个新功能
修复2.0采集后统计字数错误bug修复2.0配置user_agent 无效bug增加通过本站小说反查目标站小说功能, 使用方法即在使用-c或-r参数的时候同时加上-reverse参数增加正常关闭程序功能, 解决kill进程后采集到空章节bug, 增加此功能后如果再同一台机器上复制了多份采集器, 同时开启时需要修改collect.ini中stop_port端口, 此功能在windows下通过stop.bat调用, 在linux下通过stop.sh调用。
修复2.0采集后统计字数错误bug
修复2.0配置user_agent 无效bug
增加通过本站小说反查目标站小说功能, 使用方法即在使用-c或-r参数的时候同时加上-reverse参数
增加正常关闭程序功能, 解决kill进程后采集到空章节bug, 增加此功能后如果再同一台机器上复制了多份采集器, 同时开启时需要修改collect.ini中stop_port端口, 此功能在windows下通过stop.bat调用, 在linux下通过stop.sh调用。
变更如下:
collect.ini文件中增加以下内容:
#程序默认监听端口, 正常结束程序时会通过此端口发送消息, 如果发生端口冲突, 请自行修改stop_port=10987#访问目标站方式user-agent#模拟爬虫的值分别为:baidu 模拟百度爬虫 (默认方式)、google、 sogou、yahoo、msn、youdao、jike#模拟人工:user_ie_x64, user_ie_x86user_agent=user_ie_x64
site.ini文件中的user_agent配置项可以删掉。
使用2.1版中的spider.jar覆盖原有文件。
本次发布带起点规则(不完整, 只能做修复用), 使用起点配合-r、-ra及反查功能修复时user_agent必须使用user_ie_x64或 user_ie_x86, 使用模拟蜘蛛访问会被起点拒绝。
下载地址: http://pan.baidu.com/s/1dDAdf01
效果参看: 很牛小说网
返回上一页 返回【采集器相关】