采集器V1.3BETA版正式发布
本版主要变更:
修复之前版本连接目标站出错时程序假死bug。
增加空章节修复、封面等小说信息修复功能。
增加按照目标站小说号采集功能。
增加对多个列表页采集的支持。
修复其他bug。
为简化过滤, 本版采集器不支持规则大小写。
如果采集规则中出现大写字母除了正则本身大写的, 其他需要全部改为小写
正则本身需要大写的如\W \S等。
小说空章节、封面、作者、简介修复功能使用方法如下:
java -jar spider.jar -r
java -jar spider.jar -r1,2,3
-r后面的数字是目标站小说号
使用时需要注意, 修复的采集规则需要和采集的时候不同, 不然抓取到的内容和原来的一样, 是无法进行修复的。
按照目标站小说号采集在1.2的基础上增加了区间支持, 即支持采集目标站序号在1-100之间的小说
使用方法如下:
java -jar spider.jar -n1,2,3
java -jar spider.jar -n1#100
支持对多个列表页的采集, 如
<NovelListUrl>
<RegexName>NovelListUrl</RegexName>
<Pattern>http://www.23us.com/top/allvisit_1.html
http://www.23us.com/top/allvisit_2.html
http://www.23us.com/top/allvisit_3.html
http://www.23us.com/top/allvisit_4.html
http://www.23us.com/top/allvisit_5.html</Pattern>
<Method>Match</Method>
<FilterPattern />
<Options>None</Options>
</NovelListUrl>
需要每行一个列表页
本次发布版本只有spider.jar有变动, 下载最新spider.jar直接覆盖1.2的spider.ja即可。
具体使用方法请参考http://www.51yd.org/thread-index-fid-1-tid-34.htm
如有使用意见或者建议请跟帖说明, 如使用中遇到紧急问题请直接在群里@浪迹天涯。
易读用户如果在使用中遇到索引重复问题,请执行以下两条SQL:
SELECT setval('t_article_articleno_seq', (select max(articleno) from t_article));
SELECT setval('t_chapter_chapterno_seq', (select max(chapterno) from t_chapter));
1.2下载地址: http://pan.baidu.com/s/18GXNC
1 个附件 |
售价 |
大小 |
下载 |
时间 |
|
spider.jar
|
0 金币 |
93.97K |
42 次 |
2014-3-29 |
|