采集器使用方法
采集器下载到本地, 解压后可以看到以下目录:
-conf
-logs
-rules
-spider_lib
-spider.jar
-startSpider.sh
其中conf文件夹是配置文件目录, 进入后可以看到有5个文件, 其中config.ini 和 jdbc.properties是需要修改配置
在jdbc.properties中修改自己的数据库配置
在config.ini中修改采集配置, 主要修改项包括
ruleName --采集规则文件名, 对应rules文件夹中的文件名
siteProgram --目前只支持yidu
basePath --网站根目录
newBook --是否采集新书
其他配置参考文件中的注释。
关于startSpider.sh的说明, 请移步 启动脚本