Gecco 1.2.3 发布了,DynamicGecco 实现了爬虫规则的热部署,是首个支持动态加载的java爬虫框架。 DynamicGecco 的目的是在不定义 SpiderBean 的情况下实现爬取规则的运行时配置。其实现原理是采用字节码编程,动态生成 SpiderBean,而且通过自定义的 GeccoClassLoader 实现了抓取规则的热部署。使用方法可以参考《教您使用DynamicGecco抓取JD全部商品信息》这个DEMO:http://www.geccocrawler.com/dynamic-demo-jd/ 版本更新如下: 增加 proxysLoader,支持自定义代理 ip 加载,FileProxys 代替 Proxys 增加派生队列和初始队列上下文,DeriveSchedulerContext 代替 SchedulerContext,增加StartSchedulerContext提供初始化队列运行时入队机制 添加引擎生命周期监听器(米林pull request) 删除警告信息,带有注解完善(米林pull request) 增加停止爬虫engineStop()和是否开启代理proxy()API 添加自定义注解和渲染支持(米林pull request) Gecco 1.2.3 发布,易用的轻量化爬虫下载地址