`

一个方便易用的爬虫框架

 
阅读更多

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

 

 

官方网站http://webmagic.io/

webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。作者曾经在前公司进行过一年的垂直爬虫的开发,webmagic就是为了解决爬虫开发的一些重复劳动而产生的框架。

web爬虫是一种技术,webmagic致力于将这种技术的实现成本降低,但是出于对资源提供者的尊重,webmagic不会做反封锁的事情,包括:验证码破解、代理切换、自动登录等。

webmagic的主要特色:

  • 完全模块化的设计,强大的可扩展性。
  • 核心简单但是涵盖爬虫的全部流程,灵活而强大,也是学习爬虫入门的好材料。
  • 提供丰富的抽取页面API。
  • 无配置,但是可通过POJO+注解形式实现一个爬虫。
  • 支持多线程。
  • 支持分布式。
  • 支持爬取js动态渲染的页面。
  • 无框架依赖,可以灵活的嵌入到项目中去。

 

http://git.oschina.net/flashsword20/webmagic#readme

分享到:
评论

相关推荐

    Python网页爬虫程序框架

    Scrapy:Scrapy是一个强大的开源网络爬虫框架,提供了完整的爬虫流程管理,包括异步IO操作、多线程管理、反爬虫策略等功能。它支持XPath和CSS选择器进行网页内容提取,同时也提供了方便的数据导出功能。 Beautiful ...

    经典爬虫库(内含超过十种经典爬虫代码)

    Scrapy: Scrapy 是一个强大的 Python 爬虫框架,提供了高效的抓取和数据处理能力,支持异步方式处理请求和页面解析。它拥有丰富的特性,如自动 throttling、并发控制、数据存储等。 Beautiful Soup: Beautiful ...

    xmg-gecco-demo-master.zip

    一个gecco爬虫框架,简单易用,使用jquery风格的选择器抽取元素 支持爬取规则的动态配置和加载 支持页面中的异步ajax请求 支持页面中的javascript变量抽取 利用Redis实现分布式抓取,参考gecco-redis 支持结合Spring...

    ScriptSpider:一个java版本的分布式的通用爬虫,可以插拔各个组件(提供默认的)

    ScriptSpiderScriptSpider(以下简称SS),做一个好用的爬虫框架。目前的功能已经够大多数情况下使用,ScriptSpider会朝着易用、高度、最新技术的方向发展!欢迎 Star 和 Fork 我的项目!项目主页国外:国内:特点...

    Java网络爬虫EggJava.zip

    Egg是一个通用,多线程的Java爬虫框架。 Egg简单小巧,api非常简单,容易上手。 Egg性能不错,并实现多种请求方式。 能够比较快的响应使用者的需求 速度说明 实测数据,在20M无线网下(隔了堵...

    计算机毕业设计源码:Flask汽车销量数据采集分析可视化系统

    Flask汽车销售数据采集分析可视化系统是基于Flask框架开发的一个应用系统,旨在帮助用户采集、分析和可视化汽车销售数据。 数据采集:系统提供方便易用的界面,用户可以通过该界面输入和管理汽车销售数据。用户可以...

    Flask汽车销量数据采集分析可视化系统(包含项目源码+数据库文件+文档)计算机毕业设计

    Flask汽车销售数据采集分析可视化系统是基于Flask框架开发的一个应用系统,旨在帮助用户采集、分析和可视化汽车销售数据。 数据采集:系统提供方便易用的界面,用户可以通过该界面输入和管理汽车销售数据。用户可以...

    JAVA上百实例源码以及开源项目

    5个目标文件,演示Address EJB的实现,创建一个EJB测试客户端,得到名字上下文,查询jndi名,通过强制转型得到Home接口,getInitialContext()函数返回一个经过初始化的上下文,用client的getHome()函数调用Home接口...

    JAVA上百实例源码以及开源项目源代码

    5个目标文件,演示Address EJB的实现,创建一个EJB测试客户端,得到名字上下文,查询jndi名,通过强制转型得到Home接口,getInitialContext()函数返回一个经过初始化的上下文,用client的getHome()函数调用Home接口...

Global site tag (gtag.js) - Google Analytics