spider-flow 0行代码就能实现爬虫

我们在日常使用互联网时会产生大量的数据,爬虫是很好的获取数据的手段。爬虫是 Python 的一个重要的方向,可是我不想学 Python 怎么办?

诶嘿~今天博主就跟大家推荐一个不需要学习 Python 甚至不需要写代码就能实现爬虫的平台!

spider-flow

spider-flow 是一个新一代爬虫平台,其以图形化方式来定义爬虫流程,不需要编写代码,绘制流程图即可快速完成一个爬虫。spider-flow 是一个高度灵活可配置的爬虫平台。

spider-flow 0行代码就能实现爬虫插图

功能特性

  • 支持 CSS 选择器 / 正则提取 / 混搭提取 / Xpath / JsonPath 提取
  • 支持 JSON / XML / 二进制格式
  • 支持多数据源、SQL select / insert / update / delete等
  • 支持爬取 JS 动态渲染的页面
  • 支持代理
  • 支持自保存/读取文件(csv、xls、jpg 等)
  • 支持常用字符串、日期、文件、加解密、随机等函数,自定义函数
  • 支持流程嵌套
  • 支持插件扩展(自定义执行器,自定义方法等)
  • 支持 HTTP 接口

spider-flow 0行代码就能实现爬虫插图1

插件支持

spider-flow 拥有丰富的插件,包括 Selenium、Redis、Mongodb、IP 代理池、OSS、OCR、电子邮件等插件。我们将需要使用的插件提前下载到本地再在 pom.xml 引入插件即可。

绘制流程

spider-flow 通过绘制流程图就能实现爬虫。流程图整体包括开始节点、爬取节点、定义变量、输出节点、循环节点、等待结束、执行 SQL、注释、子流程、执行函数、连接线、通用函数。流程会按照我们绘制的流程图箭头一直执行下去。

spider-flow 0行代码就能实现爬虫插图2

最后,博主要提醒大家,爬虫一定要把握好尺度,抓取到的数据仅供学习使用,切不可用于商业,不要侵犯他人隐私。爬虫有风险,抓数需谨慎!

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注