spider-flow 0行代码就能实现爬虫
我们在日常使用互联网时会产生大量的数据,爬虫是很好的获取数据的手段。爬虫是 Python 的一个重要的方向,可是我不想学 Python 怎么办?
诶嘿~今天博主就跟大家推荐一个不需要学习 Python 甚至不需要写代码就能实现爬虫的平台!
spider–flow
spider-flow 是一个新一代爬虫平台,其以图形化方式来定义爬虫流程,不需要编写代码,绘制流程图即可快速完成一个爬虫。spider-flow 是一个高度灵活可配置的爬虫平台。
功能特性
-
支持 CSS 选择器 / 正则提取 / 混搭提取 / Xpath / JsonPath 提取 -
支持 JSON / XML / 二进制格式 -
支持多数据源、SQL select / insert / update / delete等 -
支持爬取 JS 动态渲染的页面 -
支持代理 -
支持自保存/读取文件(csv、xls、jpg 等) -
支持常用字符串、日期、文件、加解密、随机等函数,自定义函数 -
支持流程嵌套 -
支持插件扩展(自定义执行器,自定义方法等) -
支持 HTTP 接口
插件支持
spider-flow 拥有丰富的插件,包括 Selenium、Redis、Mongodb、IP 代理池、OSS、OCR、电子邮件等插件。我们将需要使用的插件提前下载到本地再在 pom.xml 引入插件即可。
绘制流程
spider-flow 通过绘制流程图就能实现爬虫。流程图整体包括开始节点、爬取节点、定义变量、输出节点、循环节点、等待结束、执行 SQL、注释、子流程、执行函数、连接线、通用函数。流程会按照我们绘制的流程图箭头一直执行下去。
最后,博主要提醒大家,爬虫一定要把握好尺度,抓取到的数据仅供学习使用,切不可用于商业,不要侵犯他人隐私。爬虫有风险,抓数需谨慎!
声明:本站(www.mysqlschool.cn)所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(1)
org.spiderflow.SpiderApplication.java,这个文件在哪打开