现在提起爬虫,大家可能会联想到 Python 语言,然后就是各种使用无头浏览器去网页上爬取数据,使用 Python 的过程相较于使用其他语言来说,简单了不少。
但毕竟是编程语言,也需要去学习来适配各种网页,配上各种好用的包才能用得顺手,如果只是想实现爬虫一类的小工具,简单获取一下网站的数据,今天体验的这款 EasySpider 是一个不错的选择。
它采用了可视化的操作界面,可以做到无代码图形化的设计和执行爬虫任务,完全免费无广告,支持的特性也有很多。
最重要的是它还在一直更新,从发版以来,一直在进行功能的增加和修复,在写这篇体验的8小时前,EasySpider 就更新了一版,把 Chrome 浏览器环境升到了 124 版本。
它在 Windows 下提供了32位和64位运行环境包,下载解压可以看到提醒,这个工具是不支持 Win7 及以下系统的。
打开之后会让你选择语言。
之后是新建修改任务,与任务列表管理,如果你不熟悉操作,也可以先访问他们的教程,之后去看看那些附带的任务列表示例。
选择新建任务,可以使用纯净的浏览器环境,也可以使用带登录状态的浏览器环境。
拿纯净环境来举例一下,点击之后会弹出 EasySpider 下的一个 Chrome 浏览器运行环境,上面有新建任务,扩展里面也有两个预置好的协助插件。
点击创建之后,可以看到一个输入网址的提示。
填写需要爬取的网页之后,会弹出两个界面,上方是 EasySpider 的操作流程控制,下面是被控制网页的实时预览。
在浏览器中可以选择需要采集的区域,如果有同类型的元素,点击右键多选两次之后,它会有智能提醒,问你是否要全选所有元素。
选择好数据之后,还会提示你下一步操作,是需要采集数据,还是循环点击等操作。
而有的网站需要滚动一下,需要点击某个按钮,才能加载完整的数据,这种情况不用慌,在上方弹出的流程控制里,就可以进行这些配置。
选择好数据采集之后,下一步的操作 EasySpider 也会进行推荐,并且有详细的说明。
在上方的流程里面,也会加入对应的步骤,点击可以设置细节。
点击保存,一个简单的小任务就做好了,保存时会询问你把数据保存成哪种格式,可以选择文本和数据库等格式。
保存任务再运行,之后就可以在 EasySpider 的 Data 文件下看到运行记录了,收集的数据也在这里。
熟悉了简单的操作之后,之后遇到不同的需求就是根据实际情况来完善流程,EasySpider 提供了许多流程控制的办法,可以执行判断条件,运行系统命令,以及对网页本身进行调试操作等等。
加上它支持:定时执行、外部程序调用、“无视操作环境的任务迁移”、下载文件、弹窗处理和移动端模拟等特性,让这个工具的可玩性大大提高了。
而对于真正感兴趣,想入门这个 EasySpider 工具的朋友们来说,软件官方还配有许多视频教程,建议翻阅一下,看来软件官方是真想让普通人实现爬虫自由了属于是。
自己一天用上几次,将数据保存下来用作记录没有什么大问题,不过需要留意的是,有些网页是不欢迎软件进行自动爬取的,有数据需求可以使用网页公开提供的接口,不然请求频繁了可能会被封禁访问,或者有登录态的账号进入黑名单,那就不好了。
工具虽好,但也要酌情使用~
貌似不错