EasySpider安装和基础入门使用,在之前的文章《EasySpider:一个很强大的可视化网络爬虫工具,100%开源完全免费》中,好呀鱼已经有详细介绍过了,有不清楚的朋友可以再去浏览下,访问地址:
https://www.toutiao.com/article/7234190558451941940/。
最近有好多朋友私信好呀鱼,咨询“如何利用EasySpider抓取需要登录之后才能访问的网站数据”,因此特地补充发布一篇关于爬取需要登录的网站数据操作说明的文章,为广大粉友们解惑,同时进一步展示EasySpider的强大。以爬取知乎网的数据为示例,操作步骤如下:
1、打开EasySpider主程序,选择【中文】进入【设计|查看任务】选择页面。
2、点击【设计任务】,进入【设计模式】选择页面,切记选择【使用带用户信息浏览器设计】模式,别选错了!!!
⚠️注意:免登的网站才选择【使用纯净版浏览器设计】模式
3、指定用户信息目录,例如:设置了http://www.360doc.com/content/24/0601/05/user_data_1文件夹,并在设计过程中登录了知乎网站,则下次再次设计或者执行任务时指定http://www.360doc.com/content/24/0601/05/user_data_1文件夹,打开知乎网站页面会仍然保留之前的登录状态。
4、点击【开始设计】进入设计面板,这时会发现除了打开EasySpider主程序面板,还会打开一个浏览器窗口。
5、点击【新建任务】,输入知乎网的地址,点击【开始设计】。
6、点击【开始设计】后,发现EasySpider设计流程中多一个打开网页的节点,同时浏览器窗口打开了知乎网登录页。
知乎网登录可以按正常的登录方式进行,好呀鱼为了方便演示选择手机扫描方式登录。
登录知乎后效果:
做到一步,就可以开始进行爬取数据流程设计,剩余的操作步骤和在文章《EasySpider:一个很强大的可视化网络爬虫工具,100%开源完全免费》介绍的类似,好呀鱼在这里就简单地再描述下。
7、鼠标右击知乎网推荐列表的第1条数据,点击【选中全部】选中列表所有条目。
点击【采集数据】后,发现EasySpider设计面板多了1个提取数据的节点,如下:
输入任务名称,点击【保存】
8、关闭设计窗口,回到【设计|查看任务】面板,点击【查看任务】,可以看到步骤7保存的任务:task_zhihu_0528。
点击【任务信息】,查看任务详情,点击【调用任务】
选择执行任务模式时,切记选择【带用户信息模式】,别选错了!!!,这里说明下两种模式的区别:
纯净模式:访问目标网站不携带用户信息,适用免登场景
带用户信息模式:访问目标网站携带用户信息,适用需要认证场景
拷贝以下脚本命令:
打开EasySpider软件目录(我的是mac电脑,目录在 /Users/用户名
/Downloads/EasySpider_MacOS_all_arch,每个人有差异),开启终端,执行上述复制的脚步,执行结果如下:
9、打开【Data】目录,查看生成的数据文件。
至此,整个关于“如何利用EasySpider抓取需要登录之后才能访问的网站数据”就算完成了。顺便,再验证下我们刚才保存的登录信息是否有效。
11、验证登录信息有效性,再次访问知乎网
重复步骤1-3打开【用户信息目录】,点击【开始设计】;新建设计任务,再次输入知乎网址。
这次进入知乎网,发现无需登录了,直接进入主页,说明刚才保存的登录信息有效,剩余步骤就不再重复演示了。
EasySpider官网地址:
本文地址:http://keair.bhha.com.cn/news/4869.html 康宝晨 http://keair.bhha.com.cn/ , 查看更多