MediaCrawler 是最近冲上 Github 热搜的开源多社交平台爬虫。虽然现在已删库,但还好我眼疾手快,有幸还 Fork 了一份,乘着周末,简单分析了下小红书平台的相关代码。
一般写爬虫,都需要面对以下几个问题
- 如果 app/网页需要登录,如何获取登录态(cookie/jwt)
- 大部分 app/网页都会对请求参数进行 sign,如果有,如何获取 sign 逻辑
- 绕过其它遇到的反爬措施
我将带着这三个问题,阅读 MediaCrawler 小红书代码,看看 MediaCrawler 是怎么处理的。
提供了三种方式
- QRCode (login_by_qrcode)
- 手机号 (login_by_mobile)
- cookie (login_by_cookies)
登录相关代码都在 文件中
实现代码为 方法。代码为:
大致逻辑:
- 启动 headless 浏览器并且 headless 模式必须设为 , 因为不会把 QRCode 显示在终端或者通过信息转发服务转发到你的手机上
- 通过工具函数以及获取headless 浏览器所渲染页面中的 QRCode 图片元素
- 如果没有获取到,则点击 , 弹出登录对话框,然后再重复一次步骤2,如果依旧没有获取到,则退出爬虫,爬取失败。
- 如果获取到了,则等待用户扫码完成登录。
其中可能会出现验证码的情况,此时会提示需要手动验证,没有实现自动验证,需要人工手动操作干预。
实现代码为 方法。代码为:
大致逻辑:
- 启动 headless 浏览器
- 点击 , 弹出登录对话框
获取phone ,并填入手机号
- 点击, 发送验证码
- 每隔 1 秒从 Redis 数据库中获取验证码。如果 120 秒后,依旧没有获取到,则退出爬虫,爬取失败
- 如果获取到了,则将验证码,填入验证码输入框(),并勾选同意隐私协议按钮()以及提交按钮()
因为依赖了 Redis 数据库组件,所以可以通过短信转发软件或者短信获取接口实现短信验证码输入的自动化,实现自动化手机号登录
- 代码中没有检测验证码的正确性。
- 代码中没有登录失败重试机制
实现代码为 方法。就是将用户提供的 信息放到 中
小红书浏览器端接口有做验签,MediaCrawler 生成 相关参数的代码位于 文件中的 方法。代码如下:
- 没有逆向后用 Python 重新实现函数,而是通过 直接主动调用浏览器运行时中的 生成
- 通过 获取浏览器对象
- 将 中的 , 中的 , 中的 , 中的 , 作为参数传给 函数
- 函数最终返回签名后的值
- 将 赋值给
所以主要签名逻辑就是 函数,深入进去看下。代码位于 文件。代码如下:
- 这个函数没有像 方法一样,选择通过主动调用浏览器运行时中的相关方法,而是自己用 Python 实现。实现代码不再解释,就是逆向 JS 逻辑后,翻译成了 Python。
- 对于为何选择自己用 Python 实现而不主动调用浏览器中的 JS 方法,我也咨询了下作者,作者表示,这里的代码冗余了
MediaCrawler 小红书爬虫,也做了一些反反爬虫措施,代码位于 中的 函数。
通过注入脚本,来反headless 浏览器检测
通过添加 来防止出现 滑块
支持设置 ip 代理来更改 ip 地址
通过 库发起 http 请求,请求时带上以及 相关参数。请求是直接请求的 API, 所以没有任何 html 解析逻辑,当请求成功后,就会对数据进行一些处理,然后将数据入库。相关主要逻辑位于 以及 。由于比较简单,不再展开。
MediaCrawler 小红书爬虫是基于小红书浏览器端协议,实现了参数的获取,以及登录态的获取。参数的获取没有完全逆向 JS 逻辑并用 Python 实现,而是通过 主动调用了部分 JS 函数()。登录态的获取,也是基于 headless 浏览器实现,QRCode 登录需要人工操作;手机号登录可以通过短信转发软件或者短信接收接口实现自动化登录,但没有做验证码检验,验证失败重试。可以通过 来反 headless 浏览器检测。