MediaCrawler 小红书爬虫源码分析

MediaCrawler 小红书爬虫源码分析

2024-11-19 03:11

MediaCrawler 是最近冲上 Github 热搜的开源多社交平台爬虫。虽然现在已删库，但还好我眼疾手快，有幸还 Fork 了一份，乘着周末，简单分析了下小红书平台的相关代码。

一般写爬虫，都需要面对以下几个问题

如果 app/网页需要登录，如何获取登录态（cookie/jwt）
大部分 app/网页都会对请求参数进行 sign，如果有，如何获取 sign 逻辑
绕过其它遇到的反爬措施

我将带着这三个问题，阅读 MediaCrawler 小红书代码，看看 MediaCrawler 是怎么处理的。

提供了三种方式

QRCode （login_by_qrcode）
手机号 (login_by_mobile)
cookie (login_by_cookies)

登录相关代码都在文件中

实现代码为方法。代码为:

大致逻辑：

启动 headless 浏览器并且 headless 模式必须设为 , 因为不会把 QRCode 显示在终端或者通过信息转发服务转发到你的手机上
通过工具函数以及获取headless 浏览器所渲染页面中的 QRCode 图片元素
如果没有获取到，则点击 , 弹出登录对话框，然后再重复一次步骤2，如果依旧没有获取到，则退出爬虫，爬取失败。
如果获取到了，则等待用户扫码完成登录。
其中可能会出现验证码的情况，此时会提示需要手动验证，没有实现自动验证，需要人工手动操作干预。

实现代码为方法。代码为:

大致逻辑：

启动 headless 浏览器
点击 , 弹出登录对话框
获取phone ，并填入手机号
点击，发送验证码
每隔 1 秒从 Redis 数据库中获取验证码。如果 120 秒后，依旧没有获取到，则退出爬虫，爬取失败
如果获取到了，则将验证码，填入验证码输入框()，并勾选同意隐私协议按钮（）以及提交按钮()
因为依赖了 Redis 数据库组件，所以可以通过短信转发软件或者短信获取接口实现短信验证码输入的自动化，实现自动化手机号登录
1. 代码中没有检测验证码的正确性。
2. 代码中没有登录失败重试机制

实现代码为方法。就是将用户提供的信息放到中

小红书浏览器端接口有做验签，MediaCrawler 生成相关参数的代码位于文件中的方法。代码如下:

没有逆向后用 Python 重新实现函数，而是通过直接主动调用浏览器运行时中的生成
通过获取浏览器对象
将中的 , 中的 , 中的 , 中的 , 作为参数传给函数
函数最终返回签名后的值
将赋值给

所以主要签名逻辑就是函数，深入进去看下。代码位于文件。代码如下:

这个函数没有像方法一样，选择通过主动调用浏览器运行时中的相关方法，而是自己用 Python 实现。实现代码不再解释，就是逆向 JS 逻辑后，翻译成了 Python。
对于为何选择自己用 Python 实现而不主动调用浏览器中的 JS 方法，我也咨询了下作者，作者表示，这里的代码冗余了

MediaCrawler 小红书爬虫，也做了一些反反爬虫措施，代码位于中的函数。

通过注入脚本，来反headless 浏览器检测
通过添加来防止出现滑块
支持设置 ip 代理来更改 ip 地址

通过库发起 http 请求，请求时带上以及相关参数。请求是直接请求的 API, 所以没有任何 html 解析逻辑，当请求成功后，就会对数据进行一些处理，然后将数据入库。相关主要逻辑位于以及。由于比较简单，不再展开。

MediaCrawler 小红书爬虫是基于小红书浏览器端协议，实现了参数的获取，以及登录态的获取。参数的获取没有完全逆向 JS 逻辑并用 Python 实现，而是通过主动调用了部分 JS 函数()。登录态的获取，也是基于 headless 浏览器实现，QRCode 登录需要人工操作；手机号登录可以通过短信转发软件或者短信接收接口实现自动化登录，但没有做验证码检验，验证失败重试。可以通过来反 headless 浏览器检测。

以上就是本篇文章【MediaCrawler 小红书爬虫源码分析】的全部内容了，欢迎阅览！文章地址：http://keair.bhha.com.cn/news/1146.html
文章相关文章动态同类文章热门文章栏目首页网站地图返回首页康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多