商务服务
MediaCrawler 小红书爬虫源码分析
2024-11-19 03:11

MediaCrawler 是最近冲上 Github 热搜的开源多社交平台爬虫。虽然现在已删库,但还好我眼疾手快,有幸还 Fork 了一份,乘着周末,简单分析了下小红书平台的相关代码。

MediaCrawler 小红书爬虫源码分析

一般写爬虫,都需要面对以下几个问题

  1. 如果 app/网页需要登录,如何获取登录态(cookie/jwt)
  2. 大部分 app/网页都会对请求参数进行 sign,如果有,如何获取 sign 逻辑
  3. 绕过其它遇到的反爬措施

我将带着这三个问题,阅读 MediaCrawler 小红书代码,看看 MediaCrawler 是怎么处理的。

提供了三种方式

  1. QRCode (login_by_qrcode)
  2. 手机号 (login_by_mobile)
  3. cookie (login_by_cookies)

登录相关代码都在 文件中

实现代码为 方法。代码为:

大致逻辑:

  1. 启动 headless 浏览器并且 headless 模式必须设为 , 因为不会把 QRCode 显示在终端或者通过信息转发服务转发到你的手机上
  2. 通过工具函数以及获取headless 浏览器所渲染页面中的 QRCode 图片元素
  3. 如果没有获取到,则点击 , 弹出登录对话框,然后再重复一次步骤2,如果依旧没有获取到,则退出爬虫,爬取失败。
  4. 如果获取到了,则等待用户扫码完成登录。
  5. 其中可能会出现验证码的情况,此时会提示需要手动验证,没有实现自动验证,需要人工手动操作干预。

实现代码为 方法。代码为:

大致逻辑:

  1. 启动 headless 浏览器
  2. 点击 , 弹出登录对话框
  3. 获取phone ,并填入手机号

  4. 点击, 发送验证码
  5. 每隔 1 秒从 Redis 数据库中获取验证码。如果 120 秒后,依旧没有获取到,则退出爬虫,爬取失败
  6. 如果获取到了,则将验证码,填入验证码输入框(),并勾选同意隐私协议按钮()以及提交按钮()
  7. 因为依赖了 Redis 数据库组件,所以可以通过短信转发软件或者短信获取接口实现短信验证码输入的自动化,实现自动化手机号登录

    1. 代码中没有检测验证码的正确性。
    2. 代码中没有登录失败重试机制

实现代码为 方法。就是将用户提供的 信息放到 中

小红书浏览器端接口有做验签,MediaCrawler 生成 相关参数的代码位于 文件中的 方法。代码如下:

  1. 没有逆向后用 Python 重新实现函数,而是通过 直接主动调用浏览器运行时中的 生成
  2. 通过 获取浏览器对象
  3. 将 中的 , 中的 , 中的 , 中的 , 作为参数传给 函数
  4. 函数最终返回签名后的值
  5. 将 赋值给

所以主要签名逻辑就是 函数,深入进去看下。代码位于 文件。代码如下:

  1. 这个函数没有像 方法一样,选择通过主动调用浏览器运行时中的相关方法,而是自己用 Python 实现。实现代码不再解释,就是逆向 JS 逻辑后,翻译成了 Python。
  2. 对于为何选择自己用 Python 实现而不主动调用浏览器中的 JS 方法,我也咨询了下作者,作者表示,这里的代码冗余了

MediaCrawler 小红书爬虫,也做了一些反反爬虫措施,代码位于 中的 函数。

  1. 通过注入脚本,来反headless 浏览器检测

  2. 通过添加 来防止出现 滑块

  3. 支持设置 ip 代理来更改 ip 地址

通过 库发起 http 请求,请求时带上以及 相关参数。请求是直接请求的 API, 所以没有任何 html 解析逻辑,当请求成功后,就会对数据进行一些处理,然后将数据入库。相关主要逻辑位于 以及 。由于比较简单,不再展开。

MediaCrawler 小红书爬虫是基于小红书浏览器端协议,实现了参数的获取,以及登录态的获取。参数的获取没有完全逆向 JS 逻辑并用 Python 实现,而是通过 主动调用了部分 JS 函数()。登录态的获取,也是基于 headless 浏览器实现,QRCode 登录需要人工操作;手机号登录可以通过短信转发软件或者短信接收接口实现自动化登录,但没有做验证码检验,验证失败重试。可以通过 来反 headless 浏览器检测。

    以上就是本篇文章【MediaCrawler 小红书爬虫源码分析】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/1146.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理
编辑:LRST【新智元导读】研究人员首次系统综述了大型语言模型(LLM)在法律领域的应用,提出创新的双重视角分类法,融合法律推
万亿产业即将起飞!国版星链能否赶超?| 产业链
最近有些消息,说下半年低轨卫星的发射即将加速。不管是政策层面还是资金层面,都有一些向好的变化。今天盘面上,西侧测试作为制
“布鞋首富”的身后事:娃哈哈案背后的法律暗礁与人性博弈
每一份看似固若金汤的财富版图,都可能因为一份被忽略的文件、一个被遗忘的名字,而在一夜之间分崩离析。这不是危言耸听,而是正
《恋人》要来了?集数从24集变更成14集,这部剧能播就是奇迹
娱乐圈又地震了!近日,赵露思突然现身微博喊话银河酷娱,与公司正面开撕。随后,关于她解约赔偿、被公司压榨、背刺等一系列消息
专为星粉打造 三星Galaxy Buds3 FE将高品质音频体验普惠更多消费者
2025年8月18日,三星电子宣布推出新款智能耳机三星GalaxyBuds3 FE,成为三星GalaxyBuds系列新成员。新品致力于以亲民价格提供高
女子买八元的蜜雪冰城喝出异物,老板:刚开始说喝出来一个籽,到工商局就说是老鼠屎
蜜雪冰城杭州拱墅区舟山东路59号店 老板:她也说她出车时间比较长,再一个她也是她们团队里收入最高的,这个东西确实也说过。但
腾讯云数据库AI服务首家通过信通院权威认证,用智能体打造数据库自治运维
Agent 正在深入企业核心场景,加速推动智能化运营。近日,中国信息通信研究院(信通院)公布了上半年“可信数据库”评估结果。腾
2025必看!3个高端普洱茶牌子解析指南,避坑省钱秘籍大!
遇到买错高端普洱茶?90%的人都做错了,
PayPal即将推出“加密支付”功能,支持商家接受100多种加密货币
财联社7月28日讯(编辑 牛占林)金融科技巨头将在不久后推出一项新的支付功能,允许商家在结账时接受超过一百种加密货币。美股周
锋线强援来了!特劳雷加盟北京女足
7月25日晚,北京京坛足球俱乐部在官方微信公众号宣布,马里前锋萨拉图·特劳雷加盟北京京坛东方雨虹女足。特劳雷出生于2002年9月