商务服务
MediaCrawler 小红书爬虫源码分析
2024-11-19 03:11

MediaCrawler 是最近冲上 Github 热搜的开源多社交平台爬虫。虽然现在已删库,但还好我眼疾手快,有幸还 Fork 了一份,乘着周末,简单分析了下小红书平台的相关代码。

MediaCrawler 小红书爬虫源码分析

一般写爬虫,都需要面对以下几个问题

  1. 如果 app/网页需要登录,如何获取登录态(cookie/jwt)
  2. 大部分 app/网页都会对请求参数进行 sign,如果有,如何获取 sign 逻辑
  3. 绕过其它遇到的反爬措施

我将带着这三个问题,阅读 MediaCrawler 小红书代码,看看 MediaCrawler 是怎么处理的。

提供了三种方式

  1. QRCode (login_by_qrcode)
  2. 手机号 (login_by_mobile)
  3. cookie (login_by_cookies)

登录相关代码都在 文件中

实现代码为 方法。代码为:

大致逻辑:

  1. 启动 headless 浏览器并且 headless 模式必须设为 , 因为不会把 QRCode 显示在终端或者通过信息转发服务转发到你的手机上
  2. 通过工具函数以及获取headless 浏览器所渲染页面中的 QRCode 图片元素
  3. 如果没有获取到,则点击 , 弹出登录对话框,然后再重复一次步骤2,如果依旧没有获取到,则退出爬虫,爬取失败。
  4. 如果获取到了,则等待用户扫码完成登录。
  5. 其中可能会出现验证码的情况,此时会提示需要手动验证,没有实现自动验证,需要人工手动操作干预。

实现代码为 方法。代码为:

大致逻辑:

  1. 启动 headless 浏览器
  2. 点击 , 弹出登录对话框
  3. 获取phone ,并填入手机号

  4. 点击, 发送验证码
  5. 每隔 1 秒从 Redis 数据库中获取验证码。如果 120 秒后,依旧没有获取到,则退出爬虫,爬取失败
  6. 如果获取到了,则将验证码,填入验证码输入框(),并勾选同意隐私协议按钮()以及提交按钮()
  7. 因为依赖了 Redis 数据库组件,所以可以通过短信转发软件或者短信获取接口实现短信验证码输入的自动化,实现自动化手机号登录

    1. 代码中没有检测验证码的正确性。
    2. 代码中没有登录失败重试机制

实现代码为 方法。就是将用户提供的 信息放到 中

小红书浏览器端接口有做验签,MediaCrawler 生成 相关参数的代码位于 文件中的 方法。代码如下:

  1. 没有逆向后用 Python 重新实现函数,而是通过 直接主动调用浏览器运行时中的 生成
  2. 通过 获取浏览器对象
  3. 将 中的 , 中的 , 中的 , 中的 , 作为参数传给 函数
  4. 函数最终返回签名后的值
  5. 将 赋值给

所以主要签名逻辑就是 函数,深入进去看下。代码位于 文件。代码如下:

  1. 这个函数没有像 方法一样,选择通过主动调用浏览器运行时中的相关方法,而是自己用 Python 实现。实现代码不再解释,就是逆向 JS 逻辑后,翻译成了 Python。
  2. 对于为何选择自己用 Python 实现而不主动调用浏览器中的 JS 方法,我也咨询了下作者,作者表示,这里的代码冗余了

MediaCrawler 小红书爬虫,也做了一些反反爬虫措施,代码位于 中的 函数。

  1. 通过注入脚本,来反headless 浏览器检测

  2. 通过添加 来防止出现 滑块

  3. 支持设置 ip 代理来更改 ip 地址

通过 库发起 http 请求,请求时带上以及 相关参数。请求是直接请求的 API, 所以没有任何 html 解析逻辑,当请求成功后,就会对数据进行一些处理,然后将数据入库。相关主要逻辑位于 以及 。由于比较简单,不再展开。

MediaCrawler 小红书爬虫是基于小红书浏览器端协议,实现了参数的获取,以及登录态的获取。参数的获取没有完全逆向 JS 逻辑并用 Python 实现,而是通过 主动调用了部分 JS 函数()。登录态的获取,也是基于 headless 浏览器实现,QRCode 登录需要人工操作;手机号登录可以通过短信转发软件或者短信接收接口实现自动化登录,但没有做验证码检验,验证失败重试。可以通过 来反 headless 浏览器检测。

    以上就是本篇文章【MediaCrawler 小红书爬虫源码分析】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/1146.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
5款文案自动生成器,高质量创意文案一键为你生成
  在当今竞争激烈的内容创作领域,每一个字、每一句话都承载着巨大的价值。对于创作者而言,文案自动生成器的出现
SEO搜索引擎优化怎么做?全面指南让你快速上手!
在当今的数字化时代,SEO(搜索引擎优化)已经成为企业和个人提升在线存在感和吸引目标用户的关键手段。无论你是初学者还是有经
Apple 苹果 iPhone 13系列 A2634 5G手机 256GB 绿色
iPhone 13 边缘采用平坦设计、配备独家超瓷晶面板,支持 IP68 抗水性能,拥有绿色、粉色、蓝色、午夜色、星光色和红色可选择。屏
【A6搜狗手机输入法下载】海尔A6搜狗手机输入法12.1.1免费下载
搜狗输入法,拥有超大中文词库,输入更加精准,智能。搜狗智能旺仔带你用表达,斗图,妙语,输入更加有趣。******特色功能******
制氧机十大品牌排行榜:吸氧机技术排名TOP 3
制氧机是一种重要的医疗设备,用于治疗呼吸系统疾病。随着科技的不断发展,市场上出现了众多品牌的制氧机,伴随着人们对健康的重
【瑕疵检测】基于matlab GUI OTSU织物疵点检测【含Matlab源码 860期】
⛳️座右铭:行百里者,半于九十。 更多Matlab图像处理仿真内容点击👇 ①Matlab图像处理(进阶版ÿ
微信公众号文章信息(阅读量、在看、点赞数)获取
  实现这一个功能主要用到了selenium、mitmproxy和wechatarticles,利用selenium可以实现脚本模拟浏览器访问,mit
上海九院口腔科怎么样?医生排名名单、技术特长介绍、真人种牙术后评价~
此价格信息为当地市场参考价,通过用户反馈大数据整理仅供参考!机构实际价格以到院面诊为准!
'智能AI文章生成器:海外脚本与一键创作工具'
在数字化时代的浪潮中人工智能技术正以前所未有的速度改变着咱们的工作和生活途径。智能文章生成器的出现无疑为内容创作者们打开
微信推文重复率
论文免费查重庞大的数据库支持,论文免费查重拥有全球最大的比对库资源。其比对库拥有超过1亿篇的学术期刊和学位论文、1000多家的
相关文章