推广 热搜: 公司  快速  中国  上海    未来  企业  政策  教师  系统 

【Python网络爬虫】三分钟教会你使用SeleniumWire快速爬取数据

   日期:2025-01-03     作者:cybfke    caijiyuan   评论:0    移动:http://keair.bhha.com.cn/mobile/news/5089.html
核心提示:在终端使用pip进行安装 pip install xxx 这里我使用的是Chrome,其中列举了几个常用的option,供大家学习使用 optio

在终端使用pip进行安装 pip install xxx

【Python网络爬虫】三分钟教会你使用SeleniumWire快速爬取数据

 
 

这里我使用的是Chrome,其中列举了几个常用的option,供大家学习使用

  1. option = webdriver.ChromeOptions():设置Chrome启动选项
  2. option.add_argument(‘headless’):不打开浏览器进行数据爬取,因为没有可视化过程,所以推荐整个流程开发完毕后,在使用此条代码。
  3. option.add_experimental_option(“prefs”, {“profile.managed_default_content_settings.images”: 2}):如果网页中的图片对你没有太大作用,可以不加载网页图片,以提高爬取速度。
  4. option.add_experimental_option(“detach”, True):防止程序执行完浏览器自动关闭
  5. 配置浏览器路径和驱动路径(若使用已安装的浏览器,则不需要配置,需要手动安装chromedriver
    option.binary_location = r’https://blog.csdn.net/qq_31180631/article/details/chrome-win64/chrome.exe’
    driver_path = r"https://blog.csdn.net/qq_31180631/article/details/chromedriver-win64/chromedriver.exe"
  6. driver = webdriver.Chrome(service=Service(driver_path), options=option):加载以上配置,若第5步未配置,则使用driver = webdriver.Chrome(options=option)即可
  7. driver.maximize_window():最大化浏览器
  8. driver.implicitly_wait(60):设置隐式等待时长为60s,以后在更新Selenium的三种等待方式
 
 

如果爬取的网站需要登陆,可使用selenium.find_element进行登录

 
 

返回的response是页面中的所有数据,数据清洗可使用正则表达式,也可使用beautifulsoup,这两种方法之后在进行汇总

本文地址:http://keair.bhha.com.cn/news/5089.html    康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号