在终端使用pip进行安装 pip install xxx
这里我使用的是Chrome,其中列举了几个常用的option,供大家学习使用
- option = webdriver.ChromeOptions():设置Chrome启动选项
- option.add_argument(‘headless’):不打开浏览器进行数据爬取,因为没有可视化过程,所以推荐整个流程开发完毕后,在使用此条代码。
- option.add_experimental_option(“prefs”, {“profile.managed_default_content_settings.images”: 2}):如果网页中的图片对你没有太大作用,可以不加载网页图片,以提高爬取速度。
- option.add_experimental_option(“detach”, True):防止程序执行完浏览器自动关闭
- 配置浏览器路径和驱动路径(若使用已安装的浏览器,则不需要配置,需要手动安装chromedriver)
option.binary_location = r’https://blog.csdn.net/qq_31180631/article/details/chrome-win64/chrome.exe’
driver_path = r"https://blog.csdn.net/qq_31180631/article/details/chromedriver-win64/chromedriver.exe" - driver = webdriver.Chrome(service=Service(driver_path), options=option):加载以上配置,若第5步未配置,则使用driver = webdriver.Chrome(options=option)即可
- driver.maximize_window():最大化浏览器
- driver.implicitly_wait(60):设置隐式等待时长为60s,以后在更新Selenium的三种等待方式
如果爬取的网站需要登陆,可使用selenium.find_element进行登录
返回的response是页面中的所有数据,数据清洗可使用正则表达式,也可使用beautifulsoup,这两种方法之后在进行汇总