业界动态
爬取图片操作(从指定网页中提取图片地址并下载保存图片)
2024-12-16 13:20

目录

代码逻辑

详细操作步骤

导入相应的库

获取网络的源代码

提取图片的源地址

获取图片的二进制源码

​保存图片

定义main函数调用get_html函数

使用for循环便利列表

执行main函数

运行效果


在主程序中,你可以调用上述函数来实现功能

  • 调用get_html函数获取指定网址的源代码。
  • 将源代码传入parse_pic_url函数,获取图片的源地址列表。
  • 遍历图片源地址列表,在每个地址上调用get_pic_content函数获取图片的二进制源码。
  • 将二进制源码和图片文件名传入save_pic函数,保存图片到本地。

需要注意的是,程序中假设要保存的图片都是jpg格式,并将保存的路径设为"大熊猫/"下。如果你要使用该程序,请确保已经创建了一个名为"大熊猫"的文件夹,并提供正确的网址和头部信息。

如果你已经在代码中定义了main函数,可以取消注释这一行代码,并在该行代码之后调用main函数,以执行整个程序。

导入了requests、re和os库,用于发送网络请求、进行正则表达式匹配和进行文件操作。

定义get_html函数:该函数用于发送网络请求并返回网页的源代码。它接收两个参数,url表示要请求的网址,headers表示请求时的头部信息。函数发送GET请求,并设置编码为utf-8,如果请求成功则返回源代码,否则打印出错信息。

定义parse_pic_url函数:该函数用于从网页源代码中提取图片的源地址。它接收一个参数,html表示网页的源代码。函数使用re.findall函数和正则表达式来匹配这段源代码中的图片地址信息,并将匹配结果返回。

定义get_pic_content函数:该函数用于获取图片的二进制源码。它接收一个参数,url表示图片的地址。函数使用requests库发送GET请求获取图片的内容,并返回其二进制源码。

定义save_pic函数:该函数用于保存图片。它接收两个参数,content表示图片的二进制源码,pic_name表示要保存的图片文件名。函数使用with open语句打开一个文件,以二进制写入模式写入图片内容,并关闭文件。

  1. 调用get_html函数获取指定网址的源代码,并将返回结果赋值给变量html。

  2. 调用parse_pic_url函数,将html作为参数传入,提取出图片的源地址列表,并将返回结果赋值给变量result。

  3. 初始化变量pic_name为0。

那么url和headers内容怎么写?这里以爬取大熊猫图片为例,搜索后单击右键,再点击检查,出来下图,如果里面没有内容就刷新一下或把网页往下拉就会有了

按上图顺序点击,出现下图

  1. 使用for循环遍历result列表中的每个图片源地址。

  2. 在循环内部,首先调用get_pic_content函数,将item(图片源地址)作为参数传入,获取图片的二进制源码,并将返回结果赋值给变量pic_content。

  3. 调用save_pic函数,将pic_content和pic_name作为参数传入,保存图片到本地。

  4. 增加pic_name的值,用于标识不同的图片。

  5. 打印"正在保存第 x 张图片"的提示信息

如果尚未定义main函数,可以注释掉该行代码

    以上就是本篇文章【爬取图片操作(从指定网页中提取图片地址并下载保存图片)】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/4642.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
投稿干货!62个适合新手投稿的公众号,超易过稿!
↑点击上方蓝字“越万声”获取公众号一枚 本文共6000字,阅读时间10分钟晚上好~我是阿越~最近想着创建自由职业社群,结果发现
怎样优化网站排名靠前
在当今数字化时代,网站已成为企业展示产品和服务的重要窗口。仅仅拥有一个网站是不够的,如何让网站在搜索引擎中排名靠前,是每
国内十个免费自学网站
生活在这个充满竞争,血腥味十足分分钟钟就会别人取代的大数据移动互联时代,大家一有点时间就会拼命地给自己打鸡血充电学习,让
2024赚钱软件排行榜第一名 最靠谱的赚钱软件app平台推荐
想知道哪些网赚平台最可靠吗?小编将为你揭示网赚平台的整体优势和独特之处。这种新颖的赚钱模式,让你只需一台电脑或手机,就能
市场监管总局公布9起网络不正当竞争典型案例
随着互联网领域竞争业态及方式的转变,借助技术手段,衍生出的数据爬取、流量劫持等新型网络不正当竞争行为频发多发,刷单炒信、
免费外链群发工具
外链群发工具,什么是外链群发工具。相信大家都知道外链的作用。外链是为了促进更多的收入。而外链群发工具就是发布大量的外链。
恶心,北京一程序员研发“一键脱衣”AI软件,制作照片近七千张
辣眼睛,北京一研发“一键脱衣”AI软件,制作照片近七千张。近日,北京某公司员工白某某研发“”AI软件,通过AI软件将他人提供的
全网最详细中英文ChatGPT-GPT-4示例文档-人工智能助手从0到1快速入门——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)
ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字,生成流畅和有趣的回答。如果你想跟上AI时代的潮流ÿ
【省260元】iQOO安卓手机
iQOO Neo10 Pro 5G智能手机发布于24年11月29日,外观设计方面依旧悬浮之窗设计,机身薄至7.99mm,轻至199g。采用铟丝中框,1.4mm
外贸新网站的SEO:9个基本步骤
在如今的数字化时代,外贸网站的成功离不开有效的搜索引擎优化(SEO)策略。SEO不仅能帮助网站在搜索引擎结果页(SERP)中获得更
相关文章