业界动态
python网页爬虫+简单的数据分析
2024-11-19 03:09

python网页爬虫+简单的数据分析

1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是:该网站所有城市的空气质量数据(主要包括AQI、PM2.5/1h、PM10/1h、CO/1h、NO2/1h、O3/1h、O3/8h、SO2/1h)。 3. 我们的最终目标是:将这些数据爬取出来,并写入到.csv/.xlsx文件中,最后通过读取.csv/.xlsx文件的数据,做一下简单的数据分析。 使用的工具是Spyder(ps:个人觉得Spyder要PyCharm好使)

这里我用到的库和模块比较多,所有代码量比较少。缺少相关模块的同学自行下载应用即可,这里推荐通过镜像网址(pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests)下载,下载速度会快很多,具体使用方法请参考https://mirrors.tuna.tsinghua.edu.cn/help/pypi/ 1. 引入该项目需要用到的相关库和模块

 

2. 接下来写get_all_cities()函数,用来获取所有城市名称及url 其实这里应该先写主函数,不过为了演示效果就先写了get_all_cities()函数。 2.1 创建一个空列表city_list 2.2 通过requests.get(url)构造一个向服务器请求资源的Request对象,设置请求超时时间为60s。 2.3 这里我们指定Beautiful的解析器为“html.parser” 2.4 接下来就要爬取网站中所有城市名称了。以北京市为例,我们首先需要打开待爬取网站并查看网页代码,可以看到“北京”这个城市是隶属于第一个“bottom”,接下来就是将所有“bottom”下的城市全部获取,这里我们使用BeautifulSoup来获取。 python网页爬虫+简单的数据分析 2.5 将获取到的城市名称写入列表city_list中,具体代码如下:

 

2.6 我们先来看一下运行该段函数代码的结果是什么样的。 python网页爬虫+简单的数据分析 2.7 可以看到已经成功读取到该网站所有城市名称了。

3.下面写get_city_aqi()函数,用来获取所有城市的AQI值 3.1 以北京市为例,如下图,我们需要获取的数据是AQI对应的44、PM2.5/1h对应的25、PM10/1h对应的43、CO/1h对应的0.5…; python网页爬虫+简单的数据分析 3.2 接下来就是如何获取具体的“value”和“caption”了。 python网页爬虫+简单的数据分析 3.3 我们先用requests.get(url)构造一个向服务器请求资源的Reques,请求超时时间设置为60s。同样指定Beautiful的解析器为“html.parser”。接着新建一个div_list用来存放按内容查找到的节点的数值。然后创建一个空的city_aqi列表来存放for循环获取到的所有AQI、PM2.5/1h、PM10/1h、CO/1h、NO2/1h、O3/1h、O3/8h、SO2/1h,最后返回并通过.append写入列表。

具体代码如下:

    以上就是本篇文章【python网页爬虫+简单的数据分析】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/1120.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
十堰海尔热水器维修_十堰海尔热水器售后服务中心
十堰海尔热水器维修电话:0719-8025036,专业十堰海尔热水器维修、十堰海尔热水器售后服务,各区均有分点,方便快捷,多年十堰海尔热水器维修经验,诚信可靠,品质保证。
投稿干货!62个适合新手投稿的公众号,超易过稿!
↑点击上方蓝字“越万声”获取公众号一枚 本文共6000字,阅读时间10分钟晚上好~我是阿越~最近想着创建自由职业社群,结果发现
怎样优化网站排名靠前
在当今数字化时代,网站已成为企业展示产品和服务的重要窗口。仅仅拥有一个网站是不够的,如何让网站在搜索引擎中排名靠前,是每
国内十个免费自学网站
生活在这个充满竞争,血腥味十足分分钟钟就会别人取代的大数据移动互联时代,大家一有点时间就会拼命地给自己打鸡血充电学习,让
2024赚钱软件排行榜第一名 最靠谱的赚钱软件app平台推荐
想知道哪些网赚平台最可靠吗?小编将为你揭示网赚平台的整体优势和独特之处。这种新颖的赚钱模式,让你只需一台电脑或手机,就能
市场监管总局公布9起网络不正当竞争典型案例
随着互联网领域竞争业态及方式的转变,借助技术手段,衍生出的数据爬取、流量劫持等新型网络不正当竞争行为频发多发,刷单炒信、
免费外链群发工具
外链群发工具,什么是外链群发工具。相信大家都知道外链的作用。外链是为了促进更多的收入。而外链群发工具就是发布大量的外链。
恶心,北京一程序员研发“一键脱衣”AI软件,制作照片近七千张
辣眼睛,北京一研发“一键脱衣”AI软件,制作照片近七千张。近日,北京某公司员工白某某研发“”AI软件,通过AI软件将他人提供的
全网最详细中英文ChatGPT-GPT-4示例文档-人工智能助手从0到1快速入门——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)
ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字,生成流畅和有趣的回答。如果你想跟上AI时代的潮流ÿ
【省260元】iQOO安卓手机
iQOO Neo10 Pro 5G智能手机发布于24年11月29日,外观设计方面依旧悬浮之窗设计,机身薄至7.99mm,轻至199g。采用铟丝中框,1.4mm
相关文章