python网页爬虫+简单的数据分析

日期：2024-11-19 作者：xinet caijiyuan 评论：0 移动：http://keair.bhha.com.cn/mobile/news/1120.html

核心提示：1.我们今天爬取的目标网站是：http://pm25.in/2.需要爬取的目标数据是：该网站所有城市的空气质量数据（主要包括AQI、PM2.5/1h、

python网页爬虫+简单的数据分析

1.我们今天爬取的目标网站是：http://pm25.in/ 2.需要爬取的目标数据是：该网站所有城市的空气质量数据（主要包括AQI、PM2.5/1h、PM10/1h、CO/1h、NO2/1h、O3/1h、O3/8h、SO2/1h）。 3. 我们的最终目标是：将这些数据爬取出来，并写入到.csv/.xlsx文件中，最后通过读取.csv/.xlsx文件的数据，做一下简单的数据分析。使用的工具是Spyder（ps：个人觉得Spyder要PyCharm好使）

这里我用到的库和模块比较多，所有代码量比较少。缺少相关模块的同学自行下载应用即可，这里推荐通过镜像网址（pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests）下载，下载速度会快很多，具体使用方法请参考https://mirrors.tuna.tsinghua.edu.cn/help/pypi/ 1. 引入该项目需要用到的相关库和模块

2. 接下来写get_all_cities()函数，用来获取所有城市名称及url 其实这里应该先写主函数，不过为了演示效果就先写了get_all_cities()函数。 2.1 创建一个空列表city_list 2.2 通过requests.get(url)构造一个向服务器请求资源的Request对象，设置请求超时时间为60s。 2.3 这里我们指定Beautiful的解析器为“html.parser” 2.4 接下来就要爬取网站中所有城市名称了。以北京市为例，我们首先需要打开待爬取网站并查看网页代码，可以看到“北京”这个城市是隶属于第一个“bottom”，接下来就是将所有“bottom”下的城市全部获取，这里我们使用BeautifulSoup来获取。 python网页爬虫+简单的数据分析 2.5 将获取到的城市名称写入列表city_list中，具体代码如下：

2.6 我们先来看一下运行该段函数代码的结果是什么样的。 python网页爬虫+简单的数据分析 2.7 可以看到已经成功读取到该网站所有城市名称了。

3.下面写get_city_aqi（）函数，用来获取所有城市的AQI值 3.1 以北京市为例，如下图，我们需要获取的数据是AQI对应的44、PM2.5/1h对应的25、PM10/1h对应的43、CO/1h对应的0.5…； python网页爬虫+简单的数据分析 3.2 接下来就是如何获取具体的“value”和“caption”了。 3.3 我们先用requests.get(url)构造一个向服务器请求资源的Reques，请求超时时间设置为60s。同样指定Beautiful的解析器为“html.parser”。接着新建一个div_list用来存放按内容查找到的节点的数值。然后创建一个空的city_aqi列表来存放for循环获取到的所有AQI、PM2.5/1h、PM10/1h、CO/1h、NO2/1h、O3/1h、O3/8h、SO2/1h，最后返回并通过.append写入列表。

具体代码如下：

本文地址：http://keair.bhha.com.cn/news/1120.html 康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

最新动态

推荐图文

最新资讯

点击排行

• Tap Translate Screen翻译器手机版手机在线翻译	• 今天起，手机充电请调整一下！手机多少电量充电
• 在手机上怎么炒股票，同花顺可以炒股吗手机炒股	• 4月14日美股盘前要闻
• 警惕“高阶智驾”陷阱！诱导“解放双手”，最高	• 中房协将于4月21日-22日召开“中小房企稳健发展
• 奈雪的茶2024年营收近50亿元	• 荣耀首款8000mAh电池手机今日开售起售价仅1699
• 假面骑士雷杰多腰带模拟器假面骑士游戏手机版「	• 星际争霸2破解补丁星际争霸手机版下载「星际争