推广 热搜: 公司  快速  中国  上海  未来    企业  政策  教师  系统 

python网页爬虫+简单的数据分析

   日期:2024-11-19     作者:xinet    caijiyuan   评论:0    移动:http://keair.bhha.com.cn/mobile/news/1120.html
核心提示:1.我们今天爬取的目标网站是:http://pm25.in/2.需要爬取的目标数据是:该网站所有城市的空气质量数据(主要包括AQI、PM2.5/1h、

python网页爬虫+简单的数据分析

1.我们今天爬取的目标网站是:http://pm25.in/ 2.需要爬取的目标数据是:该网站所有城市的空气质量数据(主要包括AQI、PM2.5/1h、PM10/1h、CO/1h、NO2/1h、O3/1h、O3/8h、SO2/1h)。 3. 我们的最终目标是:将这些数据爬取出来,并写入到.csv/.xlsx文件中,最后通过读取.csv/.xlsx文件的数据,做一下简单的数据分析。 使用的工具是Spyder(ps:个人觉得Spyder要PyCharm好使)

这里我用到的库和模块比较多,所有代码量比较少。缺少相关模块的同学自行下载应用即可,这里推荐通过镜像网址(pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests)下载,下载速度会快很多,具体使用方法请参考https://mirrors.tuna.tsinghua.edu.cn/help/pypi/ 1. 引入该项目需要用到的相关库和模块

 

2. 接下来写get_all_cities()函数,用来获取所有城市名称及url 其实这里应该先写主函数,不过为了演示效果就先写了get_all_cities()函数。 2.1 创建一个空列表city_list 2.2 通过requests.get(url)构造一个向服务器请求资源的Request对象,设置请求超时时间为60s。 2.3 这里我们指定Beautiful的解析器为“html.parser” 2.4 接下来就要爬取网站中所有城市名称了。以北京市为例,我们首先需要打开待爬取网站并查看网页代码,可以看到“北京”这个城市是隶属于第一个“bottom”,接下来就是将所有“bottom”下的城市全部获取,这里我们使用BeautifulSoup来获取。 python网页爬虫+简单的数据分析 2.5 将获取到的城市名称写入列表city_list中,具体代码如下:

 

2.6 我们先来看一下运行该段函数代码的结果是什么样的。 python网页爬虫+简单的数据分析 2.7 可以看到已经成功读取到该网站所有城市名称了。

3.下面写get_city_aqi()函数,用来获取所有城市的AQI值 3.1 以北京市为例,如下图,我们需要获取的数据是AQI对应的44、PM2.5/1h对应的25、PM10/1h对应的43、CO/1h对应的0.5…; python网页爬虫+简单的数据分析 3.2 接下来就是如何获取具体的“value”和“caption”了。 python网页爬虫+简单的数据分析 3.3 我们先用requests.get(url)构造一个向服务器请求资源的Reques,请求超时时间设置为60s。同样指定Beautiful的解析器为“html.parser”。接着新建一个div_list用来存放按内容查找到的节点的数值。然后创建一个空的city_aqi列表来存放for循环获取到的所有AQI、PM2.5/1h、PM10/1h、CO/1h、NO2/1h、O3/1h、O3/8h、SO2/1h,最后返回并通过.append写入列表。

具体代码如下:

本文地址:http://keair.bhha.com.cn/news/1120.html    康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新资讯
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号