co1bhf

相关列表

文章列表

推荐文章

联系方式

BeautifulSoup及爬取豆瓣评论

发布时间：2024-12-31 浏览次数：38 返回列表

BS4会将html文档对象转换为python可以识别的四种对象:
Tag: 标签对象
NavigableString : 字符内容操作对象
BeautifulSoup: 文档对象
Comment:是一个特殊类型的 NavigableString 对象
floating.html:

BeautifulSoup及爬取豆瓣评论

string和strings、stripped_strings属性以及get_text方法：

find_all的使用：

在提取标签的时候，第一个参数是标签的名字。然后如果在提取标签的时候想要使用标签属性进行过滤，那么可以在这个方法中通过关键字参数的形式，将属性的名字以及对应的值传进去。或者是使用属性，将所有的属性以及对应的值放在一个字典中传给属性。
有些时候，在提取标签的时候，不想提取那么多，那么可以使用参数。限制提取多少个。

find与find_all的区别：

使用find和find_all的过滤条件：

在中，要使用css选择器，那么应该使用方法。应该传递一个css选择器的字符串给select方法。

完整的分析过程:
数据的获取: 通过爬虫获取(urllib|requests<获取页面内容> + re|bs4<分析页面内容>)
数据清洗：按照一定的格式岁文本尽心处理;

豆瓣评论分析:
# 1). 获取豆瓣最新上映的所有电影的前10页评论信息；
# 2). 清洗数据；
# 3). 分析每个电影评论信息分析绘制成词云，保存为png图片，文件名为: 电影名.png;

需求：爬取慕客网所有关于python的课程名及描述信息，并通过词云进行分析展示;
网址: https://www.imooc.com/search/course?words=python

声明：康宝晨特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。