注:本次系列偏向于0基础编程小白,或者有python爬虫兴趣爱好的群体。全文废话较少,干货和案例较多,有较多的步骤说明以及关键截图分析,所以上手较快,本系列作为小白学习和入门python爬虫技术的垫脚石有一定的借鉴价值。同时系列也存在一定的缺点,相较于其他热门的文章,该系列缺少一定的系统技术讲解和背后深层的底层原理剖析,大部分是用到什么知识点就紧接着讲解什么知识点(这样的话新手适于记忆),所以将本系列与其他系统教学一起食用(学习)效果将更好哦。
“爬虫”,也被称为网络爬虫、网页蜘蛛、网络机器人,是一种按照一定的规则和算法自动地抓取网络信息的程序或者脚本。
爬虫的主要目标是收集数据,可以是从单个网页中提取内容,也可以是遍历整个网站或多个网站以抓取大量的信息。现如今爬虫技术广泛应用于搜索引擎、数据挖掘、内容聚合、竞争情报分析、价格监控等多个领域。
爬虫可以自动化重复性的任务,如数据输入、报告生成等,从而提高工作效率,与手动收集数据相比,爬虫可以在更短的时间内收集到更多的信息。
通俗的讲,爬虫可以一定程度上让我们偷懒,把繁琐的事情以脚本化的形式交给计算机去做,我们只需要对结果进行最终的处理就行了。
注意:并不是只有python才能编写爬虫程序
Java,C++,Go,C#等语言均可进行爬虫,但是python是爬虫的首选语言之一。
python以其较少的代码量、简洁易读的语法、强大的库支持以及丰富的第三方库,如urllib、requests、BeautifulSoup、Scrapy等,成为编写网络爬虫的理想选择,所以爬虫与Python之间存在着密切的关系。
首先,作为大前提,我们一定要搭建好爬虫的工作环境,python解释器,集成编译器pycharm等工具可从对应的官网进行下载安装,可对照其他教程配置好对应的计算机的环境变量,按住win+r在弹出框中输入cmd再回车或点击确定。
在弹出的黑窗中输入python --version,如果显示出python版本即表示安装成功。
其次,我们的小前提是确保自己的工作环境是联网状态,否者爬虫时会报拒绝连接的错误。
然后,学习爬虫就要遵守爬虫的规则,我们可以在想要进行爬取的网址后面加上 /robots.txt 进行回车查看网站的规定,网站一般有明确规定哪些数据不能爬取,如下:
英文Disallow的意思为禁止。
最后,每一名学习爬虫的人都应遵守相应的法律法规,禁止出售或者变相出售数据从而进行牟利,禁止盲目爬虫而增加服务器压力,禁止爬取敏感隐私数据。
最后的最后: