python中scrapy可以爬取多少数据_使用Scrapy爬取大规模数据

python中scrapy可以爬取多少数据_使用Scrapy爬取大规模数据

2024-12-29 05:13

系统学习了解Python爬虫有20天时间了，做了一些爬虫小实验，如：

但是以上爬取的数据量都不大，最多的有一千多数条数据。于是想做一次大数据量的爬取。选择的数据源是简书用户，使用的是Scrapy框架。同时也想对简书的用户做一个数据分析。

要爬取大量数据，使用Scrapy要考虑的是新的url在哪里产生，解析的方法如何循环调用，也就是爬取的深度和广度。在Scrapy官方文档上的案例过于简单，实现的过程遇到不少问题，如scrapy中的方法如何调度，如何返回，循环中如何去抓取需要的另一个字段，再如何返回等等，有些可能是我思维的局限，问题先记下，一步步解决。

一、考虑爬虫从哪里入口？

简书的用户id不是一个自增的序列数，无法使用一个循环就可以跑下所有用户。一开始我是想从一篇热门文章的阅读数或者喜欢数开始抓取用户，热门文章的阅读数能达到6W+，喜欢数在6～7K。但下一步数据再怎么爬，没有想好，阅读和喜欢的用户都是最普通用户，他们的关注和粉丝很少，而且阅读用户是Ajax数据。还有一个问题，数据如何去重。

后来，我再看上次爬取的简书签约作者时，发现有8个签约作者粉丝都超过1W，彭小六粉丝近3W。于是就觉得从这里作为入口，会是一个比较好的方案，简单易行，使用几个不多的url作为待爬取的入口，便可以抓取到大量的数据。最后我选择几个入口用户是，简书、彭小六、剽悍一只猫、入江之鲸、陶瓷兔子5个用户url，爬取他们的粉丝用户信息。

以上就是本篇文章【python中scrapy可以爬取多少数据_使用Scrapy爬取大规模数据】的全部内容了，欢迎阅览！文章地址：http://keair.bhha.com.cn/quote/5611.html
动态相关文章文章同类文章热门文章栏目首页网站地图返回首页康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多