推广 热搜： 公司快速中国上海金未来企业政策教师系统

Python ｜（爬虫）爬取当当网书籍信息存到Excel中

日期：2025-01-03 作者：hm3jej caijiyuan 评论：0 移动：http://keair.bhha.com.cn/mobile/news/5083.html

核心提示：文献检索作业，小白也很无奈。还好有学霸同学的可以借鉴。获取当当网上至少300本书【均为某类书，如Linux相关的书籍

文献检索作业，小白也很无奈。还好有学霸同学的可以借鉴。

Python ｜（爬虫）爬取当当网书籍信息存到Excel中

获取当当网上至少300本书【均为某类书，如Linux相关的书籍，或C++相关的书籍】的信息，包括书名，网址，价格，作者，并存在excel表格中。

源代码分析

在当当网的搜索框输入“Linux”，出现搜索后的页面，按F12查看源代码。

目标信息定位与分析

序号要获取的信息定位信息如何定位目标标签1书名a标签的title属性<a dd_name=“单品图片”]2网址a标签的href属性<a dd_name=“单品图片”]3价格span标签的文本内容< span class=“search_now_price”>4作者p标签内部的第一个a标签的title属性< p class=“search_book_author”>

备注：有些书是没有出版社的，因此本文不爬取出版社信息。

通过观察，可以发现，每个被定为的标签均出现60次【使用ctrl+F,在源代码页面进行页内搜索】，从而可判断，该页面上共有60本书。但每个页面上所放的商品书籍所占的页面面积不同，因此不一定每个页面都准确地有60本书，但会约在60本左右。

代码设计

安装BeautifulSoup库，pandas库

BeautifulSoup库的安装

Win平台：“以管理员身份运行” cmd
执行 pip install beautifulsoup4（ pip install bs4） beautifulsoup4移入到bs4里面去了。
演示HTML页面地址：http://python123.io/ws//demo.html

python -m pip install --upgrade pip（我的pip版本比较旧，就更新了一下）

pandas库的安装

pip install pandas

目标链接分析

总共要爬取至少300本书的信息，每个页面上共约60本书，所以共须爬取至少5个页面。在当当网中的搜索框，输入”python”，可得到python书籍的搜索结果页面，观察可列出目标页面，如下所示：

http://search.dangdang.com/?key=Linux&act=input（http://search.dangdang.com/?key=Linux&act=input&page_index=1）

http://search.dangdang.com/?key=Linux&act=input&page_index=2

http://search.dangdang.com/?key=Linux&act=input&page_index=3

http://search.dangdang.com/?key=Linux&act=input&page_index=4

http://search.dangdang.com/?key=Linux&act=input&page_index=5

代码设计

1.确定每个被定位标签出现次数是一样的。如果不一样，则会出现，“作者”收集到60个，“书名”收集到70个，则结果出错。

2.确定同一个页面中每本书的标签结构都是一样的。若果不一样，则无法通过同一个函数去提取每本书的信息。

3.确定每个页面的标签结构都是一样的。如果不一样，则无法通过同一个函数去爬取所有的目标页面。

备注：该代码只适合上面的逻辑，若要使用，一定要对代码进行修改，特别是网址部分。

本文地址：http://keair.bhha.com.cn/news/5083.html 康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

更多>同类最新资讯

0 条相关评论

文章列表

相关文章

6000万预约，突然定档，腾讯游戏让年轻人炸开了锅

最新动态

推荐图文

最新资讯

点击排行

• 厦门三区小学一年级已经实现随迁子女公办学位自	• 大动作！全球资管巨头抄底中国房地产
• 韩国技术改造美国船厂，韩华称十年内实现年产10	• 假山假景假脸，短剧《窃心》爆火，让多少内娱流
• 军事晚报AI速递：今日军事热点一览丨2025年8月	• 原包PA66 GVS-5H 瑞士EMS 耐化学性
• 征信逾期五年超十次？别慌！2025最新解密与攻略	• SAB47减速机
• 九类危险品进口流程？	• 乡村学校少年宫丨池淮镇中心小学：快乐不“打烊

征信逾期五年超十次？	东渚街道：支部领航，
全新360安全云重磅发	新刊推介丨挺膺担当，
南开大学：非211秒拒	德信服务时隔两年折价
DNF手游：8月首套联动	固安：暑期多元影片热
防城港亮证姐事件通报	四大行协商还款会减免
群像叙事的成功，《樱

Python ｜（爬虫 ）爬取当当网书籍信息存到Excel中

源代码分析

目标信息定位与分析

代码设计

安装BeautifulSoup库，pandas库

目标链接分析

代码设计

Python ｜（爬虫）爬取当当网书籍信息存到Excel中