鱼C论坛

 找回密码
 立即注册
查看: 711|回复: 1

[已解决]Python爬虫04(朋友实训项目)

[复制链接]
发表于 2024-1-2 16:40:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 liyifeng295641 于 2024-1-3 16:09 编辑

用豆瓣网https://www.douban.com/                                                                                          
爬取豆瓣音乐—分类浏览—流行相关数据
要求数据量不小于120个,最终数据以excel表格的形式保存。Excel表格要求有表头,数据内容行数×列数>120个
有各个音乐网址和表扬者
最佳答案
2024-1-2 16:40:30
好的,我们可以使用Python的requests库和BeautifulSoup库来进行网页爬取和数据提取。首先,我们需要安装这两个库:

  1. pip install requests
  2. pip install beautifulsoup4
  3. pip install openpyxl
复制代码


然后,我们编写下面的代码来实现爬取豆瓣音乐分类浏览下的流行相关数据,并将结果保存为Excel表格:

  1. import requests
  2. from bs4 import BeautifulSoup
  3. from openpyxl import Workbook

  4. # 发起HTTP GET请求并获取响应内容
  5. url = 'https://music.douban.com/tag/流行'
  6. response = requests.get(url)
  7. html = response.text

  8. # 使用BeautifulSoup解析HTML
  9. soup = BeautifulSoup(html, 'html.parser')

  10. # 查找音乐条目
  11. music_items = soup.find_all('div', class_='pl2')

  12. # 创建Excel表格
  13. workbook = Workbook()
  14. sheet = workbook.active

  15. # 添加表头
  16. sheet.append(['音乐名称', '表扬者', '音乐链接'])

  17. # 遍历音乐条目并提取数据
  18. for music_item in music_items:
  19.     music_name = music_item.find('a').text.strip()
  20.     praise = music_item.find('div', class_='pl').text.strip()
  21.     music_link = music_item.find('a')['href']
  22.    
  23.     # 添加数据到Excel表格
  24.     sheet.append([music_name, praise, music_link])

  25. # 保存Excel表格
  26. workbook.save('douban_music.xlsx')
复制代码


这样,我们就可以将豆瓣音乐分类浏览下的流行相关数据爬取下来,并保存为一个包含表头的Excel表格(douban_music.xlsx)。请确保在运行代码时已经安装了openpyxl库,用于处理Excel文件。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-1-2 16:40:30 | 显示全部楼层    本楼为最佳答案   
好的,我们可以使用Python的requests库和BeautifulSoup库来进行网页爬取和数据提取。首先,我们需要安装这两个库:

  1. pip install requests
  2. pip install beautifulsoup4
  3. pip install openpyxl
复制代码


然后,我们编写下面的代码来实现爬取豆瓣音乐分类浏览下的流行相关数据,并将结果保存为Excel表格:

  1. import requests
  2. from bs4 import BeautifulSoup
  3. from openpyxl import Workbook

  4. # 发起HTTP GET请求并获取响应内容
  5. url = 'https://music.douban.com/tag/流行'
  6. response = requests.get(url)
  7. html = response.text

  8. # 使用BeautifulSoup解析HTML
  9. soup = BeautifulSoup(html, 'html.parser')

  10. # 查找音乐条目
  11. music_items = soup.find_all('div', class_='pl2')

  12. # 创建Excel表格
  13. workbook = Workbook()
  14. sheet = workbook.active

  15. # 添加表头
  16. sheet.append(['音乐名称', '表扬者', '音乐链接'])

  17. # 遍历音乐条目并提取数据
  18. for music_item in music_items:
  19.     music_name = music_item.find('a').text.strip()
  20.     praise = music_item.find('div', class_='pl').text.strip()
  21.     music_link = music_item.find('a')['href']
  22.    
  23.     # 添加数据到Excel表格
  24.     sheet.append([music_name, praise, music_link])

  25. # 保存Excel表格
  26. workbook.save('douban_music.xlsx')
复制代码


这样,我们就可以将豆瓣音乐分类浏览下的流行相关数据爬取下来,并保存为一个包含表头的Excel表格(douban_music.xlsx)。请确保在运行代码时已经安装了openpyxl库,用于处理Excel文件。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-21 21:09

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表