鱼C论坛

 找回密码
 立即注册
查看: 1168|回复: 3

[已解决]豆瓣音乐TOP250榜单为何爬不到内容?

[复制链接]
发表于 2020-6-1 09:04:36 | 显示全部楼层 |阅读模式
5鱼币
爬虫练手,以爬取第一页内容为例,想用xpath获取第一页25首歌曲详细介绍的链接,代码如下:

url_base = 'https://music.douban.com/top250'
req = urllib.request.Request(url_base,headers = headers)
html = urllib.request.urlopen(req)
html_res =lxml.html.parse(html)
song_links = html_res.xpath('div[class="p12"]//a/@href')
url_list.append(song_links)

print(url_list)

爬虫未报错,但没有结果,我查看xpath的定位没感觉有问题,为何爬到的都是空呢?

另外,这里解析网页对象用的是lxml.html.parse(),据我之前学习记得还有个etree()也是用来解析网页,然后解析对象可以用xpath处理的,这两者有什么区别么?
最佳答案
2020-6-1 09:04:37
  1. url_base = 'https://music.douban.com/top250'
  2. req = urllib.request.Request(url_base,headers = headers)
  3. html = urllib.request.urlopen(req)
  4. html_res =lxml.html.parse(html)
  5. song_links = html_res.xpath('//td/div/a/@href')
  6. url_list.append(song_links)

  7. print(url_list)
复制代码

为什么是空的呢?
xpath 用法错误:
第一,要直接读取任意位置的节点你要使用 // 双斜杠
第二,匹配节点属性时候[]中括号内也要以 @ 符号开头才能进行匹配
第三,你匹配的节点不正确

最佳答案

查看完整内容

xpath 用法错误: 第一,要直接读取任意位置的节点你要使用 // 双斜杠 第二,匹配节点属性时候[]中括号内也要以 @ 符号开头才能进行匹配 第三,你匹配的节点不正确
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-1 09:04:37 | 显示全部楼层    本楼为最佳答案   
  1. url_base = 'https://music.douban.com/top250'
  2. req = urllib.request.Request(url_base,headers = headers)
  3. html = urllib.request.urlopen(req)
  4. html_res =lxml.html.parse(html)
  5. song_links = html_res.xpath('//td/div/a/@href')
  6. url_list.append(song_links)

  7. print(url_list)
复制代码

为什么是空的呢?
xpath 用法错误:
第一,要直接读取任意位置的节点你要使用 // 双斜杠
第二,匹配节点属性时候[]中括号内也要以 @ 符号开头才能进行匹配
第三,你匹配的节点不正确
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-1 17:01:27 | 显示全部楼层
带上参数
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-1 18:45:17 | 显示全部楼层
  1. song_links = html_res.xpath('//div[@class="pl2"]/a/@href')
  2. url_list.extend(song_links)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-3-29 00:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表