[已解决]豆瓣音乐TOP250榜单为何爬不到内容？

dequantianhe · 发表于 2020-6-1 09:04:36

爬虫练手，以爬取第一页内容为例，想用xpath获取第一页25首歌曲详细介绍的链接，代码如下：

url_base = 'https://music.douban.com/top250'
req = urllib.request.Request(url_base,headers = headers)
html = urllib.request.urlopen(req)
html_res =lxml.html.parse(html)
song_links = html_res.xpath('div[class="p12"]//a/@href')
url_list.append(song_links)

print(url_list)

爬虫未报错，但没有结果，我查看xpath的定位没感觉有问题，为何爬到的都是空呢？

另外，这里解析网页对象用的是lxml.html.parse（），据我之前学习记得还有个etree()也是用来解析网页，然后解析对象可以用xpath处理的，这两者有什么区别么？

最佳答案

月排行榜 / 总排行榜

Twilight6

2020-6-1 09:04:37

url_base = 'https://music.douban.com/top250'

req = urllib.request.Request(url_base,headers = headers)

html = urllib.request.urlopen(req)

html_res =lxml.html.parse(html)

song_links = html_res.xpath('//td/div/a/@href')

url_list.append(song_links)

print(url_list)

复制代码

为什么是空的呢？
xpath 用法错误：
第一，要直接读取任意位置的节点你要使用 // 双斜杠
第二，匹配节点属性时候[]中括号内也要以 @ 符号开头才能进行匹配
第三，你匹配的节点不正确

跳转到最佳答案楼层

Twilight6 · 发表于 2020-6-1 09:04:37

这个最佳答案由 Twilight6 给出，感谢 Twilight6 的回答。

单击隐藏图章

url_base = 'https://music.douban.com/top250'

req = urllib.request.Request(url_base,headers = headers)

html = urllib.request.urlopen(req)

html_res =lxml.html.parse(html)

song_links = html_res.xpath('//td/div/a/@href')

url_list.append(song_links)

print(url_list)

复制代码

为什么是空的呢？
xpath 用法错误：
第一，要直接读取任意位置的节点你要使用 // 双斜杠
第二，匹配节点属性时候[]中括号内也要以 @ 符号开头才能进行匹配
第三，你匹配的节点不正确

a1097703271 · 发表于 2020-6-1 17:01:27

带上参数

suchocolate · 发表于 2020-6-1 18:45:17

song_links = html_res.xpath('//div[@class="pl2"]/a/@href')
url_list.extend(song_links)

复制代码

账号		自动登录	找回密码
密码			立即注册