|
5鱼币
爬虫练手,以爬取第一页内容为例,想用xpath获取第一页25首歌曲详细介绍的链接,代码如下:
url_base = 'https://music.douban.com/top250'
req = urllib.request.Request(url_base,headers = headers)
html = urllib.request.urlopen(req)
html_res =lxml.html.parse(html)
song_links = html_res.xpath('div[class="p12"]//a/@href')
url_list.append(song_links)
print(url_list)
爬虫未报错,但没有结果,我查看xpath的定位没感觉有问题,为何爬到的都是空呢?
另外,这里解析网页对象用的是lxml.html.parse(),据我之前学习记得还有个etree()也是用来解析网页,然后解析对象可以用xpath处理的,这两者有什么区别么?
- url_base = 'https://music.douban.com/top250'
- req = urllib.request.Request(url_base,headers = headers)
- html = urllib.request.urlopen(req)
- html_res =lxml.html.parse(html)
- song_links = html_res.xpath('//td/div/a/@href')
- url_list.append(song_links)
- print(url_list)
复制代码
xpath 用法错误:
第一,要直接读取任意位置的节点你要使用 // 双斜杠
第二,匹配节点属性时候[]中括号内也要以 @ 符号开头才能进行匹配
第三,你匹配的节点不正确
|
最佳答案
查看完整内容
xpath 用法错误:
第一,要直接读取任意位置的节点你要使用 // 双斜杠
第二,匹配节点属性时候[]中括号内也要以 @ 符号开头才能进行匹配
第三,你匹配的节点不正确
|