凌绝顶 发表于 2020-8-10 19:33:45

爬取酷我音乐时遇到的问题

在我爬取酷我音乐时,想返回搜索得到的歌曲名,但不会用好find_all,想问一下大佬们

<div data-v-78d8daf1 class="song_name flex_c">

其中的data-v-78d8daf1怎么弄

Twilight6 发表于 2020-8-10 19:35:59

把你的代码发下看看

zltzlt 发表于 2020-8-10 19:40:06

有时候在审查元素中看到的代码并不是真正的网页源代码

sunrise085 发表于 2020-8-10 19:40:29

import re
str1='<div data-v-78d8daf1 class="song_name flex_c">'
song=re.findall(r'\<div\s(.*)\sclass',str1)
print(song)
输出结果
data-v-78d8daf1

凌绝顶 发表于 2020-8-10 19:42:47

Twilight6 发表于 2020-8-10 19:35
把你的代码发下看看

import requests
import bs4
res = requests.get('http://www.kuwo.cn/search/list?key=绿色')
soup = bs4.BeautifulSoup(res.text,"html.parser")
titles = soup.find_all('div',data-v-78d8daf1 = '',class_='song_name flex_c')
for each in titles:
    print(eash.span['title'])

凌绝顶 发表于 2020-8-10 19:44:28

Twilight6 发表于 2020-8-10 19:35
把你的代码发下看看

import requests
import bs4
res = requests.get('http://www.kuwo.cn/search/list?key=绿色')
soup = bs4.BeautifulSoup(res.text,"html.parser")
titles = soup.find_all('div',data-v-78d8daf1 = '',class_='song_name flex_c')
for each in titles:
    print(eash.span['title'])

凌绝顶 发表于 2020-8-10 19:45:00

zltzlt 发表于 2020-8-10 19:40
有时候在审查元素中看到的代码并不是真正的网页源代码

那我应该怎么办呢

凌绝顶 发表于 2020-8-10 19:45:31

Twilight6 发表于 2020-8-10 19:35
把你的代码发下看看

import requests
import bs4
res = requests.get('http://www.kuwo.cn/search/list?key=绿色')
soup = bs4.BeautifulSoup(res.text,"html.parser")
titles = soup.find_all('div',data-v-78d8daf1 = '',class_='song_name flex_c')
for each in titles:
    print(eash.span['title'])

1q23w31 发表于 2020-8-10 20:38:15

凌绝顶 发表于 2020-8-10 19:45
import requests
import bs4
res = requests.get('http://www.kuwo.cn/search/list?key=绿色')


用requests库爬取不现实,网页生成受到js控制,关闭js后网页截图如下

static/image/hrline/line6.png



推荐用selenium动态爬取,或者直接爬数据包
页: [1]
查看完整版本: 爬取酷我音乐时遇到的问题