求助求助求助!!!!
import requests,re
import time
from bs4 import BeautifulSoup
import binascii
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:102.0) Gecko/20100101 Firefox/102.0'}
page = requests.get('http://www.kuwo.cn/singer_detail/5371').content
# #####将内容转成中文######
# a = binascii.hexlify(page)
# page = binascii.a2b_hex(a).decode('utf8')
# #####将内容转成中文######
print(page)
bs = BeautifulSoup(page,features='lxml')
# bs = BeautifulSoup(page,features='html.parser')
for link in bs.findAll('a'):
name = link.get('title')
mlink = link.get('href')
print(name,mlink)
试着爬一下list页面,有的页面可以抓到歌曲名字和地址。
有的list界面返回的确实16进制的页面,抓不到歌曲名字和地址,如上述代码这个邓紫棋的歌曲界面,这样的如何转义一下,然后可以拿到歌曲名字和地址呢?
能拿到地址就可以想原博一样去下载了,当然下载是也可以考虑加上多线程和容错 |