|
发表于 2022-8-11 00:16:25
|
显示全部楼层
求助求助求助!!!!
- import requests,re
- import time
- from bs4 import BeautifulSoup
- import binascii
- headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:102.0) Gecko/20100101 Firefox/102.0'}
- page = requests.get('http://www.kuwo.cn/singer_detail/5371').content
- # #####将内容转成中文######
- # a = binascii.hexlify(page)
- # page = binascii.a2b_hex(a).decode('utf8')
- # #####将内容转成中文######
- print(page)
- bs = BeautifulSoup(page,features='lxml')
- # bs = BeautifulSoup(page,features='html.parser')
- for link in bs.findAll('a'):
- name = link.get('title')
- mlink = link.get('href')
- print(name,mlink)
复制代码
试着爬一下list页面,有的页面可以抓到歌曲名字和地址。
有的list界面返回的确实16进制的页面,抓不到歌曲名字和地址,如上述代码这个邓紫棋的歌曲界面,这样的如何转义一下,然后可以拿到歌曲名字和地址呢?
能拿到地址就可以想原博一样去下载了,当然下载是也可以考虑加上多线程和容错 |
|