|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read()
return html
def find_gc(url):
html = open_url(url).decode('utf-8')
p = r'歌词名称:<a href="(.*?)"'
gcs = re.findall(p, html)
print(html)
return gcs
def main():
url = 'http://www.90lrc.cn/so.php?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&page=10'
gcs = find_gc(url)
if __name__ == '__main__':
main()
我想问下这个问题怎么解决,还请各位大神帮忙看看程序,其中的page=10改为其他页数的话是可以的,只是第10页就不行了,求帮忙解决~
只能建议你使用requests库吧,python3自带的解码很多时候会因为一个特殊字符而挂掉,就比如说你的这个网页,程序挂掉就是因为里面有个星星
我是用了requests读的,
- url = 'http://www.90lrc.cn/so.php?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&page=10'
- r = requests.get(url)
- r.encoding = 'utf-8'
- print(r.text)
复制代码
|
|