[已解决]关于UndoDebug错误：“UTF-8”编解码器不能解码字节0xCA

750231319 · 发表于 2018-10-8 22:57:32

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re

def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read()
return html

def find_gc(url):
html = open_url(url).decode('utf-8')
p = r'歌词名称：<a href="(.*?)"'
gcs = re.findall(p, html)
print(html)
return gcs

def main():
url = 'http://www.90lrc.cn/so.php?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&page=10'
gcs = find_gc(url)

if __name__ == '__main__':
main()

我想问下这个问题怎么解决，还请各位大神帮忙看看程序，其中的page=10改为其他页数的话是可以的，只是第10页就不行了，求帮忙解决~

最佳答案

月排行榜 / 总排行榜

RIXO

2018-10-9 14:48:52

只能建议你使用requests库吧，python3自带的解码很多时候会因为一个特殊字符而挂掉，就比如说你的这个网页，程序挂掉就是因为里面有个星星

我是用了requests读的，

url = 'http://www.90lrc.cn/so.php?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&page=10'
r = requests.get(url)
r.encoding = 'utf-8'
print(r.text)

复制代码

跳转到最佳答案楼层

wongyusing · 发表于 2018-10-8 23:39:59

电脑不在身边，那么，这里有第十页吗？如果改成11页会怎么样？

RIXO · 发表于 2018-10-9 14:48:52

只能建议你使用requests库吧，python3自带的解码很多时候会因为一个特殊字符而挂掉，就比如说你的这个网页，程序挂掉就是因为里面有个星星

我是用了requests读的，

url = 'http://www.90lrc.cn/so.php?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&page=10'
r = requests.get(url)
r.encoding = 'utf-8'
print(r.text)

复制代码

塔利班 · 发表于 2018-10-9 14:51:42

RIXO 发表于 2018-10-9 14:48
只能建议你使用requests库吧，python3自带的解码很多时候会因为一个特殊字符而挂掉，就比如说你的这个网页 ...

requests为什么没有

waitforlove · 发表于 2018-10-9 15:10:26

r.encoding = chardet.detect(r.content)['encoding']

RIXO · 发表于 2018-10-9 15:47:08

塔利班发表于 2018-10-9 14:51
requests为什么没有

。。。。因为做了处理啊，像这样的第三方库，可靠性起码是能保证的呀！！！

虽然看不太懂源码。。。但是，没加r.encoding之前他的输出是把能解码的按html格式输出，把不能解码的那部分，按照乱码输出，加了之后再把不能解码那部分按照加了的编码输出，就是说，他里面的解码，不是和我们一样，一次性全解了，可能是分部分，甚至是分各个生成器解的，可靠性就高的多了，而且这只是代码里面解码的一部分，里面各种东西，我都看不懂。。。。有些感觉完全没有用

塔利班 · 发表于 2018-10-9 15:59:34

RIXO 发表于 2018-10-9 15:47
。。。。因为做了处理啊，像这样的第三方库，可靠性起码是能保证的呀！！！

虽然看不太懂源 ...

就听你口胡，反正我不知道

750231319 · 发表于 2018-10-9 16:09:25

RIXO 发表于 2018-10-9 14:48
只能建议你使用requests库吧，python3自带的解码很多时候会因为一个特殊字符而挂掉，就比如说你的这个网页 ...

谢谢了呀~

账号		自动登录	找回密码
密码			立即注册

[已解决]关于UndoDebug错误：“UTF-8”编解码器不能解码字节0xCA

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块