视频53课抓取网站内容之【百度】

payton24 · 发表于 2017-12-14 11:17:07

您需要登录才可以下载或查看，没有账号？立即注册

x

先贴代码吧，其实除了百度之外，其他数据都正常：

复制代码

百度111kb的文件大小，结果才显示了两行代码，是做了特殊的加密吗？

BngThea · 发表于 2017-12-14 11:54:09

百度当然不是你随便就能爬的

payton24 · 发表于 2017-12-14 13:09:50

BngThea 发表于 2017-12-14 11:54
百度当然不是你随便就能爬的

哈哈，有爬的思路吗？

JAY饭 · 发表于 2017-12-14 16:54:40

勉强看懂了
提供下我的解决方案：
每次提示错误编码时，我都会将错误编码的内容收集进一个列表，然后在下次运行时
将这些错误编码替换成空字符串，虽然我这种方法解决了出错的问题，但总觉得不完美。
要是能把错误编码解读出来就好了。

复制代码

上面是我剪下的一段，对了req = urllib.request.urlopen().read().decode()。你能理解吗，就是将遇到的错误码提前替代

payton24 · 发表于 2017-12-14 19:21:34

JAY饭发表于 2017-12-14 16:54
勉强看懂了
提供下我的解决方案：
每次提示错误编码时，我都会将错误编码的内容收集进一个列表，然后在下 ...

list1里面的字符串，是你在打开txt文件时碰到的？目前我运行时感觉都正常啊，没有发现类似错误编码。

JAY饭 · 发表于 2017-12-14 20:59:55

payton24 发表于 2017-12-14 19:21
list1里面的字符串，是你在打开txt文件时碰到的？目前我运行时感觉都正常啊，没有发现类似错误编码。

喔，是我弄错了，我以为你程序报错呢，我的一直报错，utf -8 -sig等其他编码，在写入时都出现过解码错误。
但是我的所有内容都显示正常，可能是我替换了它们的字符串的关系吧

账号		自动登录	找回密码
密码			立即注册

视频53课 抓取网站内容之【百度】