53课课后习题答案有问题哎～～求助

碗碗的泡菜坛 · 发表于 2016-2-18 18:02:54

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

小甲鱼的答案：

import urllib.request
import chardet
def main():
i = 0
with open("urls.txt", "r") as f:
# 读取待访问的网址
# 由于urls.txt每一行一个URL
# 所以按换行符'\n'分割
urls = f.read().splitlines()
for each_url in urls:
response = urllib.request.urlopen(each_url)
html = response.read()
# 识别网页编码
encode = chardet.detect(html)['encoding']
if encode == 'GB2312':
encode = 'GBK'
i += 1
filename = "url_%d.txt" % i
with open(filename, "w", encoding=encode) as each_file:
each_file.write(html.decode(encode, "ignore"))
if __name__ == "__main__":
main()

复制代码

运行后报错：

=========== RESTART: /Users/cristikaQ/Documents/Pycode/53-2小甲鱼.py ===========
Traceback (most recent call last):
File "/Users/cristikaQ/Documents/Pycode/53-2小甲鱼.py", line 29, in <module>
main()
File "/Users/cristikaQ/Documents/Pycode/53-2小甲鱼.py", line 26, in main
each_file.write(html.decode(encode, "ignore"))
TypeError: decode() argument 1 must be str, not None
>>>

复制代码

报错说decode()的第一个参数必须是字符串，可是encode是字符串没错啊

我自己写的也是同样的问题

求助

小小大鱼 · 发表于 2016-2-18 19:18:37

本帖最后由小小大鱼于 2016-2-18 19:20 编辑

1.首先说明下，chardet我不懂
2.报错信息：TypeError: decode() argument 1 must be str, not None说明你的encode为空
由此反推，
encode = chardet.detect(html)['encoding']#这句不明白它的意思
但这里只有一个判断：
if encode == 'GB2312':
encode = 'GBK'
如果encode=='GB2312'不成立，那么encode是不是空值(None)，请自己检查下

DingRan · 发表于 2016-2-18 19:55:00

默默领个鱼币

zooo · 发表于 2016-2-18 20:35:30

encode = chardet.detect(html)['encoding']
18行的这步赋值是不是有问题

碗碗的泡菜坛 · 发表于 2016-2-18 20:37:45

本帖最后由碗碗的泡菜坛于 2016-2-18 20:47 编辑

小小大鱼发表于 2016-2-18 19:18
1.首先说明下，chardet我不懂
2.报错信息：TypeError: decode() argument 1 must be str, not None说明你 ...

检查过了仍然不明原因，不过还是谢谢～chardet是个模块，detetct方法返回一个字典，encoding键对应一个字符串

碗碗的泡菜坛 · 发表于 2016-2-18 20:38:45

DingRan 发表于 2016-2-18 19:55
默默领个鱼币

不好好回答问题的人是不会有鱼币的

碗碗的泡菜坛 · 发表于 2016-2-18 20:49:16

问题已经解决，是我大意了，检测百度的编码，检测出来为空。。。。囧

shuofxz · 发表于 2016-2-18 21:03:33

你拿下面这个代码测试一下，我加了几个测试点，你看都能不能正常输出，尤其看print(encode)这个的输出，看看有没有值。
测试的时候把txt文档里面就留www.fishc.com剩下的都删了，刚我只测试了www.baidu.com发现执行response = urllib.request.urlopen(each_url)会报错，www.fishc.com就没事=_=

import urllib.request
import urllib
import chardet
def main():
i = 0
print(0)
with open("urls.txt", "r") as f:
# 读取待访问的网址
# 由于urls.txt每一行一个URL
# 所以按换行符'\n'分割
urls = f.read().splitlines()
print(urls)
for each_url in urls:
response = urllib.request.urlopen(each_url)
html = response.read()
print(1)
# 识别网页编码
encode = chardet.detect(html)['encoding']
if encode == 'GB2312':
encode = 'GBK'
print(encode)
i += 1
filename = "url_%d.txt" % i
with open(filename, "w", encoding=encode) as each_file:
each_file.write(html.decode(encode, "ignore"))
if __name__ == "__main__":
main()

复制代码

shuofxz · 发表于 2016-2-18 21:06:51

回完贴发现你已经找到问题了。。。。

碗碗的泡菜坛 · 发表于 2016-2-19 11:18:21

shuofxz 发表于 2016-2-18 21:06
回完贴发现你已经找到问题了。。。。

哈哈哈哈哈哈还是谢谢反正还是拿到了鱼币

账号		自动登录	找回密码
密码			立即注册

53课课后习题答案有问题哎～～求助

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +10 鱼币

评分

回帖奖励 +10 鱼币

评分

回帖奖励 +10 鱼币

浏览过的版块