[已解决]【求助】55讲课后练习答案报错的问题。

瑁怕瑁 · 发表于 2019-10-4 14:32:33

这是55讲课后作业动动手的第一题的答案：
import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup

def main():
keyword = input("请输入关键词：")
keyword = urllib.parse.urlencode({"word":keyword})
response = urllib.request.urlopen("http://baike.baidu.com/search/word?%s" % keyword)
html = response.read()
soup = BeautifulSoup(html, "html.parser")

for each in soup.find_all(href=re.compile("view")):
      content = ''.join([each.text])
      url2 = ''.join(["http://baike.baidu.com", each["href"]])
      response2 = urllib.request.urlopen(url2)
      html2 = response2.read()
      soup2 = BeautifulSoup(html2, "html.parser")
      if soup2.h2:
         content = ''.join([content, soup2.h2.text])
      content = ''.join([content, " -> ", url2])
      print(content)

if __name__ == "__main__":
main()

当我运行这段代码输入关键字后会出现UnicodeEncodeError的报错信息：
Traceback (most recent call last):
  File "F:\python\练习\55.1.py", line 25, in <module>
main()
  File "F:\python\练习\55.1.py", line 16, in main
response2 = urllib.request.urlopen(url2)
  File "F:\python\lib\urllib\request.py", line 222, in urlopen
return opener.open(url, data, timeout)
  File "F:\python\lib\urllib\request.py", line 525, in open
response = self._open(req, data)
  File "F:\python\lib\urllib\request.py", line 543, in _open
'_open', req)
  File "F:\python\lib\urllib\request.py", line 503, in _call_chain
result = func(*args)
  File "F:\python\lib\urllib\request.py", line 1345, in http_open
return self.do_open(http.client.HTTPConnection, req)
  File "F:\python\lib\urllib\request.py", line 1317, in do_open
encode_chunked=req.has_header('Transfer-encoding'))
  File "F:\python\lib\http\client.py", line 1229, in request
self._send_request(method, url, body, headers, encode_chunked)
  File "F:\python\lib\http\client.py", line 1240, in _send_request
self.putrequest(method, url, **skips)
  File "F:\python\lib\http\client.py", line 1107, in putrequest
self._output(request.encode('ascii'))
UnicodeEncodeError: 'ascii' codec can't encode characters in position 36-39: ordinal not in range(128)
请问怎么解决？

最佳答案

月排行榜 / 总排行榜

zltzlt

2019-10-4 14:32:34

这样试试：

# -*- coding:utf-8 -*-
import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup
def main():
keyword = input("请输入关键词：")
keyword = urllib.parse.urlencode({"word":keyword})
response = urllib.request.urlopen("http://baike.baidu.com/search/word?%s" % keyword)
html = response.read()
soup = BeautifulSoup(html, "html.parser")
for each in soup.find_all(href=re.compile("view")):
content = ''.join([each.text])
url2 = ''.join(["http://baike.baidu.com", each["href"]])
url2 = urllib.parse.quote(url2).replace("%3A", ":")
response2 = urllib.request.urlopen(url2)
html2 = response2.read()
soup2 = BeautifulSoup(html2, "html.parser")
if soup2.h2:
content = ''.join([content, soup2.h2.text])
content = ''.join([content, " -> ", url2])
print(content)
if __name__ == "__main__":
main()

复制代码

跳转到最佳答案楼层

zltzlt · 发表于 2019-10-4 14:32:34

这个最佳答案由 zltzlt 给出，感谢 zltzlt 的回答。

单击隐藏图章

这样试试：

# -*- coding:utf-8 -*-
import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup
def main():
keyword = input("请输入关键词：")
keyword = urllib.parse.urlencode({"word":keyword})
response = urllib.request.urlopen("http://baike.baidu.com/search/word?%s" % keyword)
html = response.read()
soup = BeautifulSoup(html, "html.parser")
for each in soup.find_all(href=re.compile("view")):
content = ''.join([each.text])
url2 = ''.join(["http://baike.baidu.com", each["href"]])
url2 = urllib.parse.quote(url2).replace("%3A", ":")
response2 = urllib.request.urlopen(url2)
html2 = response2.read()
soup2 = BeautifulSoup(html2, "html.parser")
if soup2.h2:
content = ''.join([content, soup2.h2.text])
content = ''.join([content, " -> ", url2])
print(content)
if __name__ == "__main__":
main()

复制代码

瑁怕瑁 · 发表于 2019-10-4 15:53:23

zltzlt 发表于 2019-10-4 15:31
这样试试：

运行成功！可以给我说说报错原因和url2 = urllib.parse.quote(url2).replace("%3A", ":")这段代码的作用和用法吗？

zltzlt · 发表于 2019-10-4 15:55:58

瑁怕瑁发表于 2019-10-4 15:53
运行成功！可以给我说说报错原因和url2 = urllib.parse.quote(url2).replace("%3A", ":")这段代码的作用 ...

报错原因是 url2 里有汉字。urllib.parse.quote(url2).replace("%3A", ":") 负责把 url2 进行 url 编码，编完码的 url2 没有汉字，且网址地址和原来的一样。

瑁怕瑁 · 发表于 2019-10-4 16:44:35

zltzlt 发表于 2019-10-4 15:55
报错原因是 url2 里有汉字。urllib.parse.quote(url2).replace("%3A", ":") 负责把 url2 进行 url 编码， ...

后面用replace("%3A", ":") 的原因是什么？

zltzlt · 发表于 2019-10-4 16:46:09

瑁怕瑁发表于 2019-10-4 16:44
后面用replace("%3A", ":") 的原因是什么？

用 quote 方法会连 http 后面的冒号都会编码成 %3A，所以需要将编码后的冒号（%3A）替换成正常的冒号 :

瑁怕瑁 · 发表于 2019-10-4 16:50:39

zltzlt 发表于 2019-10-4 16:46
用 quote 方法会连 http 后面的冒号都会编码成 %3A，所以需要将编码后的冒号（%3A）替换成正常的冒号 :

原来是这样！感谢！！

瑁怕瑁 · 发表于 2019-10-4 20:45:25

zltzlt 发表于 2019-10-4 14:32
这样试试：

可不可以再问一个问题，soup2.h2是什么？

zltzlt · 发表于 2019-10-4 20:50:43

瑁怕瑁发表于 2019-10-4 20:45
可不可以再问一个问题，soup2.h2是什么？

soup2.h2 应该是获取网页所有的 h2 元素。没用过 BeautifulSoup，不知道对不对

瑁怕瑁 · 发表于 2019-10-4 21:16:14

zltzlt 发表于 2019-10-4 20:50
soup2.h2 应该是获取网页所有的 h2 元素。没用过 BeautifulSoup，不知道对不对

我知道了，是其中的标签，感谢！

账号		自动登录	找回密码
密码			立即注册

[已解决]【求助】55讲课后练习答案报错的问题。

最佳答案

浏览过的版块