求助，练习p14_92问题

charst89 · 发表于 2019-6-15 08:07:04

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 charst89 于 2019-6-15 08:24 编辑

用的python3.7.3
代码

import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup
def main():
keyword = input("请输入关键词：")
keyword = urllib.parse.urlencode({"word":keyword})
response = urllib.request.urlopen("http://baike.baidu.com/search/word?%s" % keyword)
html = response.read()
soup = BeautifulSoup(html, "html.parser")
for each in soup.find_all(href=re.compile("view")):
content =''.join([each.text])
url2 = ''.join(["http://baike.baidu.com", each["href"]])
response2 = urllib.request.urlopen(url2)
html2 = response2.read()
soup2 = BeautifulSoup(html2, "html.parser")
if soup2.h2:
content = ''.join([content, soup2, h2.text])
content = ''.join([content, "->", url2])
print(content)
if __name__=="__main__":
main()

复制代码

报错

RESTART: C:/Users/cgt19/AppData/Local/Programs/Python/Python37-32/p14_92.py
请输入关键词：牛
Traceback (most recent call last):
File "C:/Users/cgt19/AppData/Local/Programs/Python/Python37-32/p14_92.py", line 24, in <module>
main()
File "C:/Users/cgt19/AppData/Local/Programs/Python/Python37-32/p14_92.py", line 16, in main
response2 = urllib.request.urlopen(url2)
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 222, in urlopen
return opener.open(url, data, timeout)
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 525, in open
response = self._open(req, data)
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 543, in _open
'_open', req)
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 503, in _call_chain
result = func(*args)
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 1345, in http_open
return self.do_open(http.client.HTTPConnection, req)
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\urllib\request.py", line 1317, in do_open
encode_chunked=req.has_header('Transfer-encoding'))
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\http\client.py", line 1229, in request
self._send_request(method, url, body, headers, encode_chunked)
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\http\client.py", line 1240, in _send_request
self.putrequest(method, url, **skips)
File "C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\lib\http\client.py", line 1107, in putrequest
self._output(request.encode('ascii'))
UnicodeEncodeError: 'ascii' codec can't encode characters in position 36-39: ordinal not in range(128)

复制代码

charst89 · 发表于 2019-6-15 10:52:15

折腾半天修改了一下，能跑起来了
代码

import urllib.request
import re
from bs4 import BeautifulSoup
def main():
keyword = input("请输入关键词：")
keyword = urllib.parse.urlencode({'word':keyword})
response = urllib.request.urlopen('https://baike.baidu.com/search/word?%s' % keyword)
html = response.read()
soup = BeautifulSoup(html,'html.parser')
for each in soup.find_all(href = re.compile('view')):
content = ''.join([each.text])
[color=Red]keyword2 = urllib.parse.urlencode({'word2':each['href']})[/color]
[color=Red]url2 = 'https://baike.baidu.com/%s' % keyword2[/color]
response2 = urllib.request.urlopen(url2)
html2 = response2.read()
soup2 = BeautifulSoup(html2,'html.parser')
if soup2.h2:
content = ''.join([content,soup2.h2.text])
content = ''.join([content,'->',url2])
print(content)
if __name__ == '__main__':
main()

复制代码

结果

RESTART: C:\Users\cgt19\AppData\Local\Programs\Python\Python37-32\p14-93.py
请输入关键词：牛
恐龙百科->https://baike.baidu.com/word2=%2Fwikicategory%2Fview%3FcategoryName%3D%E6%81%90%E9%BE%99%E5%A4%A7%E5%85%A8
多肉百科->https://baike.baidu.com/word2=%2Fwikicategory%2Fview%3FcategoryName%3D%E5%A4%9A%E8%82%89%E6%A4%8D%E7%89%A9
力学单位->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F2620569%23viewPageContent
姓氏->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F2620535%23viewPageContent
十二生肖之一->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F9259224%23viewPageContent
Minecraft中的生物->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F14680981%23viewPageContent
谭剑飞创作的诗歌->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F16750946%23viewPageContent
《夏目友人帐》中妖怪->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F16535229%23viewPageContent
汉语汉字->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F1139%23viewPageContent
莫言中篇小说->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F12012478%23viewPageContent
杨歌执导的影片->https://baike.baidu.com/word2=%2Fitem%2F%25E7%2589%259B%2F22543405%23viewPageContent
更多->https://baike.baidu.com/word2=http%3A%2F%2Fbaike.baidu.com%2Fview%2F830944.htm

复制代码

有其他解决办法的，交流一下呗。

Krant5 · 发表于 2019-6-15 14:17:41

上面写了编码不支持了,换个UTF8

charst89 · 发表于 2019-6-15 16:42:25

Krant5 发表于 2019-6-15 14:17
上面写了编码不支持了,换个UTF8

一上午就为编码搞事情，没结果，然后自己改，能跑起来了。有高见的求指导！
原程序：
      url2 = ''.join(["http://baike.baidu.com", each["href"]])
      response2 = urllib.request.urlopen(url2)
改成
      keyword2 = urllib.parse.urlencode({'word2':each['href']})
      url2 = 'https://baike.baidu.com/%s' % keyword2
      response2 = urllib.request.urlopen(url2)

账号		自动登录	找回密码
密码			立即注册

求助，练习p14_92问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块