设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 萌新训练营 › 萌新交流区 › 明明我原封不动地把例题打下来还是会报错？

发新帖

查看: 3422|回复: 10

[已解决]明明我原封不动地把例题打下来还是会报错？

发表于 2020-1-30 12:27:14 | 显示全部楼层本楼为最佳答案

这个最佳答案由 XiaoPaiShen 给出，感谢 XiaoPaiShen 的回答。

单击隐藏图章

import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup
def main():
keyword = input("请输入关键词：")
keyword = urllib.parse.urlencode({"word":keyword})
url = "http://baike.baidu.com/search/word?{0}".format(keyword)
# print('[url] --> {0}'.format(url))
response = urllib.request.urlopen(url)
html = response.read()
soup = BeautifulSoup(html, "html.parser")
for each in soup.find_all(href=re.compile("view")):
content = ''.join([each.text])
root_url = "http://baike.baidu.com"
href_url = each["href"]
url2 = urllib.parse.urljoin(root_url, href_url)
# print('[url2] --> {0}'.format(url2))
url2 = urllib.parse.quote(url2, safe=':/?#&')
response2 = urllib.request.urlopen(url2)
html2 = response2.read()
soup2 = BeautifulSoup(html2, "html.parser")
if soup2.h2:
content = ''.join([content, soup2.h2.text])
decode_url = urllib.parse.unquote(url2)
decode_url = urllib.parse.unquote(decode_url)
content = ''.join([content, " -> ", decode_url])
print(content)
if __name__ == "__main__":
main()

复制代码

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2020-2-4 21:31:41 From FishC Mobile | 显示全部楼层

safe参数指定的字符串中包含的字符不会被转换

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2020-2-6 04:36:27 | 显示全部楼层

dweiyuan 发表于 2020-2-5 17:57
谢谢。
但是？#/之类的符号不就本来就是ASCII字符吗，为什么还要把它们放在safe里？

在url中，#/ 会被编码的，
#：%2f
/：%23

如果不想被编码，就把不想编码的字符赋給 safe

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-9-26 04:33

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表