君子好逑 发表于 2020-8-8 22:07:20

爬虫

本帖最后由 君子好逑 于 2020-8-8 22:07 编辑

import urllib.request

response = urllib.request.urlopen("https://baike.baidu.com/item/灶门祢豆子/22390246?fr=aladdin")
html = response.read()
html = html.decode("utf-8")

print(html)
有大佬能告诉我为啥会发生这个错误吗,之前输小甲鱼的网站就不会出错

永恒的蓝色梦想 发表于 2020-8-8 22:09:39

改用 requests 库吧

zltzlt 发表于 2020-8-8 22:11:03

URL 中不能含有中文,用 quote 转化一下即可

import urllib.request
import urllib.parse

response = urllib.request.urlopen("https://" + urllib.parse.quote("baike.baidu.com/item/灶门祢豆子/22390246?fr=aladdin"))
html = response.read()
html = html.decode("utf-8")

print(html)

君子好逑 发表于 2020-8-8 22:15:37

永恒的蓝色梦想 发表于 2020-8-8 22:09
改用 requests 库吧

受教了,大佬{:10_256:}

liuzhengyuan 发表于 2020-8-8 22:18:04

君子好逑 发表于 2020-8-8 22:15
受教了,大佬

requests 真的又简洁又好用

君子好逑 发表于 2020-8-8 22:19:54

永恒的蓝色梦想 发表于 2020-8-8 22:09
改用 requests 库吧

大佬,有学这个库的视频给推一个吗

liuzhengyuan 发表于 2020-8-8 22:28:39

君子好逑 发表于 2020-8-8 22:19
大佬,有学这个库的视频给推一个吗

https://fishc.com.cn/forum.php?mod=forumdisplay&fid=319&filter=typeid&typeid=711(极客python爬虫教程,里面全用 requests)
以及
https://fishc.com.cn/forum.php?mod=viewthread&tid=95893&highlight=requests%2B%CE%C4%B5%B5

君子好逑 发表于 2020-8-8 22:32:09

liuzhengyuan 发表于 2020-8-8 22:28
https://fishc.com.cn/forum.php?mod=forumdisplay&fid=319&filter=typeid&typeid=711(极客python爬虫 ...

谢谢大佬{:10_256:}

liuzhengyuan 发表于 2020-8-8 22:36:10

君子好逑 发表于 2020-8-8 22:32
谢谢大佬

爬取豆瓣的好像失效了

zltzlt 发表于 2020-8-9 08:14:36

就这样忽略我?{:10_266:}

君子好逑 发表于 2020-8-9 15:46:04

zltzlt 发表于 2020-8-9 08:14
就这样忽略我?

之前忙着看番忘了{:10_256:}

君子好逑 发表于 2020-8-9 17:59:51

zltzlt 发表于 2020-8-9 08:14
就这样忽略我?

给你补上了{:10_279:}

极品召唤兽 发表于 2020-8-9 18:02:52

zltzlt 发表于 2020-8-9 08:14
就这样忽略我?

hhh可能是忘了...
页: [1]
查看完整版本: 爬虫