设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 编程语言专区 › Python交流 › 爬虫求助：为什么打不开豆瓣的网站？

发新帖

查看: 2274|回复: 5

[已解决]爬虫求助：为什么打不开豆瓣的网站？

病名为孙笑川

发表于 2020-9-5 08:47:47 | 显示全部楼层 |阅读模式

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request

复制代码

response = urllib.request.urlopen("http://www.douban.com")

复制代码

Traceback (most recent call last):
File "<pyshell#1>", line 1, in <module>
response = urllib.request.urlopen("http://www.douban.com")
File "D:\文件\Python38\lib\urllib\request.py", line 222, in urlopen
return opener.open(url, data, timeout)
File "D:\文件\Python38\lib\urllib\request.py", line 531, in open
response = meth(req, response)
File "D:\文件\Python38\lib\urllib\request.py", line 640, in http_response
response = self.parent.error(
File "D:\文件\Python38\lib\urllib\request.py", line 569, in error
return self._call_chain(*args)
File "D:\文件\Python38\lib\urllib\request.py", line 502, in _call_chain
result = func(*args)
File "D:\文件\Python38\lib\urllib\request.py", line 649, in http_error_default
raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 418:

复制代码

最佳答案

月排行榜 / 总排行榜

bonst

2020-9-7 15:00:34

你可以试试这样

import requests
url = 'https://book.douban.com/'
response = requests.get(url)
print(response.text)

复制代码

跳转到最佳答案楼层

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2020-9-7 14:59:00 | 显示全部楼层

已经不用urllib了，直接用requests库不是美滋滋，你试试，而且url也不对，豆瓣是https

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2020-9-7 15:00:34 | 显示全部楼层本楼为最佳答案

这个最佳答案由 bonst 给出，感谢 bonst 的回答。

单击隐藏图章

你可以试试这样

import requests
url = 'https://book.douban.com/'
response = requests.get(url)
print(response.text)

复制代码

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2020-9-7 17:40:13 | 显示全部楼层

本帖最后由疾风怪盗于 2020-9-7 17:44 编辑

<Response [418]>
反爬了吧
用selenium试试吧

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2020-9-7 18:16:56 | 显示全部楼层

网站有反爬，用requests库加headers两三行代码就可以请求成功了。用urllib的话就比较麻烦，需要代码比较多，试试这个。

import urllib.request
headers = {} # 自行添加headers
url = 'http://www.douban.com/'
re = urllib.request.Request(url=url, headers=headers)
html = urllib.request.urlopen(re)
print(html.read().decode())

复制代码

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2020-9-7 18:36:32 | 显示全部楼层

本帖最后由 suchocolate 于 2020-9-7 19:28 编辑

得改ua，默认ua是python-urllib，豆瓣反扒。

from urllib import request
headers = {'user-agent': 'firefox'}
req = request.Request('http://www.douban.com', headers=headers)
r = request.urlopen(req)
print(r.read().decode('utf-8'))

复制代码

这是不改ua的抓包。

这是改了ua的抓包：

登录/注册后可看大图

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-7 17:51

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表