爬虫,Python交流,编程语言专区,鱼C论坛

huangdongdong 发表于 2021-5-10 20:33:41

爬虫

如何解决？？？

逃兵发表于 2021-5-10 20:33:42

huangdongdong 发表于 2021-5-12 20:59
还是不行

问题上的报错是被服务器拒绝了
原因可能有两个
1.爬的频繁
2.没有伪装头
你新发的代码运行成功原因有两个
1.间隔一段时间后爬的
2.设定了编码.decode('utf-8')

可能的情况
你最开始的报错和之后用我给的代码虽然都报错了，但是报错不是同一类型（第一次为服务器拒绝，后面为编码错误）

逃兵发表于 2021-5-10 20:55:10

可能是你爬的频繁了，被服务器拒绝了
也可能是服务器识别出来是个爬虫了
加个头部伪装，试试伪装成浏览器访问
import urllib.request
url = "http://www.fishc.com"
req = urllib.request.Request(url=url, headers={'UserAgent':'Mozilla/5.0 (Windows NT 10.0; Win64;x64)AppleWebKit/537.36 (KHTML, likeGecko)Chrome/71.0.3578.80Safari/537.36'})
res = urllib.request.urlopen(req)

huangdongdong 发表于 2021-5-10 21:10:31

逃兵发表于 2021-5-10 20:55
可能是你爬的频繁了，被服务器拒绝了
也可能是服务器识别出来是个爬虫了
加个头部伪装，试试伪装成浏览器 ...

还是报错

逃兵发表于 2021-5-10 21:20:21

import urllib.request
url = "http://www.fishc.com"
headers = {'User-Agent': 'User-Agent:Mozilla/5.0'}
req = urllib.request.Request(url, headers=headers)
res = urllib.request.urlopen(req)

我这边尝试我发的几个代码都能运行

huangdongdong 发表于 2021-5-10 21:30:58

本帖最后由 huangdongdong 于 2021-5-10 21:32 编辑

逃兵发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行
依旧报错。这是为啥呢？

南归发表于 2021-5-11 15:59:23

第一句话,可能是你爬的频繁了，被服务器拒绝了

yu55800 发表于 2021-5-11 16:13:17

你不能换个网站么{:10_250:}{:10_250:}

huangdongdong 发表于 2021-5-11 16:59:16

yu55800 发表于 2021-5-11 16:13
你不能换个网站么

换了还是报错

grey_lemon 发表于 2021-5-11 17:14:09

逃兵发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行

想问下这个代码是怎么复制粘贴成这种原格式的？

huangdongdong 发表于 2021-5-11 17:16:55

逃兵发表于 2021-5-10 21:20
我这边尝试我发的几个代码都能运行

import urllib.request
url = 'http://www.fishc.com/'
html = urllib.request.urlopen(url).read().decode('utf-8')
print(html)这是我网上找的代码，这段代码能成功运行，这是为何？？?

逃兵发表于 2021-5-11 22:04:31

huangdongdong 发表于 2021-5-11 17:16
这是我网上找的代码，这段代码能成功运行，这是为何？？?

你今天看看上面的代码是不是都行了，还是只有你从网上找的这一个可以

逃兵发表于 2021-5-11 22:05:07

grey_lemon 发表于 2021-5-11 17:14
想问下这个代码是怎么复制粘贴成这种原格式的？

点击编辑栏的<>

huangdongdong 发表于 2021-5-12 20:59:09

逃兵发表于 2021-5-11 22:04
你今天看看上面的代码是不是都行了，还是只有你从网上找的这一个可以

还是不行

huangdongdong 发表于 2021-5-13 16:41:43

逃兵发表于 2021-5-13 08:28
问题上的报错是被服务器拒绝了
原因可能有两个
1.爬的频繁

0：我在网上找的代码有一段是网址'http:/www.fishc.com/',这个网址最后有一个/，当我把这个/删除时就会报错，当我在你提供的代码网址段增加这个/，运行结果不会报错，但是也没有返回任何结果。这是为何？？?。难道是网址输入不完整？？？1：我在网上找的代码多次运行都能成功，而且时间间隔很短，而对于你提供的两段代码，他们的报错结果都是相同的

车小炮 发表于 2021-5-13 17:31:20

import requests
url = 'http://www.fishc.com/'
html = requests.get(url)
print(html.text)

huangdongdong 发表于 2021-5-13 17:37:41

车小炮发表于 2021-5-13 17:31

没有requests模块

TooBeautiful 发表于 2021-5-15 17:11:09

电脑重启，IP改变一下，这个最简单，也可以使用代理

页: [1]

鱼C论坛's Archiver

爬虫