下载韩国某网址图片UnicodeDecodeError的问题 python3

ddtufoer · 发表于 2016-8-2 21:38:27

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 ddtufoer 于 2016-8-7 20:21 编辑

代码很简单，就是抓取一个网址的图片地址，然后生成列表，打印出来。但是总是报UnicodeDecodeError的错误。希望有热心的鱼友能帮忙解决。

import urllib.request
import os
url='http://www.1300k.com/shop/goodsDetail.html?f_goodsno=215023276979'
def url_open(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
response=urllib.request.urlopen(url)
read=response.read()
return read
print(url_open(url))
if __name__=='__main__':
html=url_open(url).decode('utf-8','ignore')
img_addrs=[]
a=html.find('scr=')
while a!=-1:
b=html.find('.jpg',a,a+255)
if b!=-1:
img_addrs.append(html[a+5:b+4])
else:
b=a+5
a=html.find('scr=',b)
for each in img_addrs:
print(each)

复制代码

下面是报错：
Traceback (most recent call last):
File "E:/1.py", line 13, in <module>
html=url_open(url).decode('utf-8')
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 0: invalid start byte

然后看了鱼友们的帖子，加入了gzip模块：

import urllib.request
import re, gzip, io
url='http://www.1300k.com/shop/goodsDetail.html?f_goodsno=215023276979'
req=urllib.request.Request(url)
req.header=('Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
response=urllib.request.urlopen(url)
buf = io.BytesIO(response.read())
gzip_f = gzip.GzipFile(fileobj=buf)
content = gzip_f.read()
print(content.decode("UTF-8"))

复制代码

下面是报错：

Traceback (most recent call last):
File "E:/2.py", line 10, in <module>
content = gzip_f.read()
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python35-32\lib\gzip.py", line 274, in read
return self._buffer.read(size)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python35-32\lib\gzip.py", line 461, in read
if not self._read_gzip_header():
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python35-32\lib\gzip.py", line 409, in _read_gzip_header
raise OSError('Not a gzipped file (%r)' % magic)
OSError: Not a gzipped file (b'\xc1\xa2')

复制代码

SixPy · 发表于 2016-8-2 22:01:45

ddtufoer · 发表于 2016-8-2 22:12:09

SixPy 发表于 2016-8-2 22:01

大侠我看不懂啊，你能说下我应该在代码里怎样改吗~我很菜很菜~

SixPy · 发表于 2016-8-2 22:13:30

euc-kr 用 'cp949' 解码~

>>> import requests as req
>>> rsp=req.get('http://www.1300k.com/shop/goodsDetail.html?f_goodsno=215023276979')
>>> rsp
<Response [200]>
>>> rsp.encoding='cp949'
>>> print(rsp.text)
접근이 불가능한 웹브라우져입니다.
>>>

复制代码

ddtufoer · 发表于 2016-8-2 22:15:41

SixPy 发表于 2016-8-2 22:13
euc-kr 用 'cp949' 解码~

谢谢！我马上去试！

SixPy · 发表于 2016-8-2 22:18:32

直接用 'euckr' 也可以~

>>> rsp.encoding='cp949'
>>> print(rsp.text)
접근이 불가능한 웹브라우져입니다.
>>> rsp.encoding='euckr'
>>> print(rsp.text)
접근이 불가능한 웹브라우져입니다.

复制代码

ddtufoer · 发表于 2016-8-2 22:24:43

SixPy 发表于 2016-8-2 22:13
euc-kr 用 'cp949' 解码~

那句韩文的意思是，这种方法是不可能的Web浏览器。但是我已经加了add_header了，它的服务器还有其它方法识别程序的抓取吗？版主大侠？

SixPy · 发表于 2016-8-2 22:30:11

ddtufoer 发表于 2016-8-2 22:24
那句韩文的意思是，这种方法是不可能的Web浏览器。但是我已经加了add_header了，它的服务器还有其它方法 ...

你先用浏览器开那个网页，把 headers 复制出来，就可以了~

ddtufoer · 发表于 2016-8-2 22:35:53

SixPy 发表于 2016-8-2 22:30
你先用浏览器开那个网页，把 headers 复制出来，就可以了~

我就是那么干的

req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')

复制代码

我也只会这方法，就是小甲鱼视频教的方法。可是还是不行....

SixPy · 发表于 2016-8-2 22:47:13

ddtufoer 发表于 2016-8-2 22:35
我就是那么干的

我也只会这方法，就是小甲鱼视频教的方法。可是还是不行....

多线程下载图片，以及界面互动~
http://bbs.fishc.com/thread-74052-1-1.html

你去看看 headers 怎么写~

ddtufoer · 发表于 2016-8-2 22:53:00

SixPy 发表于 2016-8-2 22:47
多线程下载图片，以及界面互动~
http://bbs.fishc.com/thread-74052-1-1.html

好的，我去学习了~~~~，麻烦大侠了

ddtufoer · 发表于 2016-8-2 23:11:48

ddtufoer 发表于 2016-8-2 22:53
好的，我去学习了~~~~，麻烦大侠了

感觉好像版本不对，我说的是python3，你的代码是python2的......

ddtufoer · 发表于 2016-8-2 23:39:38

打印read()方法得出的内容，访问被拒绝，已经使用了add_header方法更改了User-Agent。

import urllib.request
import os
url='http://www.1300k.com/shop/goodsDetail.html?f_goodsno=215023276979'
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36')
response=urllib.request.urlopen(url)
read=response.read()
print(read)

复制代码

运行后结果为：

b'\xc1\xa2\xb1\xd9\xc0\xcc \xba\xd2\xb0\xa1\xb4\xc9\xc7\xd1 \xc0\xa5\xba\xea\xb6\xf3\xbf\xec\xc1\xae\xc0\xd4\xb4\xcf\xb4\xd9.'

复制代码

代码特别短，明显不是网页全部内容。经SixPy大侠帮助，以上代码用为euc-kr，用 'cp949' 解码为접근이 불가능한 웹브라우져입니다，翻译成中文为‘这种方法是不可能的Web浏览器’。显然被服务器拒绝。
求热心大侠们解答

lw随风 · 发表于 2016-8-4 21:33:16

楼主，你应该是request用错了，我把你的代码稍微改了一下，可以得到网页源码（开始我还以为和cookie有关系）

ddtufoer · 发表于 2016-8-7 20:21:17

lw随风发表于 2016-8-4 21:33
楼主，你应该是request用错了，我把你的代码稍微改了一下，可以得到网页源码（开始我还以为和cookie有关系 ...

可以了，十分感谢！！！！！！可以继续编了，非常高兴！！！！！！！！！！！

账号		自动登录	找回密码
密码			立即注册

下载韩国某网址图片UnicodeDecodeError的问题 python3

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +5 鱼币

python3访问韩国某网址被拒绝问题