正则爬微博图

xiongjingkui · 发表于 2015-8-13 16:47:23

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

如图，用的正则爬微博图片，结果出现如下错误，求大神支招

import urllib.request as g
import os
import re
def url_open(url):
req = g.Request(url)
req.add_header('User-Agent:','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')
response = g.urlopen(req)
html = response.read()
return html
def get_img(folder,html):
p = r'<img class="bigcursor" src="([^"]+\.jpg)"'
img_list = re.findall(p,html.decode('utf-8'))
for each in img_list:
filename = each.split('/')[-1]
with open(filename,'wb') as f:
img = url_open(each)
f.write(img)
def download(folder = '意境图'):
os.mkdir(folder)
os.chdir(folder)
html = url_open(url)
get_img(folder,html)
if __name__ == "__main__":
url = "http://weibo.com/u/1887302565/home?end_id=3875416122685488&pre_page=1&page=2"
download()

复制代码

ft3312591 · 发表于 2015-8-13 17:04:45

好像是编码问题，具体不明。。。

fre · 发表于 2015-8-13 17:08:56

我试了下用gb2312 可以解码不过解出来的不是内容页
你访问的时候他给你跳到登录页面了不是给你内容页
估计要先进行登录之类的操作

fre · 发表于 2015-8-13 17:10:12

直接不解码进行read()就可以看到他返回的页面是gb2312编码的

fre · 发表于 2015-8-13 17:13:33

估计要在header里面增加cookie这样?

xiongjingkui · 发表于 2015-8-13 17:24:33

fre 发表于 2015-8-13 17:13
估计要在header里面增加cookie这样?

恩，试了试gb2312解码，错误是没有了，可惜没匹配到图

fre · 发表于 2015-8-13 17:29:43

xiongjingkui 发表于 2015-8-13 17:24
恩，试了试gb2312解码，错误是没有了，可惜没匹配到图

因为他返回的不是我们看到的那个个人主页是一个登录的页面....

遇到这种一步一步测试你现在可以直接把你decode之后的数据打印一下就知道了..

我试了下浏览器没登录也可以看.python里面不行会跳转估计是微博有什么防抓取了..
光设置user-agent已经不行了要加上其他设置让服务器以为你是正常人..才能返回正确数据

xiongjingkui · 发表于 2015-8-13 17:32:13

fre 发表于 2015-8-13 17:29
因为他返回的不是我们看到的那个个人主页是一个登录的页面....

遇到这种一步一步测试你现在可以直 ...

噢，对的，我这复制的是我个人的主页，明白了明白了，中间还有这么一道卡，估计是设置的保护个人隐私的，谢谢啦

账号		自动登录	找回密码
密码			立即注册

正则爬微博图

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块