为什么爬不到图片？？？？

wangjun123 · 发表于 2017-12-16 20:40:43

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Mobile Safari/537.36')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html
def get_img(html):
p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
imglist = re.findall(p,html)
for each in imglist:
print(each)
if __name__ == '__main__':
url = 'https://tieba.baidu.com/p/4113226902'
get_img(open_url(url))

°蓝鲤歌蓝 · 发表于 2017-12-16 21:05:28

换一个头部信息，即User-Agent后面那一串，应该是无效的了。
还有正则表达式也不是很正确。你那个会把<img class="BDE_Image" src="也打印出来
换成p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'

账号		自动登录	找回密码
密码			立即注册

为什么爬不到图片？？？？

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块