[已解决]爬虫返回页面内容没有图片地址

小章郎 · 发表于 2018-11-27 22:17:59

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
req.add_header('Referer', 'https://tieba.baidu.com/p/5961757739')
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
print(html)
return html
def get_img(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
imglist = re.findall(p, html)
for each in imglist:
filename = each.split('/')[-1]
urllib.request.urlretrieve(each,filename,None)
if __name__ == '__main__':
html = url_open('https://tbmsg.baidu.com/gmessage/get?mtype=1&_=1543322273495')
get_img(html)

复制代码

上面是视频教材里用爬虫访问女神吧的代码，然鹅，并没能返回任何图片地址
UQ$X_OC16(K}9Y0U2A)3@$S.png

审核元素时是有的啊，我尝试打印返回的页面内容却发现是这样的 1S74J[H@PWK32%SIXVB7~F3.png

好像是json结构吗？可是里面也没有图片地址啊？这个问题要怎么解决，请大大赐教

最佳答案

wongyusing

2018-11-28 10:14:19

这个只是js在作妖，找到那段js看一下是怎么做的。改写成python就好啦

wongyusing · 发表于 2018-11-27 22:23:15

看网页源代码，看什么审查元素啊？？审查元素现在没什么用处

塔利班 · 发表于 2018-11-27 22:25:06

别管教材，你url复制到浏览器看看是什么

小章郎 · 发表于 2018-11-28 07:24:08

wongyusing 发表于 2018-11-27 22:23
看网页源代码，看什么审查元素啊？？审查元素现在没什么用处

查看网页源代码，一片乱乱的怎么破，大大详细些

小章郎 · 发表于 2018-11-28 07:25:49

塔利班发表于 2018-11-27 22:25
别管教材，你url复制到浏览器看看是什么

用审查元素得到的url复制到浏览器可以正常打开，大大帮我看看，这个图是环保的不会破你童子功的，你放心打开吧

小章郎 · 发表于 2018-11-28 07:35:56

wongyusing 发表于 2018-11-27 22:23
看网页源代码，看什么审查元素啊？？审查元素现在没什么用处

我发现无论是煎蛋网，爬ip代理的代理ip或者上面这个都出现审核得到的东西，等读取网页返回的东西时了，东西就不一样了，甚至没有，这个大大一定要详细点说，本人零基础，请不吝赐教

wongyusing · 发表于 2018-11-28 10:14:19

这个只是js在作妖，找到那段js看一下是怎么做的。改写成python就好啦

小章郎 · 发表于 2018-11-28 20:04:17

wongyusing 发表于 2018-11-28 10:14
这个只是js在作妖，找到那段js看一下是怎么做的。改写成python就好啦

大大说的js是什么？

wongyusing · 发表于 2018-11-28 20:17:00

小章郎发表于 2018-11-28 20:04
大大说的js是什么？

javascript

账号		自动登录	找回密码
密码			立即注册