鱼C论坛

 找回密码
 立即注册
查看: 1218|回复: 8

[已解决]爬虫返回页面内容没有图片地址

[复制链接]
发表于 2018-11-27 22:17:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import urllib.request
  2. import re

  3. def url_open(url):
  4.     req = urllib.request.Request(url)
  5.     req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0')
  6.     req.add_header('Referer', 'https://tieba.baidu.com/p/5961757739')
  7.     response = urllib.request.urlopen(req)
  8.     html = response.read().decode('utf-8')
  9.     print(html)
  10.     return html

  11. def get_img(html):
  12.     p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
  13.     imglist = re.findall(p, html)
  14.     for each in imglist:
  15.         filename = each.split('/')[-1]
  16.         urllib.request.urlretrieve(each,filename,None)


  17. if __name__ == '__main__':
  18.     html = url_open('https://tbmsg.baidu.com/gmessage/get?mtype=1&_=1543322273495')
  19.     get_img(html)
复制代码

上面是视频教材里用爬虫访问女神吧的代码,然鹅,并没能返回任何图片地址
UQ$X_OC16(K}9Y0U2A)3@$S.png
审核元素时是有的啊,我尝试打印返回的页面内容却发现是这样的 1S74J[H@PWK32%SIXVB7~F3.png 好像是json结构吗?可是里面也没有图片地址啊?这个问题要怎么解决,请大大赐教
最佳答案
2018-11-28 10:14:19
这个只是js在作妖,找到那段js看一下是怎么做的。改写成python就好啦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-11-27 22:23:15 | 显示全部楼层
看网页源代码,看什么审查元素啊??审查元素现在没什么用处
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-27 22:25:06 | 显示全部楼层
别管教材,你url复制到浏览器看看是什么
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-28 07:24:08 | 显示全部楼层
wongyusing 发表于 2018-11-27 22:23
看网页源代码,看什么审查元素啊??审查元素现在没什么用处

查看网页源代码,一片乱乱的怎么破,大大详细些
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-28 07:25:49 | 显示全部楼层
塔利班 发表于 2018-11-27 22:25
别管教材,你url复制到浏览器看看是什么

用审查元素得到的url复制到浏览器可以正常打开,大大帮我看看,这个图是环保的不会破你童子功的,你放心打开吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-28 07:35:56 | 显示全部楼层
wongyusing 发表于 2018-11-27 22:23
看网页源代码,看什么审查元素啊??审查元素现在没什么用处

我发现无论是煎蛋网,爬ip代理的代理ip或者上面这个都出现审核得到的东西,等读取网页返回的东西时了,东西就不一样了,甚至没有,这个大大一定要详细点说,本人零基础,请不吝赐教
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-28 10:14:19 | 显示全部楼层    本楼为最佳答案   
这个只是js在作妖,找到那段js看一下是怎么做的。改写成python就好啦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-11-28 20:04:17 | 显示全部楼层
wongyusing 发表于 2018-11-28 10:14
这个只是js在作妖,找到那段js看一下是怎么做的。改写成python就好啦

大大说的js是什么?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-11-28 20:17:00 | 显示全部楼层
小章郎 发表于 2018-11-28 20:04
大大说的js是什么?

javascript
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-17 11:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表