网络爬虫抓取图片

vite · 发表于 2017-12-6 16:54:13

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

今天学习网络爬虫的时候，发现用urlopen()抓取的网页找不到和审查元素上一样的图片的地址，这是为什么？
下面是从获取网站代码的字符串中找图片网址的函数（我还用print（）把代码打印出来，也没找到）
def pick_imageaddress (html):
html = html.decode('utf-8')
image_address = []
index_b = 0
while True :
      index_b = html.find('.jpg', index_b + 4)
      index_a = html.find('http://',index_b-100)

      if index_a == -1 or index_b == -1 :
         break
      temp = html[index_a,index_b+4]
      image_address.append(temp)

urlopen()获取到的不是网站的全部一样代码吗？
求解，谢谢

yjsx86 · 发表于 2017-12-6 19:25:57

本帖最后由 yjsx86 于 2017-12-6 19:27 编辑

可能是网站方面采用JS来动态加载数据
这样的情况：
1.找到JS文件分析
2.暴力点用无头浏览器加载页面再读取源代码

vite · 发表于 2017-12-7 10:51:28

谢谢你的解答！我现在还不是很懂这方面的知识，需要深入学习在想想吧。不过我想知道urlopen()获取的是什么样网站代码

zhangyf123 · 发表于 2017-12-8 14:57:15

你看是https开头还是http开头

vite · 发表于 2017-12-10 10:46:54

zhangyf123 发表于 2017-12-8 14:57
你看是https开头还是http开头

http,这个有什么关系？后缀名是html。
不过我发现了这个网站的图片的地址是要打开这个网页才能在浏览器输入地址得到图片的，直接输入图片地址得不到想要的图片的。这个是不是静态网页？

账号		自动登录	找回密码
密码			立即注册

网络爬虫抓取图片

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块