鱼C论坛

 找回密码
 立即注册
查看: 2095|回复: 4

网络爬虫抓取图片

[复制链接]
发表于 2017-12-6 16:54:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
今天学习网络爬虫的时候,发现用urlopen()抓取的网页找不到和审查元素上一样的图片的地址,这是为什么?
下面是从获取网站代码的字符串中找图片网址的函数(我还用print()把代码打印出来,也没找到)
def pick_imageaddress (html):
    html = html.decode('utf-8')
    image_address = []
    index_b = 0
    while True :
        index_b = html.find('.jpg', index_b + 4)
        index_a = html.find('http://',index_b-100)

        if index_a == -1 or index_b == -1 :
            break
        temp = html[index_a,index_b+4]
        image_address.append(temp)


urlopen()获取到的不是网站的全部一样代码吗?
求解,谢谢
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-12-6 19:25:57 | 显示全部楼层
本帖最后由 yjsx86 于 2017-12-6 19:27 编辑

可能是网站方面采用JS来动态加载数据
这样的情况:
1.找到JS文件分析
2.暴力点用无头浏览器 加载页面 再读取源代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-12-7 10:51:28 | 显示全部楼层
谢谢你的解答!我现在还不是很懂这方面的知识,需要深入学习在想想吧。不过我想知道urlopen()获取的是什么样网站代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-12-8 14:57:15 | 显示全部楼层
你看是https开头还是http开头
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-12-10 10:46:54 | 显示全部楼层
zhangyf123 发表于 2017-12-8 14:57
你看是https开头还是http开头

http,这个有什么关系?后缀名是html。
不过我发现了这个网站的图片的地址是要打开这个网页才能在浏览器输入地址得到图片的,直接输入图片地址得不到想要的图片的。这个是不是静态网页?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-1 02:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表