鱼C论坛

 找回密码
 立即注册
查看: 1913|回复: 3

[作品展示] 第一次用爬虫爬取图片

[复制链接]
发表于 2020-7-29 13:22:46 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
第一次使用,花了很长时间,还问了论坛一些大佬的问题
最终效果我还是挺满意的,大家说我这算是入门了吗
import re
import random
import requests

mins = int(input("请输入起始数:"))
maxs = int(input("请输入最大数(数字不能大于30000):"))
nums = int(input("你要下载多少张图片:"))
num = 1
for i in random.sample(range(mins,maxs),nums):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3760.400 QQBrowser/10.5.4083.400'
    }
    #彼岸图网的图片批量下载
    urls = "http://pic.netbian.com"
    url = "http://pic.netbian.com/tupian/{}.html".format(str(i))
    res = requests.get(url,headers=headers)
    res.encoding="gbk"
    html = res.text
    #正则表达式搜索图片地址 
    image = re.findall('<img src="(.*?)" data-pic',html) 
    #匹配图片名字        
    name = re.findall('<h1>(.*?)</h1>',html)   
    #字符串与列表拼接             
    images = [urls+i for i in image]   
    #print("正在下载的链接为:",url)       
    #取出每一张图片的名字              
    for names in name:                  
        print("============正在下载第%d张图片:============="%num)
        print(names)
        #循环遍历图片
        for img in images:  
            #图片名字                            
            file_name = str(names) + ".jpg"      
            #再次GET网址                 
            response = requests.get(img,headers=headers)     
            #将图片保存到本地
            with open("./images/" + file_name,"wb") as f:
                f.write(response.content)
                #print("正在下载第%d张图片,请稍等....."%num)
                #print("下载成功,保存成功!")
            num +=1
print("下载完成....")
       
    
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-29 13:37:28 | 显示全部楼层
sofa
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-7-29 14:15:16 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-7-15 17:18:47 | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-14 02:14

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表