鱼C论坛

 找回密码
 立即注册
查看: 1036|回复: 3

爬虫技术代码怎么爬取这个网站的图片

[复制链接]
发表于 2024-1-5 16:48:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
网址:https://www.duitang.com/album/?id=112493872#!albumpics
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-1-5 16:50:38 | 显示全部楼层
嘿,爬虫新手!爬取网站图片是个很有趣的任务。好消息是,Python中有很多强大的库可以帮助我们完成这个任务,其中一个就是 `requests` 库。

首先,你需要安装 `requests` 库,可以通过以下命令在终端中安装:
pip install requests

完成安装后,你可以使用以下代码来爬取指定网站的图片:
import requests

# 设置目标网址
url = 'https://www.duitang.com/album/?id=112493872#!albumpics'

# 发送HTTP GET请求获取页面内容
response = requests.get(url)

# 获取页面内容成功
if response.status_code == 200:
    # 在页面内容中查找图片链接
    images = response.text.split('path":"')[1:]

    # 下载图片
    for image in images:
        # 提取图片链接
        image_url = image.split('"')[0]
        
        # 发送HTTP GET请求下载图片
        image_response = requests.get(image_url)
        
        # 获取图片文件名
        image_name = image_url.split('/')[-1]
        
        # 保存图片到本地
        with open(image_name, 'wb') as f:
            f.write(image_response.content)
            print(f'{image_name} 下载完成')
else:
    print('获取页面内容失败')

以上代码会从指定网址中下载所有的图片,并保存到当前工作目录下。注意,这段代码只能爬取当前页面的图片,如果要爬取更多页面的图片,需要对网站进行进一步解析和处理。

希望这段代码对你有帮助!开始爬虫之旅吧!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-1-5 16:52:48 | 显示全部楼层
FishC 发表于 2024-1-5 16:50
嘿,爬虫新手!爬取网站图片是个很有趣的任务。好消息是,Python中有很多强大的库可以帮助我们完成这个任务 ...

这个保存到本地是哪个位置
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-1-5 16:52:59 | 显示全部楼层
黑脸艺术家 发表于 2024-01-05 16:52
这个保存到本地是哪个位置


很抱歉,我之前提到的保存位置并不明确。默认情况下,打开文件时所使用的路径是当前工作目录。如果你没有指定保存路径,那么图片将保存在运行代码的当前工作目录中。你可以通过以下代码来获取当前工作目录:
import os

current_dir = os.getcwd()
print("当前工作目录:", current_dir)

如果你想要保存图片到指定路径,可以修改保存文件的路径。例如,将图片保存到桌面上的一个文件夹中,可以这样写:
import requests
import os

url = 'https://www.duitang.com/album/?id=112493872#!albumpics'
response = requests.get(url)

if response.status_code == 200:
    images = response.text.split('path":"')
    save_folder = os.path.join(os.path.expanduser("~"), "Desktop", "my_images")
    if not os.path.exists(save_folder):
        os.makedirs(save_folder)
        
    for image in images:
        image_url = image.split('"')[0]
        image_name = image_url.split('/')[-1]
        file_path = os.path.join(save_folder, image_name)
        
        image_response = requests.get(image_url)
        with open(file_path, 'wb') as f:
            f.write(image_response.content)
            print(f'{image_name} 下载完成')
else:
    print('获取页面内容失败')

这段代码将创建一个名为 "my_images" 的文件夹,并将图片保存在其中。你可以根据自己的需要修改保存路径和文件夹名称。

祝你好运!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-21 22:37

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表