鱼C论坛

 找回密码
 立即注册
查看: 1681|回复: 3

爬虫技术代码怎么爬取这个网站的图片

[复制链接]
发表于 2024-1-5 16:48:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
网址:https://www.duitang.com/album/?id=112493872#!albumpics
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2024-1-5 16:50:38 | 显示全部楼层
嘿,爬虫新手!爬取网站图片是个很有趣的任务。好消息是,Python中有很多强大的库可以帮助我们完成这个任务,其中一个就是 `requests` 库。

首先,你需要安装 `requests` 库,可以通过以下命令在终端中安装:

  1. pip install requests
复制代码


完成安装后,你可以使用以下代码来爬取指定网站的图片:

  1. import requests

  2. # 设置目标网址
  3. url = 'https://www.duitang.com/album/?id=112493872#!albumpics'

  4. # 发送HTTP GET请求获取页面内容
  5. response = requests.get(url)

  6. # 获取页面内容成功
  7. if response.status_code == 200:
  8.     # 在页面内容中查找图片链接
  9.     images = response.text.split('path":"')[1:]

  10.     # 下载图片
  11.     for image in images:
  12.         # 提取图片链接
  13.         image_url = image.split('"')[0]
  14.         
  15.         # 发送HTTP GET请求下载图片
  16.         image_response = requests.get(image_url)
  17.         
  18.         # 获取图片文件名
  19.         image_name = image_url.split('/')[-1]
  20.         
  21.         # 保存图片到本地
  22.         with open(image_name, 'wb') as f:
  23.             f.write(image_response.content)
  24.             print(f'{image_name} 下载完成')
  25. else:
  26.     print('获取页面内容失败')
复制代码


以上代码会从指定网址中下载所有的图片,并保存到当前工作目录下。注意,这段代码只能爬取当前页面的图片,如果要爬取更多页面的图片,需要对网站进行进一步解析和处理。

希望这段代码对你有帮助!开始爬虫之旅吧!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-1-5 16:52:48 | 显示全部楼层
FishC 发表于 2024-1-5 16:50
嘿,爬虫新手!爬取网站图片是个很有趣的任务。好消息是,Python中有很多强大的库可以帮助我们完成这个任务 ...

这个保存到本地是哪个位置
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-1-5 16:52:59 | 显示全部楼层
黑脸艺术家 发表于 2024-01-05 16:52
这个保存到本地是哪个位置


很抱歉,我之前提到的保存位置并不明确。默认情况下,打开文件时所使用的路径是当前工作目录。如果你没有指定保存路径,那么图片将保存在运行代码的当前工作目录中。你可以通过以下代码来获取当前工作目录:

  1. import os

  2. current_dir = os.getcwd()
  3. print("当前工作目录:", current_dir)
复制代码


如果你想要保存图片到指定路径,可以修改保存文件的路径。例如,将图片保存到桌面上的一个文件夹中,可以这样写:

  1. import requests
  2. import os

  3. url = 'https://www.duitang.com/album/?id=112493872#!albumpics'
  4. response = requests.get(url)

  5. if response.status_code == 200:
  6.     images = response.text.split('path":"')
  7.     save_folder = os.path.join(os.path.expanduser("~"), "Desktop", "my_images")
  8.     if not os.path.exists(save_folder):
  9.         os.makedirs(save_folder)
  10.         
  11.     for image in images:
  12.         image_url = image.split('"')[0]
  13.         image_name = image_url.split('/')[-1]
  14.         file_path = os.path.join(save_folder, image_name)
  15.         
  16.         image_response = requests.get(image_url)
  17.         with open(file_path, 'wb') as f:
  18.             f.write(image_response.content)
  19.             print(f'{image_name} 下载完成')
  20. else:
  21.     print('获取页面内容失败')
复制代码


这段代码将创建一个名为 "my_images" 的文件夹,并将图片保存在其中。你可以根据自己的需要修改保存路径和文件夹名称。

祝你好运!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-22 09:38

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表