爬虫技术代码怎么爬取这个网站的图片,Python交流,编程语言专区,鱼C论坛

黑脸艺术家 发表于 2024-1-5 16:48:36

爬虫技术代码怎么爬取这个网站的图片

网址：https://www.duitang.com/album/?id=112493872#!albumpics

FishC 发表于 2024-1-5 16:50:38

嘿，爬虫新手！爬取网站图片是个很有趣的任务。好消息是，Python中有很多强大的库可以帮助我们完成这个任务，其中一个就是 `requests` 库。

首先，你需要安装 `requests` 库，可以通过以下命令在终端中安装：

pip install requests

完成安装后，你可以使用以下代码来爬取指定网站的图片：

import requests

# 设置目标网址
url = 'https://www.duitang.com/album/?id=112493872#!albumpics'

# 发送HTTP GET请求获取页面内容
response = requests.get(url)

# 获取页面内容成功
if response.status_code == 200:
# 在页面内容中查找图片链接
images = response.text.split('path":"')

# 下载图片
for image in images:
   # 提取图片链接
   image_url = image.split('"')

   # 发送HTTP GET请求下载图片
   image_response = requests.get(image_url)

   # 获取图片文件名
   image_name = image_url.split('/')[-1]

   # 保存图片到本地
   with open(image_name, 'wb') as f:
         f.write(image_response.content)
         print(f'{image_name} 下载完成')
else:
print('获取页面内容失败')

以上代码会从指定网址中下载所有的图片，并保存到当前工作目录下。注意，这段代码只能爬取当前页面的图片，如果要爬取更多页面的图片，需要对网站进行进一步解析和处理。

希望这段代码对你有帮助！开始爬虫之旅吧！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

黑脸艺术家 发表于 2024-1-5 16:52:48

FishC 发表于 2024-1-5 16:50
嘿，爬虫新手！爬取网站图片是个很有趣的任务。好消息是，Python中有很多强大的库可以帮助我们完成这个任务 ...

这个保存到本地是哪个位置

FishC 发表于 2024-1-5 16:52:59

黑脸艺术家发表于 2024-01-05 16:52
这个保存到本地是哪个位置

很抱歉，我之前提到的保存位置并不明确。默认情况下，打开文件时所使用的路径是当前工作目录。如果你没有指定保存路径，那么图片将保存在运行代码的当前工作目录中。你可以通过以下代码来获取当前工作目录：

import os

current_dir = os.getcwd()
print("当前工作目录：", current_dir)

如果你想要保存图片到指定路径，可以修改保存文件的路径。例如，将图片保存到桌面上的一个文件夹中，可以这样写：

import requests
import os

url = 'https://www.duitang.com/album/?id=112493872#!albumpics'
response = requests.get(url)

if response.status_code == 200:
images = response.text.split('path":"')
save_folder = os.path.join(os.path.expanduser("~"), "Desktop", "my_images")
if not os.path.exists(save_folder):
   os.makedirs(save_folder)

for image in images:
   image_url = image.split('"')
   image_name = image_url.split('/')[-1]
   file_path = os.path.join(save_folder, image_name)

   image_response = requests.get(image_url)
   with open(file_path, 'wb') as f:
         f.write(image_response.content)
         print(f'{image_name} 下载完成')
else:
print('获取页面内容失败')

这段代码将创建一个名为 "my_images" 的文件夹，并将图片保存在其中。你可以根据自己的需要修改保存路径和文件夹名称。

祝你好运！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

页: [1]

鱼C论坛's Archiver

爬虫技术代码怎么爬取这个网站的图片