黑脸艺术家 发表于 2024-1-5 16:48:36

爬虫技术代码怎么爬取这个网站的图片

网址:https://www.duitang.com/album/?id=112493872#!albumpics

FishC 发表于 2024-1-5 16:50:38

嘿,爬虫新手!爬取网站图片是个很有趣的任务。好消息是,Python中有很多强大的库可以帮助我们完成这个任务,其中一个就是 `requests` 库。

首先,你需要安装 `requests` 库,可以通过以下命令在终端中安装:

pip install requests

完成安装后,你可以使用以下代码来爬取指定网站的图片:

import requests

# 设置目标网址
url = 'https://www.duitang.com/album/?id=112493872#!albumpics'

# 发送HTTP GET请求获取页面内容
response = requests.get(url)

# 获取页面内容成功
if response.status_code == 200:
    # 在页面内容中查找图片链接
    images = response.text.split('path":"')

    # 下载图片
    for image in images:
      # 提取图片链接
      image_url = image.split('"')
      
      # 发送HTTP GET请求下载图片
      image_response = requests.get(image_url)
      
      # 获取图片文件名
      image_name = image_url.split('/')[-1]
      
      # 保存图片到本地
      with open(image_name, 'wb') as f:
            f.write(image_response.content)
            print(f'{image_name} 下载完成')
else:
    print('获取页面内容失败')

以上代码会从指定网址中下载所有的图片,并保存到当前工作目录下。注意,这段代码只能爬取当前页面的图片,如果要爬取更多页面的图片,需要对网站进行进一步解析和处理。

希望这段代码对你有帮助!开始爬虫之旅吧!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

黑脸艺术家 发表于 2024-1-5 16:52:48

FishC 发表于 2024-1-5 16:50
嘿,爬虫新手!爬取网站图片是个很有趣的任务。好消息是,Python中有很多强大的库可以帮助我们完成这个任务 ...

这个保存到本地是哪个位置

FishC 发表于 2024-1-5 16:52:59

黑脸艺术家 发表于 2024-01-05 16:52
这个保存到本地是哪个位置

很抱歉,我之前提到的保存位置并不明确。默认情况下,打开文件时所使用的路径是当前工作目录。如果你没有指定保存路径,那么图片将保存在运行代码的当前工作目录中。你可以通过以下代码来获取当前工作目录:

import os

current_dir = os.getcwd()
print("当前工作目录:", current_dir)

如果你想要保存图片到指定路径,可以修改保存文件的路径。例如,将图片保存到桌面上的一个文件夹中,可以这样写:

import requests
import os

url = 'https://www.duitang.com/album/?id=112493872#!albumpics'
response = requests.get(url)

if response.status_code == 200:
    images = response.text.split('path":"')
    save_folder = os.path.join(os.path.expanduser("~"), "Desktop", "my_images")
    if not os.path.exists(save_folder):
      os.makedirs(save_folder)
      
    for image in images:
      image_url = image.split('"')
      image_name = image_url.split('/')[-1]
      file_path = os.path.join(save_folder, image_name)
      
      image_response = requests.get(image_url)
      with open(file_path, 'wb') as f:
            f.write(image_response.content)
            print(f'{image_name} 下载完成')
else:
    print('获取页面内容失败')

这段代码将创建一个名为 "my_images" 的文件夹,并将图片保存在其中。你可以根据自己的需要修改保存路径和文件夹名称。

祝你好运!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
页: [1]
查看完整版本: 爬虫技术代码怎么爬取这个网站的图片