爬虫技术代码怎么爬取这个网站的图片
网址:https://www.duitang.com/album/?id=112493872#!albumpics 嘿,爬虫新手!爬取网站图片是个很有趣的任务。好消息是,Python中有很多强大的库可以帮助我们完成这个任务,其中一个就是 `requests` 库。首先,你需要安装 `requests` 库,可以通过以下命令在终端中安装:
pip install requests
完成安装后,你可以使用以下代码来爬取指定网站的图片:
import requests
# 设置目标网址
url = 'https://www.duitang.com/album/?id=112493872#!albumpics'
# 发送HTTP GET请求获取页面内容
response = requests.get(url)
# 获取页面内容成功
if response.status_code == 200:
# 在页面内容中查找图片链接
images = response.text.split('path":"')
# 下载图片
for image in images:
# 提取图片链接
image_url = image.split('"')
# 发送HTTP GET请求下载图片
image_response = requests.get(image_url)
# 获取图片文件名
image_name = image_url.split('/')[-1]
# 保存图片到本地
with open(image_name, 'wb') as f:
f.write(image_response.content)
print(f'{image_name} 下载完成')
else:
print('获取页面内容失败')
以上代码会从指定网址中下载所有的图片,并保存到当前工作目录下。注意,这段代码只能爬取当前页面的图片,如果要爬取更多页面的图片,需要对网站进行进一步解析和处理。
希望这段代码对你有帮助!开始爬虫之旅吧!
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 FishC 发表于 2024-1-5 16:50
嘿,爬虫新手!爬取网站图片是个很有趣的任务。好消息是,Python中有很多强大的库可以帮助我们完成这个任务 ...
这个保存到本地是哪个位置 黑脸艺术家 发表于 2024-01-05 16:52
这个保存到本地是哪个位置
很抱歉,我之前提到的保存位置并不明确。默认情况下,打开文件时所使用的路径是当前工作目录。如果你没有指定保存路径,那么图片将保存在运行代码的当前工作目录中。你可以通过以下代码来获取当前工作目录:
import os
current_dir = os.getcwd()
print("当前工作目录:", current_dir)
如果你想要保存图片到指定路径,可以修改保存文件的路径。例如,将图片保存到桌面上的一个文件夹中,可以这样写:
import requests
import os
url = 'https://www.duitang.com/album/?id=112493872#!albumpics'
response = requests.get(url)
if response.status_code == 200:
images = response.text.split('path":"')
save_folder = os.path.join(os.path.expanduser("~"), "Desktop", "my_images")
if not os.path.exists(save_folder):
os.makedirs(save_folder)
for image in images:
image_url = image.split('"')
image_name = image_url.split('/')[-1]
file_path = os.path.join(save_folder, image_name)
image_response = requests.get(image_url)
with open(file_path, 'wb') as f:
f.write(image_response.content)
print(f'{image_name} 下载完成')
else:
print('获取页面内容失败')
这段代码将创建一个名为 "my_images" 的文件夹,并将图片保存在其中。你可以根据自己的需要修改保存路径和文件夹名称。
祝你好运!
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
页:
[1]