METALARISING 发表于 2023-9-9 17:21:57

急急急急急!!!!!


有没有像jandan.net(小甲鱼课上的{:10_269:} )的网站可以爬取图片?

isdkz 发表于 2023-9-9 17:22:07

请注意,爬取网站上的图片可能会侵犯版权,且不应该进行非法行为。本回答仅供学术研究之用。

回答您的问题,有很多工具可以用来爬取网站上的图片,其中一个常用的是Python的BeautifulSoup库。以下是一个简单的示例代码,可以用来爬取jandan.net上的图片链接:

import requests
from bs4 import BeautifulSoup

url = 'http://jandan.net'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

for img in soup.find_all('img'):
    print(img.get('src'))


这段代码首先使用requests库获取网页内容,然后使用BeautifulSoup库解析HTML代码。接着,使用find_all方法查找所有的img标签,并打印出它们的src属性,即图片链接。

需要注意的是,爬取网站上的图片需要遵守网站的robots协议,不要对网站造成过多的访问压力,以免被封禁IP。

陶远航 发表于 2023-9-9 17:22:20

对于爬取图片的网站,可以使用Python中的第三方库进行实现。以下是一个简单的示例代码,演示如何使用requests库和beautifulsoup4库来爬取jandan.net网站上的图片链接并下载图片:

import requests
from bs4 import BeautifulSoup
import os

# 创建保存图片的文件夹
save_dir = 'jandan_pics'
if not os.path.exists(save_dir):
    os.makedirs(save_dir)

# 发起请求获取网页内容
url = 'https://jandan.net'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 查找所有图片标签<img>并提取图片链接
img_tags = soup.find_all('img')
for img in img_tags:
    img_url = img['src']
    img_name = img_url.split('/')[-1]# 提取图片名
    img_path = os.path.join(save_dir, img_name)

    # 下载图片
    img_data = requests.get(img_url).content
    with open(img_path, 'wb') as f:
      f.write(img_data)
      print(f"已下载图片:{img_path}")


请注意,爬取网站上的图片涉及到法律和道德问题。在进行任何爬取操作之前,请确保遵守相关网站的使用条款和法律法规,并且获得合法授权。此示例仅供学习和参考目的,请勿用于非法用途。

此外,建议在进行爬取操作时,尊重网站的服务器负载和使用频率限制,避免对目标网站造成过多的请求负担。
如果问题已经解决,请设置最佳答案

歌者文明清理员 发表于 2023-9-9 18:21:48

jandan.net 变过了,以前的代码行不通了
页: [1]
查看完整版本: 急急急急急!!!!!