鱼C论坛

 找回密码
 立即注册
楼主: liuhongrun2022

[技术交流] 【鱼币】python批量爬取k站(konachan)上的图片

[复制链接]
发表于 2023-9-24 17:11:27 | 显示全部楼层
1111
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-25 19:16:12 | 显示全部楼层
66
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-25 19:17:04 | 显示全部楼层
99
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-25 22:30:06 | 显示全部楼层
liuhongrun2022 发表于 2023-9-3 10:46
自占前排,求评分qwq

@学习编程中的Ben @歌者文明清理员 @Mike_python小 @陶远航 @zhangjinxuan @Ewan-A ...

白嫖
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-26 11:54:01 | 显示全部楼层
隐藏内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-26 17:08:56 | 显示全部楼层

回帖奖励 +4 鱼币

来取真经
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-27 10:09:27 | 显示全部楼层
試試看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-27 15:21:39 | 显示全部楼层
kk
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-27 20:37:26 | 显示全部楼层

回帖奖励 +4 鱼币

tql
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-27 21:47:23 | 显示全部楼层
6
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-27 23:32:23 | 显示全部楼层
import os
import requests
import urllib3
from bs4 import BeautifulSoup
import random
import string

"""
主要是批量获取konachan.net的图(斯哈斯哈)
没有做多线程
"""

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",
}

# 忽略 InsecureRequestWarning 警告
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

def getContent(url):
    req = requests.get(url, headers=headers)
    req.encoding = 'utf-8'
    html = req.text
    return html

def getAllImageContentUrls(html):
    ImageContentUrls = []
    soup = BeautifulSoup(html, 'html.parser')
    thumb_links = soup.find_all('a', class_='thumb')
    for link in thumb_links:
        href_value = link['href']
        imageContentUrl = "https" + "://konachan.net/" + href_value
        ImageContentUrls.append(imageContentUrl)
    return ImageContentUrls

def getImageUrl(html):
    soup = BeautifulSoup(html, 'html.parser')
    imageUrl = soup.find('link', rel='image_src').get('href')
    return imageUrl


def downloadImage(url,path):
    response  = requests.get(url, headers=headers)
    if response.status_code == 200:
        characters = string.digits + string.ascii_letters
        random_code = ''.join(random.choice(characters) for _ in range(5))
        file_extension = os.path.splitext(url)[1]
        fileName = random_code + file_extension
        save_path = path + fileName
        os.makedirs(os.path.dirname(save_path), exist_ok=True)
        with open(save_path, 'wb') as file:
            file.write(response.content)
        file.close()
        print("保存地址:{}".format(save_path))

def getImageUrls(ImageContentUrls):
    imageUrls = []
    for i in ImageContentUrls:
        html = getContent(i)
        imageUrl  =getImageUrl(html)
        imageUrls.append(imageUrl)
    return imageUrls

if __name__ == '__main__':

    """important"""
    print("开始")
    count = 0

    #开始页面
    startPage = 10
    #结束页面
    endPage = 11
    #保存地址
    path = "D:\\seseimage\"

    for i in range(startPage,endPage + 1):
        url = "https:" + "//konachan.net/post?page=" + str(i)
        imageContentUrls = getAllImageContentUrls(getContent(url))
        imageUrls = getImageUrls(imageContentUrls)
        for j in imageUrls:
            downloadImage(j,path)
            count = count + 1
    print("下载完成,共{}张".format(count))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-28 09:38:17 | 显示全部楼层
源代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-28 13:54:02 | 显示全部楼层
代码看懂了,关掉自己写又是一脸的懵逼
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-1 13:25:25 | 显示全部楼层
我看看,什么是k站
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-1 16:48:49 | 显示全部楼层

回帖奖励 +4 鱼币

我要白嫖育碧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-3 10:04:33 | 显示全部楼层

回帖奖励 +4 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-10-18 23:21:14 | 显示全部楼层

代码能跑但是下载0张
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-22 23:26:33 | 显示全部楼层
C#能爬虫嘛?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-23 11:30:50 | 显示全部楼层
鱼币
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-11-23 15:55:25 | 显示全部楼层
+4 鱼币
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-16 06:49

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表