鱼C论坛

 找回密码
 立即注册
楼主: liuhongrun2022

[技术交流] 【鱼币】python批量爬取k站(konachan)上的图片

[复制链接]
发表于 2023-9-24 17:11:27 | 显示全部楼层
1111
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-25 19:16:12 | 显示全部楼层
66
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-25 19:17:04 | 显示全部楼层
99
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-25 22:30:06 | 显示全部楼层
liuhongrun2022 发表于 2023-9-3 10:46
自占前排,求评分qwq

@学习编程中的Ben @歌者文明清理员 @Mike_python小 @陶远航 @zhangjinxuan @Ewan-A ...

白嫖
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-26 11:54:01 | 显示全部楼层
隐藏内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-26 17:08:56 | 显示全部楼层

回帖奖励 +4 鱼币

来取真经
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-27 10:09:27 | 显示全部楼层
試試看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-27 15:21:39 | 显示全部楼层
kk
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-27 20:37:26 | 显示全部楼层

回帖奖励 +4 鱼币

tql
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-27 21:47:23 | 显示全部楼层
6
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-27 23:32:23 | 显示全部楼层
  1. import os
  2. import requests
  3. import urllib3
  4. from bs4 import BeautifulSoup
  5. import random
  6. import string

  7. """
  8. 主要是批量获取konachan.net的图(斯哈斯哈)
  9. 没有做多线程
  10. """

  11. headers = {
  12.     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",
  13. }

  14. # 忽略 InsecureRequestWarning 警告
  15. urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

  16. def getContent(url):
  17.     req = requests.get(url, headers=headers)
  18.     req.encoding = 'utf-8'
  19.     html = req.text
  20.     return html

  21. def getAllImageContentUrls(html):
  22.     ImageContentUrls = []
  23.     soup = BeautifulSoup(html, 'html.parser')
  24.     thumb_links = soup.find_all('a', class_='thumb')
  25.     for link in thumb_links:
  26.         href_value = link['href']
  27.         imageContentUrl = "https" + "://konachan.net/" + href_value
  28.         ImageContentUrls.append(imageContentUrl)
  29.     return ImageContentUrls

  30. def getImageUrl(html):
  31.     soup = BeautifulSoup(html, 'html.parser')
  32.     imageUrl = soup.find('link', rel='image_src').get('href')
  33.     return imageUrl


  34. def downloadImage(url,path):
  35.     response  = requests.get(url, headers=headers)
  36.     if response.status_code == 200:
  37.         characters = string.digits + string.ascii_letters
  38.         random_code = ''.join(random.choice(characters) for _ in range(5))
  39.         file_extension = os.path.splitext(url)[1]
  40.         fileName = random_code + file_extension
  41.         save_path = path + fileName
  42.         os.makedirs(os.path.dirname(save_path), exist_ok=True)
  43.         with open(save_path, 'wb') as file:
  44.             file.write(response.content)
  45.         file.close()
  46.         print("保存地址:{}".format(save_path))

  47. def getImageUrls(ImageContentUrls):
  48.     imageUrls = []
  49.     for i in ImageContentUrls:
  50.         html = getContent(i)
  51.         imageUrl  =getImageUrl(html)
  52.         imageUrls.append(imageUrl)
  53.     return imageUrls

  54. if __name__ == '__main__':

  55.     """important"""
  56.     print("开始")
  57.     count = 0

  58.     #开始页面
  59.     startPage = 10
  60.     #结束页面
  61.     endPage = 11
  62.     #保存地址
  63.     path = "D:\\seseimage\"

  64.     for i in range(startPage,endPage + 1):
  65.         url = "https:" + "//konachan.net/post?page=" + str(i)
  66.         imageContentUrls = getAllImageContentUrls(getContent(url))
  67.         imageUrls = getImageUrls(imageContentUrls)
  68.         for j in imageUrls:
  69.             downloadImage(j,path)
  70.             count = count + 1
  71.     print("下载完成,共{}张".format(count))


复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-28 09:38:17 | 显示全部楼层
源代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-28 13:54:02 | 显示全部楼层
代码看懂了,关掉自己写又是一脸的懵逼
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-1 13:25:25 | 显示全部楼层
我看看,什么是k站
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-1 16:48:49 | 显示全部楼层

回帖奖励 +4 鱼币

我要白嫖育碧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-3 10:04:33 | 显示全部楼层

回帖奖励 +4 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-10-18 23:21:14 | 显示全部楼层

代码能跑但是下载0张
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-22 23:26:33 | 显示全部楼层
C#能爬虫嘛?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-23 11:30:50 | 显示全部楼层
鱼币
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-11-23 15:55:25 | 显示全部楼层
+4 鱼币
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-18 11:04

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表