鱼C论坛

 找回密码
 立即注册
查看: 2974|回复: 4

[技术交流] python爬取小姐姐的图片

[复制链接]
发表于 2021-8-16 17:13:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 小菜鸟FLY 于 2021-8-16 17:18 编辑
  1. import urllib.request
  2. import re
  3. import os

  4. folder = 'photo_pa_chong_mm2'
  5. os.mkdir(folder)#创建当前目录
  6. os.chdir(folder)#修改当前文件夹,变为当前工作目录



  7. for num in range(17):
  8.     if num>0:
  9.         url = "https://www.jpxgmn.top/MiiTao/MiiTao13958_"+str(num)+".html"

  10.         req = urllib.request.Request(url)
  11.         req.add_header('User_Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3868.400 QQBrowser/10.8.4394.400')
  12.         page = urllib.request.urlopen(req)
  13.         html = page.read().decode('UTF-8')

  14.         #/uploadfile/202005/4/4121555610.jpg
  15.         p = r'/uploadfile/.+?jpg'
  16.         name = re.findall(p,html)
  17.         for i in name:
  18.             site = "https://jp.plmn5.com"+str(i)

  19.             req2 = urllib.request.Request(site)
  20.             req2.add_header('User_Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3868.400 QQBrowser/10.8.4394.400')
  21.             page2= urllib.request.urlopen(req2)
  22.             photo = page2.read()
  23.             filename = i.split("/")[-1]
  24.             with open(filename,'wb') as f:
  25.                 f.write(photo)

复制代码
代码美中不足的是对于不同页只能找规律去下载,用正则表达式能够找到地址,但是无法再次获得网页的源代码,大神来优化优化,直接从网址的第一页下载不同的小姐姐。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-4-9 12:37:59 | 显示全部楼层
为什么我没报错,但也没执行成功
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-10-24 18:13:15 | 显示全部楼层
小菜鸟FLY 发表于 2021-8-16 17:20
我还是一个小萌新,请大佬提出宝贵的意见!

了解一下asyncio和aiohttp,异步爬取,速度直接翻百倍~
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-16 17:20:45 | 显示全部楼层
我还是一个小萌新,请大佬提出宝贵的意见!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-16 17:20:02 | 显示全部楼层
这个可以直接用
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-29 08:35

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表