鱼C论坛

 找回密码
 立即注册
楼主: Python小新人

[技术交流] 【作品展示】闲来无事做了个半自动获取妹子图的爬虫

  [复制链接]
发表于 2020-5-28 13:43:18 | 显示全部楼层
新手来学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-29 23:01:01 From FishC Mobile | 显示全部楼层
喜欢喜欢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-30 08:57:22 From FishC Mobile | 显示全部楼层
good
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-30 20:54:01 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-31 10:42:50 | 显示全部楼层
太强了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-31 21:35:37 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-2 20:27:42 | 显示全部楼层
666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-2 21:12:13 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-3 00:26:04 | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-4 09:38:01 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-4 11:11:28 | 显示全部楼层
开车了,滴滴滴~~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-4 12:25:57 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-4 18:06:35 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-5 22:37:39 | 显示全部楼层
111111
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-8 13:32:59 | 显示全部楼层
感谢分享
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 17:07:54 | 显示全部楼层
????/
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-14 20:02:02 | 显示全部楼层
很符合龟仙人的头像
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-14 20:34:25 | 显示全部楼层
2020.6.14随笔做了一个

import os
import urllib.request
import urllib.parse
import bs4
def open_url(url):
    req = urllib.request.Request(url)
    req.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36")
    response = urllib.request.urlopen(req)
    html = response.read()
    return html
#找出当前网页的下一页
def begin(url):
    html = open_url(url)
    html = html.decode("utf-8")
    soup=bs4.BeautifulSoup(html,"html.parser")
    temp=soup.find_all(class_="previous-comment-page")#class_="current-comment-page"
    print("begin")
    #print(temp)
    #print(temp[0].attrs["href"])
    return (temp[0].attrs["href"])

#找出当前网页的所有图片下载地址网址
def find_imgs(url_page):
    html = open_url(url_page).decode("utf-8")
    soup=bs4.BeautifulSoup(html,"html.parser")
    temp=soup.find_all("img",referrerpolicy="no-referrer")
    addrs=[]   
    for i in temp:
        print(i.attrs["src"])
        addrs.append(i.attrs["src"])
    print("find")
    return addrs
#保存图片
def save_imgs(img_addrs):  
    for i in img_addrs:
        url = "http:"+i
        html = open_url(url)
        name = url.split("/")[-1]
        with open(name,"wb") as f:
            f.write(html)
    print("save")

#初始网页   
url = "http://jandan.net/ooxx"   
def download(url,page=30):   
    path=os.getcwd()+"/aaa"
    os.mkdir(path)
    os.chdir(path)
    save_imgs(find_imgs(url))#url第一个网页下载图片
    #后续网页循环下载
    for i in range(page-1):
         url_page = "http:" + begin(url)
         save_imgs(find_imgs(url_page))
         url = url_page


if __name__ == "__main__":
    download(url)



想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-15 11:40:30 | 显示全部楼层
6
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-15 15:21:46 | 显示全部楼层
ddsds
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-26 14:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表