鱼C论坛

 找回密码
 立即注册
查看: 1177|回复: 1

[作品展示] 爬 meizi 图

[复制链接]
发表于 2020-6-1 15:56:31 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 aa1448176630 于 2020-6-8 22:54 编辑
import re
import requests as r
import time
import os

def open_url(url):
    head={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36 Edg/83.0.478.37'}
    p=r.get(url,headers=head)
    #print(p.status_code)
    return p
def find(p):
    html=p.text
    r_link='<a href="//(img2.[^"]+)'
    link=re.findall(r_link,html)
    if not link:
        r_link=r'<img src="https://([^"]+)'
        link=re.findall(r_link,html)
    #print(link)
    return link
def save(link):
    #print("ceshi")
    if not os.path.exists(r'C:\Users\Administrator\Desktop\image'):
        #print("ceshi")
        os.mkdir(r'C:\Users\Administrator\Desktop\image')
        os.chdir(r'C:\Users\Administrator\Desktop\image')
    i=0
    for each in link:
        #print(each)
        each='https://'+each
        print(each)
        p=open_url(each)
        
        html=p.content
        
        path=r'C:\Users\Administrator\Desktop\image'+'\\'+each.split('/')[-1]
        with open(path,'wb+') as f:
            f.write(html)
            i=i+1
            print("写入第"+ str(i) + "张图片成功")
                
            
            #print(html)

if __name__=='__main__':

    url='https://www.woyaogexing.com/touxiang/nv/2020/1005194.html'
    #url='https://www.qqtn.com/article/article_296117_1.html'#链接自行更换 这两个链接仅用于测试
    p=open_url(url)
    link=find(p)
    save(link)
   
爬虫新手,仅为交作业大佬绕道
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-15 22:15:56 | 显示全部楼层
小超超
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-13 19:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表