鱼C论坛

 找回密码
 立即注册
查看: 2257|回复: 3

[技术交流] 2020年4月 煎蛋网爬图,根据小甲鱼的教程实现(增加了base64 解码)

[复制链接]
发表于 2020-4-2 12:26:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 alongtheway 于 2020-4-2 14:41 编辑

import base64
import urllib.request
import os
import time


# page 为起始页码,i为覆盖范围
def get_url(page,i):
    url_list=[]
    for i in range(i):
        temp="20200402-"+str(int(page)-i) #此处 需要改成当日时间, 编写此代码时间为 2020年4月2日 因此得到 20200402
        temp2=base64.b64encode(temp.encode()).decode()
        url="http://jandan.com/ooxx/"+temp2+"#comments"
        url_list.append(url)
    return url_list

def get_html(url):
    req=urllib.request.Request(url)
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0")
    response=urllib.request.urlopen(req)
    html=response.read()
    return html

def get_img(html):
    html=html.decode("utf-8")
    img_list=[]
    a=html.find("large")

    while a!=-1:
        b=html.find(".jpg", a, a+255)
        if b!=-1:
            temp=html[a:b+4]
            img_url="http://wx1.sinaimg.cn/"+temp
            img_list.append(img_url)
        else:
            b=a+20
        a=html.find("large",b)
    return img_list

def save_img(imgs):
   
    for each in imgs:
        img=get_html(each)
        name=each.split("/")[-1]
        with open(name, "wb") as f:
            f.write(img)
            print(name)

def start():
    os.mkdir("OOXX-2")
    os.chdir("OOXX-2")
    url_list=get_url(150,30)#从150页开始,往下走30页
    for url in url_list:
        html=get_html(url)
        imgs=get_img(html)
        save_img(imgs)
        time.sleep(1)
        print( url)
   
if __name__=="__main__":
    start()
   
      
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-25 10:38:43 | 显示全部楼层
赞!学到了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-14 16:39:14 | 显示全部楼层
xiexei
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-2-5 18:16:14 | 显示全部楼层
感谢大佬
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-19 06:30

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表