鱼C论坛

 找回密码
 立即注册
查看: 1777|回复: 4

关于一个return函数的问题

[复制链接]
发表于 2020-8-9 04:51:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
写了一个用selenium爬取漫画的程序,但是各函数传递参数是很多用的是列表(只是因为有一个命名没有想出好办法),但是image_loc函数中的be_need没有办法正确传出参数(因为这个be_need的值在函数中是一个循环里的值,当然没法弄出来{然后我又想着说把be_nee在做一个列表(但是那样就没办法实时看到图片有没有被下载)})希望大佬们给点改进这个代码的意见,还有小白想问下大佬们是如何把list循环中的结果传出的(我现在基本就是list.append,传个列表出来,然后再遍历,好像没什么好办法)
小白写的破烂代码,大佬轻喷(只是第一章的内容爬取)
from selenium import webdriver
from lxml import etree
import time
import os
import requests


##文件夹创建
if os.path.exists("F:\python7"):
    pass
else:
    os.mkdir("F:\python7")


##图片储存函数
def save_image (be_need,listm):
    for m in listm:
        need = requests.get(be_need)
        with open(f"F:\python7/{m}.jpg","wb") as f:
            f.write(need.content)


##获取url对应的图片地址
def image_loc(listurl):
    for url in listurl:
        driver=webdriver.Firefox()
        get_=driver.get(url)
        html=driver.page_source
        time.sleep(2)
        a=str(html).find("http://image.mangabz.com")
        b=str(html).find('" style="cursor: ')
        be_need=str(html)[a:b]
        #print(be_need)
        #print(f"获取网页{be_need}")
        driver.close()
    return (be_need)


##生成正确的url
def url_make(a,b):
    url_f="http://www.mangabz.com/m19"
    url_add1=str(a)+"/"
    listm=[]
    listurl=[]
    for i in range(1,b+1):
        url_add2="#ipg"+str(i)
        listm.append(i)
        listurl.append(url_f+url_add1+url_add2)
    return listurl,listm
listurl,listm=url_make(894,44)
print(f"已生成所要爬取列表{listurl}")
beneed=image_loc(listurl)
print(f"测试输出{beneed}")
save_image(beneed,listm)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 08:18:47 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-9 22:52:52 | 显示全部楼层
class mangabz:
    url = "http://image.mangabz.com/1/430/19894/{}" # {}缺少页码编号
    jpg_params = {
        "cid": "19894",
        "key": "40b7dead39f489ec4b0c2212e793b1f2",
        "uk": ""
    }

    ajax_api = "http://www.mangabz.com/m19894/chapterimage.ashx?"
    api_params = {
        "cid": "19894",
        "page": "0",
        "key": "",
        "_cid": "19894",
        "_mid": "430",
        "_dt": "2020-08-09 21:46:28",
        "_sign": "2c617649c5b75aefa56a28c91cd6ad1c"
    }

    def get_nex_page(self, page):
        # 根据页码,获取当前页码的编号,以及下一个页码的编码
        self.api_params["page"] = page
        response = requests.get(self.ajax_api, params=self.api_params)
        pages = re.findall("\d{1,2}_\d{4,5}", response.text)
        self.pt_jpg_url(pages)

    def pt_jpg_url(self, pages):
        on, next = pages
        print(self.url.format(on))
        print(self.url.format(next))


if __name__ == '__main__':
    t = mangabz()
    t.get_nex_page(1)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-10 10:37:33 | 显示全部楼层
所以,问题是???
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-10 23:31:47 | 显示全部楼层
陈尚涵 发表于 2020-8-10 10:37
所以,问题是???

所以我的问题是,函数中有一个循环,但是循环不结束是无法返回函数遍历的所有值的,就是说return最后会返回最后一次赋值的值。我想要他返回所有的个体,所以我说我原来是在循环中进行append操作最后return列表,
但是我想要他返回每一次的个体,就是在函数输入一个列表,然后函数负责对列表中的元素进行操作后,持续返回操作后的每个个体(小白表述能力真的不好,希望能被理解)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-19 11:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表