一个列表推导式的错误（代码内含爬虫）

磊之茶 · 发表于 2021-8-17 15:39:50

您需要登录才可以下载或查看，没有账号？立即注册

x

代码：

from bs4 import BeautifulSoup
import requests as re
headers={}
headers["User-Agent"]="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73"
web = None
soup = None
page_url = ["https://movie.douban.com/top250"]
def fulsh(url_name=''):
global web,soup
web = re.get(url_name,headers=headers)
soup = BeautifulSoup(web.text,"html.parser")
def find():
a=soup.find_all("div",class_="hd")
name=[x.a.span.text for x in [x for x in a]]
b = soup.find_all("div",class_="bd")
writer = [x.p.text.strip()\
.replace("\n",'').replace("\t",'').replace(" ",'').replace("\xa0",'')\
for x in [x for x in b]][1:]
c = soup.find_all("p",class_="quote")
world = [x.span.text for x in [x for x in c]]
b = (name,writer,world)
return [(name[x]+' ',writer[x]+' ',world[x]) for x in range(len(name))]
#return [(b[0][x]+' ',b[1][x]+' ',b[2][x]+' ') for x in range(len(b[0]))]
def main():
global page_url
return_=[]
fulsh(page_url[0])
page_url.extend([''.join(["https://movie.douban.com/top250",x.attrs['href']]) for x in soup.find_all("div",class_="paginator")[0].find_all("a")])
for i in page_url:
fulsh(i)
return_.extend(find())
retrun_='\n'.join(return_)
return return_
if __name__ == '__main__':
main()

复制代码

报错代码：

复制代码

本人python版本是3.8和3.9

z5560636 · 发表于 2021-8-17 15:56:47

列表超出索引了。

复制代码

索引用的全部是x？是否长度会不一样？

wp231957 · 发表于 2021-8-17 16:18:32

最基本的排错方法，发现哪个列表索引超出范围
就在生成该列表之后，使用该列表之前 print一下，看看是否是空列表或者真的超索引了

磊之茶 · 发表于 2021-8-17 16:29:18

wp231957 发表于 2021-8-17 16:18
最基本的排错方法，发现哪个列表索引超出范围
就在生成该列表之后，使用该列表之前 print一下，看看是否 ...

不是，列表没问题，都是25，我自己导出来之后就没问题，但在函数里执行就有问题，不信你自己试试

账号		自动登录	找回密码
密码			立即注册