[已解决]关于爬豆瓣TOP250电影的问题 IndexError: list index out of range

helloTOM · 发表于 2018-4-29 02:31:15

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 helloTOM 于 2018-5-6 21:55 编辑

简单浏览了一下小甲鱼的爬豆瓣课程没看小怎么看甲鱼写的代码自己写的渣代码日常出问题不过没关系代码贴上希望指点

最新更新（5.4）虽然遇到了比较多的问题还是自己解决了（原代码看似清晰有条理不过过于冗杂爬取一页过多的调用了url（我加了个测试代码爬一页大概要调用url 50-100次我的天！！！

豆瓣不把我封了才怪）后来将原来爬的电影名字信息评分简热评集成到了一个函数这下可以了豆瓣服务器君不封我的ip了我测试了下爬十页调用url10次不过又出现了错误：IndexError: list index out of range WTF!!!!!!!!!!什么情况？？？？

原来我爬的简热评里有两部电影没有简热评。。。。才会出现这类情况于是加了简单的渣代码便可以如期运行了！！！！！！（代码见评论区）

更新一波：今天我又试了一下我的代码居然可以爬到第五页（平时都是到第四页就报这个错误不过今天报错后我浏览豆瓣网页是直接说403。。。平时都是：检测到有异常请求从你的 IP 发出，请登录使用豆瓣。我觉得我的代码应该没有问题，问题应该是豆瓣那边给我禁了过会用一下代理IP池再试试（反正也不知道还有什么好办法了。。。。

））

import requests
import bs4
def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
res = requests.get(url,headers=headers)
soup = bs4.BeautifulSoup(res.text,"html.parser")
return soup
def movices_name(url):
name = []
targets = open_url(url).find_all("div",class_="hd")
for each in targets:
name.append(each.a.span.text)
return name
def movices_information(url):
information = []
targets = open_url(url).find_all("div",class_="bd")
for each in targets:
information.append(each.p.text)
del information[0]
return information
def movices_score(url):
score = []
targets = open_url(url).find_all("span",class_="rating_num")
for each in targets:
score.append(each.text)
return score
def movices_hotcomment(url):
hotcomment = []
targets = open_url(url).find_all("span",class_="inq")
for each in targets:
hotcomment.append(each.text)
return hotcomment
def download_top(url):
result = []
numbers = len(movices_name(url))
for i in range(numbers):
result.extend(" "+movices_name(url)[i]+" "+movices_information(url)[i]+" "+movices_score(url)[i]+" "+movices_hotcomment(url)[i]+"\n\n")
with open("豆瓣TOP250电影一览.txt","a",encoding = "utf-8") as f:
for each in result:
f.write(each)
def main():
count = 0
while count<10:
print("正在爬取第%s页" %str(count+1))
url = "https://movie.douban.com/top250" + "?start="+str(25 * count)
download_top(url)
count +=1
print("已经爬取第%s页" %str(count))
if __name__ == "__main__":
main()

复制代码

两个问题：
1.程序报错不知道怎么解决  报错为：line 47, in download_top
result.extend("                      "+movices_name(url)+"  "+movices_information(url)+" "+movices_score(url)+"  "+movices_hotcomment(url)+"\n\n")
IndexError: list index out of range
2.感觉我的代码运行好慢啊我事后试了一下小甲鱼老师的代码感觉他的代码运行的挺快的。  我想知道我们的代码我对比了一下差别不算大啊  为啥效率不一样呢？

最佳答案
月排行榜 / 总排行榜

galaxybamboo

2018-4-29 07:02:28

报错为列表取值超出index范围了，应该是你的哪个索引没有取到值

跳转到最佳答案楼层

galaxybamboo · 发表于 2018-4-29 07:02:28

这个最佳答案由 galaxybamboo 给出，感谢 galaxybamboo 的回答。

单击隐藏图章

报错为列表取值超出index范围了，应该是你的哪个索引没有取到值

helloTOM · 发表于 2018-4-29 11:51:57

galaxybamboo 发表于 2018-4-29 07:02
报错为列表取值超出index范围了，应该是你的哪个索引没有取到值

应该不是吧因为我用我自己写的代码都可以正常爬取前三页不知道为什么到第四页就报错了而且报错后我打开豆瓣TOP250就告诉我：检测到有异常请求从你的 IP 发出，请登录使用豆瓣。而小甲鱼老师的代码就完全没有任何问题不知道问什么呢？

helloTOM · 发表于 2018-4-29 16:10:46

helloTOM · 发表于 2018-4-29 22:32:02

等待ing

helloTOM · 发表于 2018-4-30 17:18:44

helloTOM · 发表于 2018-5-4 21:09:27

import requests
import bs4
def open_url(url):
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
"Referer":"https://movie.douban.com/top250"
}
res = requests.get(url,headers=headers)
soup = bs4.BeautifulSoup(res.text,"html.parser")
#print("服务器君要爆炸了！！！！！")
return soup
def movices_name_information_score_hotcomment(soup,count):
name = []
information = []
score = []
hotcomment = []
result = []
movice_name = soup.find_all("div",class_="hd")
for each in movice_name:
name.append(each.a.span.text.strip())
movice_information = soup.find_all("div",class_="bd")
for each in movice_information:
information.append(each.p.text.strip())
del information[0]
movice_score = soup.find_all("span",class_="rating_num")
for each in movice_score:
score.append(each.text.strip())
movice_hotcomment = soup.find_all("span",class_="inq")
for each in movice_hotcomment:
hotcomment.append(each.text.strip())
if count==7:
hotcomment.insert(14,"无简评")
if count==9:
hotcomment.insert(22,"无简评")
numbers = len(name)
for i in range(numbers):
result.extend(name[i]+information[i]+score[i]+"\n"+hotcomment[i]+"\n\n")
return result
def download_top(result):
with open("豆瓣TOP250电影一览.txt","a",encoding = "utf-8") as f:
for each in result:
f.write(each)
def main():
count = 0
while count<10:
print("正在爬取第%s页" %str(count+1))
url = "https://movie.douban.com/top250" + "?start="+str(25 * count)
soup = open_url(url)
result = movices_name_information_score_hotcomment(soup,count)
download_top(result)
count +=1
print("已经爬取第%s页" %str(count))
if __name__ == "__main__":
main()

复制代码

账号		自动登录	找回密码
密码			立即注册