豆瓣爬虫疑问
本帖最后由 fishhh03 于 2022-12-20 18:06 编辑import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.family']='SimHei'#显示汉字
plt.rcParams['font.sans-serif'] = ['SimHei']
df = pd.read_excel('ans/豆瓣电影Top250_已预处理.xlsx')#打开预处理后的数据文件
## 请在下面补充代码,实现:统计不同评分电影数量并输出、绘制柱形图
## 补充代码结束
plt.show()
plt.savefig('step6/不同评分电影数量柱状图.png')
本关任务:编写一个程序,统计不同评分对应电影数量并绘制柱形图。
求问怎么做呀呜呜 import requests
import os
import shutil
url="https://movie.douban.com/top250?start="
headers = #设置你自己浏览器的headers
def getWeb(url,i):
try:
## 请在下面补充代码,完成网页爬取及保存为txt文件
dburl = url + str(i*25)
r = requests.get(dburl)
print(r.text)
filename = 'step1/webpages/' + str(i) + ".txt"
with open(filename, "w", errors="ignore") as f:
f.write(r.text)
except:
print('爬取失败!')
def main():
for i in range(10):
getWeb(url,i) #调用爬取网页的函数
## 以下为主程序
# 清理webpages文件夹中原有文件
fileset = os.listdir('step1/webpages')
for f in fileset:
if 'web' in f:
os.remove(os.path.join('step1/webpages',f))
# 调用主函数
main() lxping 发表于 2022-12-20 16:08
谢谢 我已经做出来刚刚那个啦
页:
[1]