fishhh03 发表于 2022-12-20 15:08:34

豆瓣爬虫疑问

本帖最后由 fishhh03 于 2022-12-20 18:06 编辑

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.family']='SimHei'#显示汉字
plt.rcParams['font.sans-serif'] = ['SimHei']

df = pd.read_excel('ans/豆瓣电影Top250_已预处理.xlsx')#打开预处理后的数据文件
## 请在下面补充代码,实现:统计不同评分电影数量并输出、绘制柱形图

## 补充代码结束
plt.show()
plt.savefig('step6/不同评分电影数量柱状图.png')

本关任务:编写一个程序,统计不同评分对应电影数量并绘制柱形图。
求问怎么做呀呜呜

lxping 发表于 2022-12-20 16:08:54

import requests
import os
import shutil

url="https://movie.douban.com/top250?start="
headers = #设置你自己浏览器的headers

def getWeb(url,i):
    try:
       ## 请在下面补充代码,完成网页爬取及保存为txt文件
       dburl = url + str(i*25)
       r = requests.get(dburl)
       print(r.text)
       filename = 'step1/webpages/' + str(i) + ".txt"
       with open(filename, "w", errors="ignore") as f:
         f.write(r.text)
    except:
      print('爬取失败!')


def main():
    for i in range(10):
      getWeb(url,i)   #调用爬取网页的函数
      
## 以下为主程序
# 清理webpages文件夹中原有文件
fileset = os.listdir('step1/webpages')
for f in fileset:
    if 'web' in f:
      os.remove(os.path.join('step1/webpages',f))

# 调用主函数   
main()

fishhh03 发表于 2022-12-20 18:08:32

lxping 发表于 2022-12-20 16:08


谢谢 我已经做出来刚刚那个啦
页: [1]
查看完整版本: 豆瓣爬虫疑问