鱼C论坛

 找回密码
 立即注册
查看: 3655|回复: 2

[已解决]豆瓣爬虫疑问

[复制链接]
发表于 2022-12-20 15:08:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 fishhh03 于 2022-12-20 18:06 编辑
  1. import pandas as pd
  2. import numpy as np
  3. import matplotlib.pyplot as plt

  4. plt.rcParams['font.family']='SimHei'  #显示汉字
  5. plt.rcParams['font.sans-serif'] = ['SimHei']

  6. df = pd.read_excel('ans/豆瓣电影Top250_已预处理.xlsx')  #打开预处理后的数据文件
  7. ## 请在下面补充代码,实现:统计不同评分电影数量并输出、绘制柱形图

  8. ## 补充代码结束
  9. plt.show()
  10. plt.savefig('step6/不同评分电影数量柱状图.png')
复制代码


本关任务:编写一个程序,统计不同评分对应电影数量并绘制柱形图。
求问怎么做呀呜呜
最佳答案
2022-12-20 16:08:54
  1. import requests
  2. import os
  3. import shutil

  4. url="https://movie.douban.com/top250?start="
  5. headers = #设置你自己浏览器的headers

  6. def getWeb(url,i):
  7.     try:  
  8.        ## 请在下面补充代码,完成网页爬取及保存为txt文件
  9.        dburl = url + str(i*25)
  10.        r = requests.get(dburl)
  11.        print(r.text)
  12.        filename = 'step1/webpages/' + str(i) + ".txt"
  13.        with open(filename, "w", errors="ignore") as f:
  14.            f.write(r.text)
  15.     except:
  16.         print('爬取失败!')


  17. def main():
  18.     for i in range(10):
  19.         getWeb(url,i)   #调用爬取网页的函数
  20.         
  21. ## 以下为主程序
  22. # 清理webpages文件夹中原有文件
  23. fileset = os.listdir('step1/webpages')
  24. for f in fileset:
  25.     if 'web' in f:
  26.         os.remove(os.path.join('step1/webpages',f))

  27. # 调用主函数   
  28. main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-12-20 16:08:54 | 显示全部楼层    本楼为最佳答案   
  1. import requests
  2. import os
  3. import shutil

  4. url="https://movie.douban.com/top250?start="
  5. headers = #设置你自己浏览器的headers

  6. def getWeb(url,i):
  7.     try:  
  8.        ## 请在下面补充代码,完成网页爬取及保存为txt文件
  9.        dburl = url + str(i*25)
  10.        r = requests.get(dburl)
  11.        print(r.text)
  12.        filename = 'step1/webpages/' + str(i) + ".txt"
  13.        with open(filename, "w", errors="ignore") as f:
  14.            f.write(r.text)
  15.     except:
  16.         print('爬取失败!')


  17. def main():
  18.     for i in range(10):
  19.         getWeb(url,i)   #调用爬取网页的函数
  20.         
  21. ## 以下为主程序
  22. # 清理webpages文件夹中原有文件
  23. fileset = os.listdir('step1/webpages')
  24. for f in fileset:
  25.     if 'web' in f:
  26.         os.remove(os.path.join('step1/webpages',f))

  27. # 调用主函数   
  28. main()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-20 18:08:32 | 显示全部楼层

谢谢 我已经做出来刚刚那个啦
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-22 18:27

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表