鱼C论坛

 找回密码
 立即注册
楼主: zltzlt

[技术交流] 爬取肺炎疫情最新动态

  [复制链接]
发表于 2020-2-15 18:40:16 | 显示全部楼层
看楼主装X
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-15 20:32:38 | 显示全部楼层
回复看代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-15 20:40:07 | 显示全部楼层
学习一下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-15 21:19:08 | 显示全部楼层
学习学习
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-15 21:50:06 | 显示全部楼层
1
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-15 22:12:39 | 显示全部楼层
想看代码,支持楼主
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-16 09:34:49 | 显示全部楼层
python
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-16 09:51:55 | 显示全部楼层
新小白,来看看
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-16 10:15:11 | 显示全部楼层
厉害
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-16 11:01:11 | 显示全部楼层
高大上,好好学习下。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-16 11:02:08 From FishC Mobile | 显示全部楼层
爬取肺炎疫情最新动态
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-16 11:44:29 | 显示全部楼层
学习
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-16 12:30:53 | 显示全部楼层
666
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-16 13:34:25 | 显示全部楼层
我想看看
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-16 13:52:44 | 显示全部楼层
666
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-16 17:12:17 | 显示全部楼层
  1. from selenium import webdriver
  2. import re
  3. import pandas as pd
  4. import openpyxl as op
  5. import time
  6. class feiyan():
  7.     def __init__(self,html=None,source=None,confirmed=None,suspected=None,cure=None,died=None,timess=None):
  8.         self.html = html
  9.         self.source = source
  10.         self.confirmed = confirmed
  11.         self.suspected = suspected
  12.         self.cure = cure
  13.         self.died = died
  14.         self.timess = timess
  15.     def FindWeb(self,html):
  16.         option = webdriver.ChromeOptions()
  17.         option.add_argument('--headless')
  18.         driver = webdriver.Chrome(options=option)
  19.         driver.get(html)
  20.         time.sleep(5)
  21.         #source = driver.page_source
  22.         self.source = driver.execute_script('return document.documentElement.outerHTML') #执行JS后得到整个HTML
  23.         return self.source
  24.     def FindData(self):
  25.         confir = re.search(r'number.*\S\s*.*累计确诊',self.source)
  26.         self.confirmed = re.search(r'\d+',confir.group())
  27.         suspect = re.search(r'number.*\S\s*.*现有疑似',self.source)
  28.         self.suspected = re.search(r'\d+',suspect.group())
  29.         cur = re.search(r'number.*\S\s*.*治愈人数',self.source)
  30.         self.cure = re.search(r'\d+',cur.group())
  31.         die = re.search(r'number.*\S\s*.*死亡人数',self.source)
  32.         self.died = re.search(r'\d+',die.group())
  33.         times = re.search(r'统计截至.*?</span>',self.source)
  34.         self.timess = re.search(r'\d+-\d+-\d+\s+\d+:\d+:\d+',times.group())
  35.         print('截止{}:\n全国确诊人数为:{}人\n'.format(self.timess.group(),self.confirmed.group()))
  36.         print('疑似病例为:{}人\n'.format(self.suspected.group()))
  37.         print('治愈人数为:{}人\n'.format(self.cure.group()))
  38.         print('死亡人数为:{}人\n'.format(self.died.group()))
  39.     def save(self):
  40.         target = r'E:\Python\肺炎数据\肺炎数据.xlsx'  #读取前一天数据,合并生成本日数据并保存
  41.         excel = pd.read_excel(target)
  42.         num = len(excel.loc[:,'时间'])
  43.         excel.loc[num,'时间'] = self.timess.group()
  44.         excel.loc[num,'确诊人数'] = self.confirmed.group()
  45.         excel.loc[num,'死亡人数'] = self.died.group()
  46.         excel.loc[num,'治愈人数'] = self.cure.group()
  47.         excel.loc[num,'疑似病例'] = self.suspected.group()
  48.         book = op.load_workbook(target)
  49.         write = pd.ExcelWriter(target,engine = 'openpyxl')
  50.         write.book = book
  51.         excel.to_excel(write,sheet_name='alldata')
  52.         write.save()
  53.         write.close()
  54. if __name__ == '__main__':
  55.     f = feiyan()
  56.     f.FindWeb(html='https://news.qq.com//zt2020/page/feiyan.htm')
  57.     f.FindData()
  58.     f.save()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-16 17:28:01 From FishC Mobile | 显示全部楼层
爬取
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-16 17:51:47 | 显示全部楼层
武汉加油!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-16 18:10:01 | 显示全部楼层
牛逼
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-16 19:59:22 From FishC Mobile | 显示全部楼层
6
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-30 23:59

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表