|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本人小菜鸟一个,今天无意瞥到中华人民共和国生态环境部网站(http://data.rmtc.org.cn:8080/gis/listtype0M.html),于是做了个爬虫爬取表格,用了requests(可以用urllib.request代替,要改部分代码)、bs4、openpyxl 3个第三方库,请提前用pip下载。
注:openpyxl是用来编写表格的,不想太麻烦,可以用print直接输出
- from requests import *
- from bs4 import BeautifulSoup
- from openpyxl import *
- import time
- #获取网页(源代码),处理乱码
- resp = get('http://data.rmtc.org.cn:8080/gis/listtype0M.html')
- resp.encoding = 'utf-8'
- #筛选数据
- s = BeautifulSoup(resp.text, 'html.parser')
- l1 = [i.text for i in s.find_all('a')][6:]
- l2 = [i.text for i in s.find_all('span', class_='label')]
- l3 = [i.text for i in s.find_all('span', class_='showtime')]
- #不想保存为表格,去掉引号,直接打印
- '''
- for i in range(len(l1)):
- print(l1[i], l2[i], l3[i])
- '''
- #保存为表格
- wb = Workbook()
- ws = wb.active
- #表头
- ws['A1'] = '地点'
- ws['B1'] = '空气质量'
- ws['C1'] = '时间'
- #数据
- bl = []
- for i in range(len(l1)):
- bl.append((l1[i], l2[i], l3[i]))
- for x in bl:
- ws.append(x)
- #文件名:因为每天都有数据,得做好区分(time)
- st = list(time.localtime(time.time())[:3])
- st[-1] = st[-1] - 1
- #保存
- wb.save('C://pythons(3.9)//hjzl//hjz1(1)' + str(tuple(st)) +'.xlsx')
复制代码
求大神指点、修改。同时感谢小甲鱼,把我从“0分小白”,变成小菜鸟,我会在编程领域更加努力,不负小甲鱼的期望!!! |
|