马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本人小菜鸟一个,今天无意瞥到中华人民共和国生态环境部网站(http://data.rmtc.org.cn:8080/gis/listtype0M.html),于是做了个爬虫爬取表格,用了requests(可以用urllib.request代替,要改部分代码)、bs4、openpyxl 3个第三方库,请提前用pip下载。
注:openpyxl是用来编写表格的,不想太麻烦,可以用print直接输出
from requests import *
from bs4 import BeautifulSoup
from openpyxl import *
import time
#获取网页(源代码),处理乱码
resp = get('http://data.rmtc.org.cn:8080/gis/listtype0M.html')
resp.encoding = 'utf-8'
#筛选数据
s = BeautifulSoup(resp.text, 'html.parser')
l1 = [i.text for i in s.find_all('a')][6:]
l2 = [i.text for i in s.find_all('span', class_='label')]
l3 = [i.text for i in s.find_all('span', class_='showtime')]
#不想保存为表格,去掉引号,直接打印
'''
for i in range(len(l1)):
print(l1[i], l2[i], l3[i])
'''
#保存为表格
wb = Workbook()
ws = wb.active
#表头
ws['A1'] = '地点'
ws['B1'] = '空气质量'
ws['C1'] = '时间'
#数据
bl = []
for i in range(len(l1)):
bl.append((l1[i], l2[i], l3[i]))
for x in bl:
ws.append(x)
#文件名:因为每天都有数据,得做好区分(time)
st = list(time.localtime(time.time())[:3])
st[-1] = st[-1] - 1
#保存
wb.save('C://pythons(3.9)//hjzl//hjz1(1)' + str(tuple(st)) +'.xlsx')
求大神指点、修改。同时感谢小甲鱼,把我从“0分小白”,变成小菜鸟,我会在编程领域更加努力,不负小甲鱼的期望!!! |