鱼C论坛

 找回密码
 立即注册
查看: 1588|回复: 0

[作品展示] Python 爬虫:今天空气怎样?

[复制链接]
发表于 2022-3-19 20:20:28 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
        本人小菜鸟一个,今天无意瞥到中华人民共和国生态环境部网站(http://data.rmtc.org.cn:8080/gis/listtype0M.html),于是做了个爬虫爬取表格,用了requests(可以用urllib.request代替,要改部分代码)、bs4、openpyxl 3个第三方库,请提前用pip下载。
        注:openpyxl是用来编写表格的,不想太麻烦,可以用print直接输出
from requests import *
from bs4 import BeautifulSoup
from openpyxl import *
import time
#获取网页(源代码),处理乱码
resp = get('http://data.rmtc.org.cn:8080/gis/listtype0M.html')
resp.encoding = 'utf-8'


#筛选数据
s = BeautifulSoup(resp.text, 'html.parser')

l1 = [i.text for i in s.find_all('a')][6:]
l2 = [i.text for i in s.find_all('span', class_='label')]
l3 = [i.text for i in s.find_all('span', class_='showtime')]
#不想保存为表格,去掉引号,直接打印
'''
for i in range(len(l1)):
    print(l1[i], l2[i], l3[i])
'''
#保存为表格
wb = Workbook()
ws = wb.active
#表头
ws['A1'] = '地点'
ws['B1'] = '空气质量'
ws['C1'] = '时间'
#数据
bl = []
for i in range(len(l1)):
    bl.append((l1[i], l2[i], l3[i]))

for x in bl:
    ws.append(x)

#文件名:因为每天都有数据,得做好区分(time)
st = list(time.localtime(time.time())[:3])
st[-1] = st[-1] - 1
#保存
wb.save('C://pythons(3.9)//hjzl//hjz1(1)' + str(tuple(st)) +'.xlsx')

        求大神指点、修改。同时感谢小甲鱼,把我从“0分小白”,变成小菜鸟,我会在编程领域更加努力,不负小甲鱼的期望!!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 01:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表