Python：每日一题 144

jerryxjr1220 · 发表于 2018-1-19 08:39:37

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 jerryxjr1220 于 2018-1-20 13:14 编辑

我们的玩法做了一下改变：

1. 楼主不再提供答案。
2. 请大家先独立思考”，再参考其他鱼油的解答，这样才有助于自己编程水平的提高。
3. 鼓励大家积极答题，奖励的期限为出题后24小时内。
4. 根据答案的质量给予1~3鱼币的奖励。

题目：
今年是2018年啦，那么请统计一下，今年一共有多少假期，可以休息多少天？（双休日不计）
不限制用什么方法，库，爬虫都可以。大家尽管发挥！

例如：
日期节假日放假天数
2018-01-01 元旦 1天

提供一个API接口做参考：
http://www.easybots.cn/holiday_api.net

2018年公共假日：
https://publicholidays.cn/zh/2018-dates/

久疤K · 发表于 2018-1-19 19:48:44

import re
import datetime as dt
import requests as req
def get(url):
return req.get(url).text
def parse(html):
res = []
# 获取第一个tbody
tbody = re.findall(r'<tbody>(.*?)</tbody>', html)[0]
# 获取tbody中的所有tr
trs = re.findall('<tr.*?>(.*?)</tr>', tbody)
for tr in trs:
# 从tr中获取开始时间和结束时间的时间节点
ds = re.findall('datetime="\D*(\d*)-(\d*)-(\d*)\D*"',tr)
ds = [[int(y) for y in x] for x in ds]
# 计算放假天数
if len(ds) == 1:
days = 1
elif len(ds) == 2:
start = dt.date(ds[0][0],ds[0][1],ds[0][2])
end = dt.date(ds[1][0],ds[1][1],ds[1][2])
days = (end-start).days + 1
else:
raise ValueError("some thing wrong!!!")
# 获取节日名称
name = re.findall('class="summary.*?>(.*?)<',tr)[0]
res.append([ds[0],name,days])
return res
def fun( url ):
html = get(url)
res = parse(html)
print('日期\t\t\t节假日\t\t放假天数')
for x in res:
print('%d-%02d-%02d\t\t%s\t\t%d' %(x[0][0],x[0][1],x[0][2],x[1],x[2]))
s = sum( x[2] for x in res)
print('总天数为:',s)
def main():
url = 'https://publicholidays.cn/zh/2018-dates/'
fun(url)
if __name__ == "__main__":
main()

复制代码

结果:

日期节假日放假天数
2018-01-01 元旦 1
2018-02-15 春节 7
2018-04-05 清明节 3
2018-04-29 劳动节 3
2018-06-16 端午节 3
2018-09-22 中秋节 3
2018-10-01 国庆日 7
总天数为: 27

复制代码

solomonxian · 发表于 2018-1-20 19:10:28

爬虫方面很渣啊，希望楼主给个答案瞅瞅

这个接口网站说要授权码啊，否则返回垃圾数据，
结果试了一下，果然同一个日期返回的结果会不一样

from urllib import request
from collections import Counter
def fun(year=2018):
date = ",".join(str(year*100 + i) for i in range(1, 13))
url = "http://www.easybots.cn/api/holiday.php?m=" + date # 网站有说明用法
response = request.urlopen(url)
html = response.read()
result = Counter(j for i in eval(html).values() for j in i.values())
return result['2'] # 据网站说明'2'为节假日

复制代码

第二个直接给出日期的网站，感觉要获取信息很麻烦啊

连儿童节、青年节、妇女节和建军节都加上去了，结果是31天

from urllib import request
import bs4
import chardet
import datetime
def fun2(year=2018):
result = 0
url = "https://publicholidays.cn/zh/{}-dates/".format(year)
head = {}
head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19'
req = request.Request(url, headers=head)
response = request.urlopen(req).read()
detect_result = chardet.detect(response)
html = response.decode(detect_result['encoding'])
# 这段都是审查元素后出来的，日期都放在名为time的tag里，按照"假期开始日~结束日"样式放的
aim_tag = bs4.SoupStrainer('time')
soup = bs4.BeautifulSoup(html, 'lxml', parse_only=aim_tag)
for i in soup('time'):
if 'dtstart' in i['class']:
result += 1
temp_start = datetime.datetime.strptime(i['datetime'], "%Y-%m-%d")
elif 'dtend' in i['class']:
temp_end = datetime.datetime.strptime(i['datetime'], "%Y-%m-%d")
result += (temp_end - temp_start).days
return result

复制代码

jerryxjr1220 · 发表于 2018-1-20 22:32:42

solomonxian 发表于 2018-1-20 19:10
爬虫方面很渣啊，希望楼主给个答案瞅瞅

这个接口网站说要授权码啊，否则返回垃圾数据，

是的，第一个接口要注册一下才能用。
第二个是直接返回了连续假期，扣除双休日后应该就是正确答案。
支持中国假期的库是比较少的，支持西方假期的库就有很多，比如pandas等

Elastcio · 发表于 2018-2-13 12:31:11

用xpath写了一个

import requests as req
from lxml import etree
from datetime import datetime
from datetime import timedelta
url = "https://publicholidays.cn/zh/2018-dates/"
text = req.get(url).text
selector = etree.HTML(text)
total_days = 0
print("日期\t\t\t\t节假日\t\t放假天数")
for i in range(1,8):
date = selector.xpath("//*[@id='row-inner-travel']/article/div[1]/table[1]/tbody/tr[%d]/td[1]/time/text()"%i)
name = selector.xpath("//*[@id='row-inner-travel']/article/div[1]/table[1]/tbody/tr[%d]/td[3]/span/text()"%i)
if not len(name):
name = selector.xpath("//*[@id='row-inner-travel']/article/div[1]/table[1]/tbody/tr[%d]/td[3]/a/text()"%i)
last = (datetime.strptime(date[-1],"%Y-%m-%d")-datetime.strptime(date[0],"%Y-%m-%d")).days+1
total_days += last
print("%s ~ %s\t\t%s\t\t%d"%(date[0],date[1] if len(date)==2 else date[0], name[0],last))
print("总天数：%d"%total_days)

复制代码

日期节假日放假天数
2018-01-01 ~ 2018-01-01 元旦 1
2018-02-15 ~ 2018-02-21 春节 7
2018-04-05 ~ 2018-04-07 清明节 3
2018-04-29 ~ 2018-05-01 劳动节 3
2018-06-16 ~ 2018-06-18 端午节 3
2018-09-22 ~ 2018-09-24 中秋节 3
2018-10-01 ~ 2018-10-07 国庆日 7
总天数：27

复制代码

账号		自动登录	找回密码
密码			立即注册

[技术交流] Python：每日一题 144

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

评分