1.我刚手动敲了你代码里的网址,最后的是'shtml'吧,似乎你代码里写的是'shtm1'……
2.手动从中国天气 ...
1.‘shtm1’确实是写错了。我把它改过来了
2.我也试了一下手动输入,url后面应该加后缀,不过我的浏览器显示为“#search”,见图
3.改后,可以正常输出网页代码,但是还是无法爬出结果,提示创建Json出错,但是我一位博主用BeautifulSoup解析网页可以正常爬出结果,会不会是Json和我的python3.6版本有问题 sd小舅子 发表于 2018-3-24 12:27
1.我刚手动敲了你代码里的网址,最后的是'shtml'吧,似乎你代码里写的是'shtm1'……
2.手动从中国天气 ...
1.‘shtm1’确实是写错了。我把它改过来了
2.我也试了一下手动输入,url后面应该加后缀,不过我的浏览器显示为“#search”,见图
3.改后,可以正常输出网页代码,但是还是无法爬出结果,提示创建Json出错,但是我一位博主用BeautifulSoup解析网页可以正常爬出结果,会不会是Json和我的python3.6版本有问题 月牙丫里 发表于 2018-3-24 12:23
应该不是,试了一下CSDN一位博主的方法,可以正常爬取中国天气网信息,不过他是用BeautifulSoup解析网页 ...
又试了一下,确实没反爬,你版本没问题,但这个网页应该不能用json解析,不是js的格式,你可以用正则表达式或者BeautifulSoup来找 月牙丫里 发表于 2018-3-24 13:37
1.‘shtm1’确实是写错了。我把它改过来了
2.我也试了一下手动输入,url后面应该加后缀,不过我的浏览器 ...
既然网页文件能抓出来,那么就是解析网页文件时候的问题了……{:10_243:}
json库我没用过……{:10_250:}
这个库是只能转换标准的json样式的字符串,还是能自动抓取html文件里符合规则的字符串呢?……{:10_258:}
如果是后者还好说……{:10_297:}
如果是前面那种,不经过处理的html文件在传给json的时候就识别不出来了……{:10_257:}
突然想到,网页地址都变了……{:10_245:}
视频看太久忘记是不是这样了……{:10_269:}
有没有可能是小甲鱼在演示的时候,调用的是中国天气网的api,直接返回的json格式的数据……{:10_279:}
而现在我们抓的,是网页版的html数据……{:10_284:}
于是去中国天气网找了下……{:10_249:}
人家的api现在是收费的产品嘞……{:10_257:}
所以……如果从现在我们用的网页上,只能用beautifulsoup或者re来爬……{:10_269:}
如果要用直接返回json格式的api接口,就需要购买一下他们的api服务先……{:10_245:}
或者有其他小伙伴订阅的,账号接口借来用用……{:10_304:} 我查了一下,用Json解析都是几年前的,现在好像都没查到有用到Json的 mintaka 发表于 2018-3-24 14:38
又试了一下,确实没反爬,你版本没问题,但这个网页应该不能用json解析,不是js的格式,你可以用正则表达 ...
好的,谢谢 请问您还有视频里那个小甲鱼没修改前的源码吗 我找不到 所以有哪为大佬成功了的,昨晚找了一晚上错误在哪儿
页:
1
[2]