温木zou 发表于 2020-12-11 13:11:26

自闭啦 爬虫大佬来救救

不说废话
这是要求
获取每天吉布提这几个时间段的(2:00,8:00,14:00,20:00)温度,降水量,风速,云量,气压,湿度,波浪,这些数据。2016年-2020年的
数据存csv里
这是我敲的源代码

敲了整整一天裂开了


如果大佬有什么更简单的方法那就更好了
我找不到他的静态文件
所以只能用selenium去点击触发网页刷新
才能获取数据


如果有大佬能弄好 希望能把存好的csv也给份
我这网不咋地。。。

wp231957 发表于 2020-12-11 13:21:17

不管黑猫白猫,能逮住耗子的就是好猫,
请问你逮到耗子没有??

温木zou 发表于 2020-12-11 13:44:10

wp231957 发表于 2020-12-11 13:21
不管黑猫白猫,能逮住耗子的就是好猫,
请问你逮到耗子没有??

????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

笨鸟学飞 发表于 2020-12-11 14:53:03

1、要爬取的url应该是
https://www.ventusky.com/?p=
加位置参数
11.6;43.1;
再加5&l=
再加所需要获得数据的参数,例如地面2米以上的温度
temperature-2m
合起来就是https://www.ventusky.com/?p=11.6;43.1;5&l=temperature-2m
2、url分析清楚了,就好弄了,你需要的位置参数就是(11.6;43.1; )那只要把要爬取的数据的参数获取就行了啊
3、直接爬取https://www.ventusky.com/?p=11.6;43.1;5   看爬取的内容里面,例如温度,其他的是同样的道理
<a class="rg">温度<span class="temperature"></span></a>
4、那你就知道获取参数的url是怎么回事了,分别爬取url,就可以获得数据了,代码就自己写下吧,这个站点都没加密,应该好爬的很啊

孤独的嫖客 发表于 2020-12-11 20:57:39

这是个人任务/作业向吧
这你才给50鱼币
加到2000再说吧

温木zou 发表于 2020-12-12 23:16:19

笨鸟学飞 发表于 2020-12-11 14:53
1、要爬取的url应该是
https://www.ventusky.com/?p=
加位置参数


它没有时间的参数。。。。这样的url只能获取到当天的数据。前面几年的数据好像是找不到的
我现在的代码能全获取出来了,就是非常的慢   因为要给页面刷新预留时间。不然后面的数据没刷出来会导致获取来的数据错位。我那时候挂了一上午的代码放哪里跑也只跑出来几个月的数据。。现在发出来的可能是因为后来改了一点所以有点报错

温木zou 发表于 2020-12-12 23:18:10

孤独的嫖客 发表于 2020-12-11 20:57
这是个人任务/作业向吧
这你才给50鱼币
加到2000再说吧

不是哦。正在学习展示呢。想要弄点数据来   所以就去爬这个网站了 我的代码是已经可以获取数据了的。但是遇到了些问题所以来站里问问有没有什么好的解决方法   

笨鸟学飞 发表于 2020-12-12 23:24:40

温木zou 发表于 2020-12-12 23:16
它没有时间的参数。。。。这样的url只能获取到当天的数据。前面几年的数据好像是找不到的
我现在的代码 ...

1、不可能吧,这网站都没有加密的啊,前几年的你要么就看看post数据,不可能啥参数也没有的,要么是在URL里面,要么就是POST里面
2、判断页面是否加载完成,可以判断状态码是否等于200,你可以试试看
3、加延迟没必要的,可以用代理解决,每次爬取url前,随机选个代理
4、爬取数据多,用多进程是必须的,否则效率太低了。。。python的多线程听说并不好用{:10_285:}

温木zou 发表于 2020-12-12 23:34:18

笨鸟学飞 发表于 2020-12-12 23:24
1、不可能吧,这网站都没有加密的啊,前几年的你要么就看看post数据,不可能啥参数也没有的,要么是在URL ...

我找过很多次了。你可以去找找看   我是真的没找到    不然我也不会去写selenium这样一个个去点的脑残方法了{:10_258:}

温木zou 发表于 2020-12-12 23:35:27

笨鸟学飞 发表于 2020-12-12 23:24
1、不可能吧,这网站都没有加密的啊,前几年的你要么就看看post数据,不可能啥参数也没有的,要么是在URL ...

多线程什么的还不大会{:10_250:}

小甲鱼的铁粉 发表于 2020-12-14 08:23:25

wp231957 发表于 2020-12-11 13:21
不管黑猫白猫,能逮住耗子的就是好猫,
请问你逮到耗子没有??

你好,黑猫{:10_250:}
页: [1]
查看完整版本: 自闭啦 爬虫大佬来救救