鱼C论坛

 找回密码
 立即注册
查看: 3102|回复: 10

自闭啦 爬虫大佬来救救

[复制链接]
发表于 2020-12-11 13:11:26 | 显示全部楼层 |阅读模式
50鱼币
不说废话
这是要求
获取每天吉布提这几个时间段的(2:00,8:00,14:00,20:00)温度,降水量,风速,云量,气压,湿度,波浪,这些数据。2016年-2020年的
数据存csv里
这是我敲的源代码
jbt.zip (2.01 KB, 下载次数: 25)
敲了整整一天  裂开了


如果大佬有什么更简单的方法那就更好了
我找不到他的静态文件  
所以只能用selenium去点击触发网页刷新
才能获取数据


如果有大佬能弄好 希望能把存好的csv也给份
我这网不咋地。。。

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-12-11 13:21:17 From FishC Mobile | 显示全部楼层
不管黑猫白猫,能逮住耗子的就是好猫,
请问你逮到耗子没有??
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-12-11 13:44:10 | 显示全部楼层
wp231957 发表于 2020-12-11 13:21
不管黑猫白猫,能逮住耗子的就是好猫,
请问你逮到耗子没有??

????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-12-11 14:53:03 | 显示全部楼层
1、要爬取的url应该是
https://www.ventusky.com/?p=
加位置参数
11.6;43.1;
再加5&l=
再加所需要获得数据的参数,例如地面2米以上的温度
temperature-2m
合起来就是https://www.ventusky.com/?p=11.6;43.1;5&l=temperature-2m
2、url分析清楚了,就好弄了,你需要的位置参数就是(11.6;43.1; )那只要把要爬取的数据的参数获取就行了啊
3、直接爬取https://www.ventusky.com/?p=11.6;43.1;5   看爬取的内容里面,例如温度,其他的是同样的道理
<a class="rg">温度<span class="temperature"></span></a>
4、那你就知道获取参数的url是怎么回事了,分别爬取url,就可以获得数据了,代码就自己写下吧,这个站点都没加密,应该好爬的很啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-12-11 20:57:39 | 显示全部楼层
这是个人任务/作业向吧
这你才给50鱼币
加到2000再说吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-12-12 23:16:19 From FishC Mobile | 显示全部楼层
笨鸟学飞 发表于 2020-12-11 14:53
1、要爬取的url应该是
https://www.ventusky.com/?p=
加位置参数

它没有时间的参数。。。。这样的url只能获取到当天的数据。前面几年的数据好像是找不到的
我现在的代码能全获取出来了,就是非常的慢   因为要给页面刷新预留时间。不然后面的数据没刷出来会导致获取来的数据错位。我那时候挂了一上午的代码放哪里跑也只跑出来几个月的数据。。现在发出来的可能是因为后来改了一点所以有点报错
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-12-12 23:18:10 From FishC Mobile | 显示全部楼层
孤独的嫖客 发表于 2020-12-11 20:57
这是个人任务/作业向吧
这你才给50鱼币
加到2000再说吧

不是哦。正在学习展示呢。想要弄点数据来   所以就去爬这个网站了 我的代码是已经可以获取数据了的。但是遇到了些问题所以来站里问问有没有什么好的解决方法   
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-12-12 23:24:40 | 显示全部楼层
温木zou 发表于 2020-12-12 23:16
它没有时间的参数。。。。这样的url只能获取到当天的数据。前面几年的数据好像是找不到的
我现在的代码 ...

1、不可能吧,这网站都没有加密的啊,前几年的你要么就看看post数据,不可能啥参数也没有的,要么是在URL里面,要么就是POST里面
2、判断页面是否加载完成,可以判断状态码是否等于200,你可以试试看
3、加延迟没必要的,可以用代理解决,每次爬取url前,随机选个代理
4、爬取数据多,用多进程是必须的,否则效率太低了。。。python的多线程听说并不好用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-12-12 23:34:18 From FishC Mobile | 显示全部楼层
笨鸟学飞 发表于 2020-12-12 23:24
1、不可能吧,这网站都没有加密的啊,前几年的你要么就看看post数据,不可能啥参数也没有的,要么是在URL ...

我找过很多次了。你可以去找找看   我是真的没找到    不然我也不会去写selenium这样一个个去点的脑残方法了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-12-12 23:35:27 From FishC Mobile | 显示全部楼层
笨鸟学飞 发表于 2020-12-12 23:24
1、不可能吧,这网站都没有加密的啊,前几年的你要么就看看post数据,不可能啥参数也没有的,要么是在URL ...

多线程什么的还不大会
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-12-14 08:23:25 | 显示全部楼层
wp231957 发表于 2020-12-11 13:21
不管黑猫白猫,能逮住耗子的就是好猫,
请问你逮到耗子没有??

你好,黑猫
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-4 13:29

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表