鱼C论坛

 找回密码
 立即注册
查看: 3265|回复: 6

[已解决]Dataframe中的数值比大小

[复制链接]
发表于 2022-12-24 17:32:32 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
0         95224520
1         95224520
2         95224520
3         95224690
4         95224900
           ...   
47841    112256360
47842    112256420
47843    112256990
47844    112256990
47845    112257210
Name: 时间, Length: 47846, dtype: int64

用pandas读取一个execl文件,有一列叫时间,将近5万列。我想找出时间列中,数值相同的行,并打印出是在第几行。
现在一个问题,假如按下面的代码去运行,运算出每一行都符合条件(明显时间列的值不一样),不知哪里出问题?不得其解,来寻求帮助。

i=0
for i in range(len(data)):
if nihao['时间'][i] == nihao['时间'][(i+1)] and nihao['时间'][(i+1)] == nihao['时间'][(i+2)] and nihao['时间'][(i+2)]== nihao['时间'][(i+3)]:  #这里不知怎么才能统计3行以上的相同数值,麻烦大神给个方法。
       print(i)
最佳答案
2022-12-24 21:00:28
如果时间是有序排列的,建议直接循环扫一遍,可以把数据压缩为 [时间:[最小行, 最大行]]

如果数据有序且需要多次查询,可以压缩数据二分
如果数据无序且需要多次查询,可以建立字典(dict[时间, list[该时间所有的出现行]]),拿空间换时间,这样也相当于知道了所有的结果。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2022-12-24 17:51:57 | 显示全部楼层
更正下,也不是每一行的会print出来,大概打印有2成的行,但明显这些行都不符合我要的那种数值完全相同的行。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-12-24 17:57:44 | 显示全部楼层
你看这样行不行,你先对时间列做一个count,生成一个新列,然后打印新列中大于1的行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-12-24 18:29:01 | 显示全部楼层
pandas我以前学过一点不过也不太会  
我有一种思路,用groupby方法对时间分组,这样时间值相同的项就在一个组里了,然后对每一组按序号取最小值,就是最先出现的一行。
由于不知道怎么获取序号,我直接加了一列序号列

这个方法对有序的时间序列,可以求出每一个值所在的行区间,如果序列无序可以求最早或者最晚出现
import pandas
import numpy

lst = [1, 1, 1, 2, 2, 3, 4, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 1, 2, 3]

df = pandas.DataFrame(numpy.array([range(len(lst)), lst, range(100, len(lst)+100)]).T , columns = ['idx', '_time', 'others'])

#df = df.groupby('_time').max()
df = df.groupby('_time').min()
print(df)
print(df['idx'])
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-24 20:43:49 | 显示全部楼层
CHNwldcmzy 发表于 2022-12-24 18:29
pandas我以前学过一点不过也不太会  
我有一种思路,用groupby方法对时间分组,这样时间值相同的项就在一 ...

谢谢楼上2位的回答,不想用count或者排序的方法,还是想有循环的方法来定位到第几列,然后打印出具体列
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-12-24 21:00:28 | 显示全部楼层    本楼为最佳答案   
如果时间是有序排列的,建议直接循环扫一遍,可以把数据压缩为 [时间:[最小行, 最大行]]

如果数据有序且需要多次查询,可以压缩数据二分
如果数据无序且需要多次查询,可以建立字典(dict[时间, list[该时间所有的出现行]]),拿空间换时间,这样也相当于知道了所有的结果。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-12-27 22:42:11 | 显示全部楼层
CHNwldcmzy 发表于 2022-12-24 21:00
如果时间是有序排列的,建议直接循环扫一遍,可以把数据压缩为 [时间:[最小行, 最大行]]

如果数据有序且 ...

谢谢楼上的回答,我尝试下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-25 05:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表