skyhouse 发表于 2022-12-24 17:32:32

Dataframe中的数值比大小

0         95224520
1         95224520
2         95224520
3         95224690
4         95224900
         ...   
47841    112256360
47842    112256420
47843    112256990
47844    112256990
47845    112257210
Name: 时间, Length: 47846, dtype: int64

用pandas读取一个execl文件,有一列叫时间,将近5万列。我想找出时间列中,数值相同的行,并打印出是在第几行。
现在一个问题,假如按下面的代码去运行,运算出每一行都符合条件(明显时间列的值不一样),不知哪里出问题?不得其解,来寻求帮助。

i=0
for i in range(len(data)):
if nihao['时间'] == nihao['时间'][(i+1)] and nihao['时间'][(i+1)] == nihao['时间'][(i+2)] and nihao['时间'][(i+2)]== nihao['时间'][(i+3)]:#这里不知怎么才能统计3行以上的相同数值,麻烦大神给个方法。
       print(i)

skyhouse 发表于 2022-12-24 17:51:57

更正下,也不是每一行的会print出来,大概打印有2成的行,但明显这些行都不符合我要的那种数值完全相同的行。

gywjj 发表于 2022-12-24 17:57:44

你看这样行不行,你先对时间列做一个count,生成一个新列,然后打印新列中大于1的行

CHNwldcmzy 发表于 2022-12-24 18:29:01

pandas我以前学过一点不过也不太会
我有一种思路,用groupby方法对时间分组,这样时间值相同的项就在一个组里了,然后对每一组按序号取最小值,就是最先出现的一行。
由于不知道怎么获取序号,我直接加了一列序号列

这个方法对有序的时间序列,可以求出每一个值所在的行区间,如果序列无序可以求最早或者最晚出现

import pandas
import numpy

lst =

df = pandas.DataFrame(numpy.array().T , columns = ['idx', '_time', 'others'])

#df = df.groupby('_time').max()
df = df.groupby('_time').min()
print(df)
print(df['idx'])

skyhouse 发表于 2022-12-24 20:43:49

CHNwldcmzy 发表于 2022-12-24 18:29
pandas我以前学过一点不过也不太会
我有一种思路,用groupby方法对时间分组,这样时间值相同的项就在一 ...

谢谢楼上2位的回答,不想用count或者排序的方法,还是想有循环的方法来定位到第几列,然后打印出具体列

CHNwldcmzy 发表于 2022-12-24 21:00:28

如果时间是有序排列的,建议直接循环扫一遍,可以把数据压缩为 [时间:[最小行, 最大行]]

如果数据有序且需要多次查询,可以压缩数据二分
如果数据无序且需要多次查询,可以建立字典(dict[时间, list[该时间所有的出现行]]),拿空间换时间,这样也相当于知道了所有的结果。

skyhouse 发表于 2022-12-27 22:42:11

CHNwldcmzy 发表于 2022-12-24 21:00
如果时间是有序排列的,建议直接循环扫一遍,可以把数据压缩为 [时间:[最小行, 最大行]]

如果数据有序且 ...

谢谢楼上的回答,我尝试下
页: [1]
查看完整版本: Dataframe中的数值比大小