鱼C论坛 › E=MC2 › 日志

E=MC2

https://fishc.com.cn/?266894

用O(nlgk)时间查找k分位数

已有 1006 次阅读2014-3-17 18:44 |个人分类:数据结构与算法

相关问题：

The kth quantiles of an n-element set are the k 1 order satatistics that divide the sorted set into k equal-sized

sets(to within 1).Give an O(nlgk)time algorithm to list the kth quantiles of a set.

对一个含有n个元素的集合来说，所谓k分位数（the kth quantile），就是能把已排序的集合分成k个大小相等的集合的k-1个顺序统计量。给出一个能输出某一集合的这k-1个顺序统计量的O(nlgk)时间的算法。

思考过程：

开始我的想法是，既然是已排序的集合，那么我就写一个循环for(i=n/k;i<n;i+=n/k) cout<<A[i]<<" " n/k代表k个集合中的每个集合大小为n/k个元素。每隔n/k个元素就输出一个数，这样循环k-1次就输出了k-1和顺序统计量也就是k分位数。这样时间复杂度就是O(k)，显然比O(nlgk)小，但是题目又要求给出O(nlgk)的算法。我想这可能是翻译有误，”sorted“在这句话里翻译成“已排序”是否妥当？，如果改成原数组初始未排序。那么如果还按照刚才的算法，明显不能求出。然后我就想出另外一个超级简单的算法。利用书中9.3节给出的线性时间求第i小元素的函数SELECT。还是for(i=n/k;i<n;i+=n/k)循环里面循环调用SELECT函数求出第n/k,第2n/k,....第(n-1)n/k小元素不就求出了k分位数？但是仔细研究下其中的时间复杂度发现 O((k-1)n)明显要比O(nlgk)大，所以此算法不可取。

最后正确的算法是利用类似二分法进行查找选择。为什么说是类似二分法呢？因为传统的二分法是一直取一半进行划分，而这里的近似二分法是k=偶数时，当然就是原来的二分法。而k=奇数时，选择近似二分法，就是选取k/2附近的整数进行划分。比如k=7，那么k/2=3.5 所以递归的低区就是k=3等分，高区就是k=4等分。这样可以看成一颗递归树，从根到叶子是一个不断递归找k等分直到到叶子这一层找到全部的k-1个顺序统计量为止。次递归树的高度是2^h=k => h=lgk.而树的每层都经过了最多O(n)时间的SELECT函数的查找，所以总的时间就是O(nlgk)。

代码如下：

[cpp] view plain copy print ?

#include <iostream>
#include <time.h>
using namespace std;
const n=16;//想取多少个元素可自己调整。
int t;
//创建一个装有数组A以每5个元素为1组共n/5组，每组的中位数放入到数组B中，组成一组含有n/5个中位数的数组B
int Find(int A[n],int p,int r);//递归当前数组A中从p到r个元素，以找到辅助中位数数组B的中位数。
int PARTITION(int A[],int p,int r,int t)//t代表中位数数组B中的中位数，这里t代表为主元。
{
int i=p-1,k=0;
for (int j=p;j<=r;j++)
{
if (A[j]<t)//将比主元t大的元素交换到数组A的右边去，比主元t小的到数组A的左边。
{
i++;
swap(A[i],A[j]);
}
if (A[j]==t)//如果A[j]等于主元
{
k=j;//那么记录下主元在A中的位置。
}
}
swap(A[i+1],A[k]);//完成划分操作，主元左边的元素都小于主元，主元右边的元素都大于主元。
return i+1;
}
int SELECT(int A[],int p,int r,int i)//i表示第i小的数。
{
if (p>=r)
{
return A[p];
}
int t=Find(A,p,r);//返回的t代表辅助数组B的中位数。
int q=PARTITION(A,p,r,t);
int k=q-p+1;
if (i==k)
{
return A[q];
}
else if(i<k)
{
return SELECT(A,p,q-1,i);
}
else return SELECT(A,q+1,r,i-k);
}
int Find(int A[n],int p,int r)
{
int key=0,t=0,m=r-p+1,h=0;
if (m%5==0)//如果当前数组A的大小能被5整除，那么这以5个元素为一组的m/5组数，没有余数那一组
{
h=m/5;
}
else//否则，应该加上含有余数的那一组。
{
h=m/5+1;
}
int *B=new int[h];
for(int j=0;j<h;j++)
{
B[j]=0;
}
for (int k=0;k<h;k++)//5个数一组，共h组。进行插入排序。
{//经过最多h=n/5+1次循环，那么总共循环了25h=25(n/5+1)=5n+25=O(n)次
for (int j=t+1+p;j<=5+t+p&&j!=r+2;j++)//h组中每组进行插入排序。注意加上数组初始坐标p(当前数组A的初值坐标)+t(在p基础上每5个为1组)
{//运行时间分析：5个一组运行插入排序，每次插入排序需要的时间是O(n^2)=5^2=25是基于固定划分的固定常数
key=A[j-1];
int i=j-1;
while (i>t+p&&A[i-1]<key)
{
A[i]=A[i-1];
i=i-1;
}
A[i]=key;
}
t+=5;//进入下一个5个元素为一组的插入排序
}
k=0;
for (int i=0;i<h&&k<h;i++)//经过最多h=n/5+1次循环(O(n))，将当前数组A中的每组的中位数依次放入到B中
{
if (i<h-1)
{
B[k]=A[2+5*i+p];
k++;
continue;
}
if(m%5!=0)
{
B[k]=A[5*i+p+(m%5)/2];
}
else
{
B[k]=A[2+5*i+p];
k++;
}
}
if (h==1)
{
return B[0];//当辅助数组B只剩下一个数时，那么这个数就是中位数的中位数。
}
else
{
return SELECT(B,0,h-1,(h-1)/2+1);//如果数组B元素个数是偶数，那么取数组B中的较小值。
}
}
void The_kth_quantile(int A[],int B[],int p,int r,int k)//k代表要分成多少元素个数相等的集合。
{
static j=0;
if (r-p+1>t)//这k个集合中每个集合有n/k个元素。
{
if (k%2!=0)//奇等分时。
{
int i=((r-p+1)/k)*((k-1)/2);//对当前数组进行近似二分法，例如k=5 2:3 i=2n/5 n=r-p+1
int h=SELECT(A,p,r,i);//第i小元素就是数组中A[i-1]
B[j]=h;j++;
The_kth_quantile(A,B,p,i-1+p,(k-1)/2);
The_kth_quantile(A,B,i+p,r,(k+1)/2);
}
else//偶等分时。
{
int i=((r-p+1)/k)*(k/2);//对当前数组进行二分法
int h=SELECT(A,p,r,i);
B[j]=h;j++;
The_kth_quantile(A,B,p,i-1+p,k/2);
The_kth_quantile(A,B,i+p,r,k/2);
}
}
}
void main()
{
int k=0;
int A[n]={0};
//随机输入数组
srand( (unsigned)time( NULL ) );
cout<<"原数组："<<endl;
for (int i=0;i<n;i++)
{
A[i]=rand()%100;
cout<<A[i]<<"\t";
}
cout<<endl;
cout<<"请输入需要划分的k等份=";
cin>>k;
cout<<endl;
int*B=new int[k+1];
for (i=0;i<k+1;i++)
{
B[i]=0;
}
t=n/k;
if (n%k)
{
cout<<"不存在k分位数！"<<endl;
}
else
{
The_kth_quantile(A,B,0,n-1,k);
}
for (i=0;i<k-1;i++)
{
cout<<B[i]<<" ";
}
cout<<endl;
}

路过

雷人

握手

鲜花

鸡蛋

收藏分享邀请举报

账号		自动登录	找回密码
密码			立即注册

E=MC2

用O(nlgk)时间查找k分位数

全部作者的其他最新日志

评论 (0 个评论)