主元素 寻找发帖水王

寻找发帖“水王”

题目是这样描述的:“水王”发帖的数目超过了所有帖子的一半,有各个帖子的作者ID,求这个水王的ID

编程之美给出了两种巧妙的解法

解法一:ID排序,那么ID列表中的N/2项即为要找的ID(还要排序,时间复杂度为O(NlogN))

解法二:通过查找,每次从列表中除去两个不一样的ID,最后就可以得出这个ID,时间复杂度O(N)。写法上也有技巧,不必非要找到一个不一样的在继续下去,如果下一个一样,那么用一个变量记录这个次数,把次数+1,遇见不一样的-1。例如1,1,2,3,4 初始value =1,count =1,第二个1,value = 1,count =2,下一个2,value=1,count=1,下一个3,value=3,count=0,下一个4,value=4,count=1...一直到最后,看下value的值,就是所要找的ID。

#include<iostream>
using namespace std;
/*
  Name: 寻找发帖“水王”
  Copyright:
  Author:
  Date: 02/04/13 21:11
  Description: 每次删除两个不同的ID(不管是否包含“水王”的ID),那么“水王”的ID出现次数仍然超过总数的一半
  不断重复这个过程,时间复杂度O(n)
*/

int find(int ID[], int n)
{
    int nTimes = 0, i, candidate;

    for(i = 0; i < n;i++)
    {
          if(nTimes == 0)
          {
              candidate = ID[i];
              nTimes = 1;
          }
          else
          {
              if(candidate == ID[i])
              {
                  nTimes++;
              }
              else
              {
                  nTimes--;
              }
          }
    }
    return candidate;
}

int main()
{
    int arr[] = {1, 2, 3, 4, 2, 5, 2, 2, 3, 2, 5, 2};
    printf("over harf id is %d\n", find(arr, 12));
    system("pause");
    return 0;
}  

遍历一遍取值如下:

i 0 1 2 3 4 5 6 7 8 9 10 11
candidate 1   3   2   2          
nTimes 1 0 1 0 1 0 1 7 1 2 1 2

这个算法有个缺点,不能确切知道这个ID出现多少次,只能知道这个ID出现的次数大于N/2。如果想知道,最后还要遍历次,在海量数据的时候,多遍历一次的代价是要考虑的。。

解法三:这个问题也可以用hash统计,在找出那个ID,时间复杂度为O(N),但是空间复杂度比解法二大些,最坏可能为O(N)而解法二为O(1)。

为题扩张下~

对于解法一,如果已知有两个发帖量在1/3以上的ID,可以在排序后,在N/3,2N/3的地方取一个数,在统计下这两个数出现的次数,既可以判断,时间复杂度O(NlogN)+O(N)还是O(NlogN)

对于解法二,同样上述问题,那么value和count可以用一个二维数组来记录,同样时间复杂度为O(N)

在对问题扩展下,对海量数据的时候~

解法一就变成了“海量数据找出中位数的问题了”,而且不用全部的排序(不是海量数据的时候也可以按找中位数的方法)~这样,利用数的特性,每个整数都是用32位的二进制数表示的,按照最高几位的顺序分块,(分完后块是有大小顺序的)统计每块数的个数,就可以确定这个中位数在哪个块里面了,在对那个块这样运算,最终会找到这个中位数。

对于解法二,也可以递推下,前提条件式必须是已知有M个发帖量在1/(M+1)个以上的ID~如果要保存的数目多的话,可以用hash-map代替数组

对于解法三,这样的情况如果M个数还是没发读入内存的话,要先对ID求hash,在hash分组,在hash-map统计即可,如果可以读入内存则一次hash-map统计即可,在在hash-map中找出符合条件的值。与解法二相比,只是有部分空间复杂度上的降低。

对于解法二的思想“减小问题规模,保持问题原有的性质”,对于原题目,性质就是水王的id 在小问题中仍然是超过总发帖量的一半。所以问题的关键就是解答,问题关键性质是什么,怎么减小问题的规模。对于问题的性质,那么就是具体问题具体分析了,而缩小规模,或者说是划分子问题,这个思想动态规划法,分治法都有用到,很大部分是由问题的性质决定的。

其中最后,有一道扩展题,题目如下:
随着Tango的发展,管理员发现,“超级水王”没有了。统计结果表明,有3个发帖很多的ID,他们的发帖数目都超过了帖子总数目N的1/4。你能从发帖ID列表中快速找出他们的ID吗?

上题只需要一个结果,而现在需要3个结果,上题用到的nTimes,也应改为3个计数器。现在我们需要3个变量来记录当前遍历过的3个不同的ID,而nTimes的3个元素分别对应当前遍历过的3个ID出现的个数。如果遍历中有某个ID不同于这3个当前ID,我们就判断当前3个ID是否有某个的nTimes为0,如果有,那这个新遍历的ID就取而代之,并赋1为它的遍历数(即nTimes减1),如果当前3个ID的nTimes皆不为0,则3个ID的nTimes皆减去1。

#include <iostream>

using namespace std;

int candidate[3];
int count[3] = {0};

int input[100];
int num = 0;

int main()
{
    cout<<"please input"<<endl;
    int t;
    while(cin>>t)
    {
        if (t == -1)
            break;
        input[num++] = t;
    }

    bool flag = false;

    for (int i = 0;i < num;i++)
    {
        flag = false;
        for (int j = 0;j < 3;j++)
        {
            if (count[j] == 0)
            {
                continue;
            }
            if (candidate[j] == input[i])
            {
                count[j]++;
                flag = true;
            }
        }

        if (flag == true)
        {
            continue;
        }

        for (int j = 0;j < 3;j++)
        {
            if (count[j] == 0)
            {
                candidate[j] = input[i];
                count[j]++;
                flag = true;
                break;
            }
        }

        if (flag == true)
        {
            continue;
        }

        for (int j = 0;j < 3;j++)
        {
            count[j]--;
        }

    }

    cout<<count[0]<<" "<<count[1]<<" "<<count[2]<<endl;
    cout<<candidate[0]<<" "<<candidate[1]<<" "<<candidate[2]<<endl;
}

时间: 2025-01-01 20:51:54

主元素 寻找发帖水王的相关文章

寻找发帖水王02

题目:随着论坛的发展,管理员发现水王没有了,但是统计结果表明,有3个发帖很多的ID.据统计他们的发帖数目都超过了帖子总数目的1/4,你能从发帖列表中快速找出他们吗? 设计思路: 水王01只需要一个结果,而现在需要3个结果,上题用到的nTimes,也应改为3个计数器.现在需要3个变量来记录当前遍历过的3个不同的ID,而nTimes的3个元素分别对应当前遍历过的3个ID出现的个数.如果遍历中有某个ID不同于这3个当前ID,就判断当前3个ID是否有某个的nTimes为0,如果有,那这个新遍历的ID就取

数字之魅——寻找发帖水王

寻找发帖水王这个题目给了我很大的启发,同时开阔了视野,往往在解决这类型问题的时候第一想法都是先排序再计算.而本题却给出了一个非常好的思路,时间复杂度为O(N). 它还有一个扩展问题,但是我在网上看了几篇有的写的考虑不周全,有的写的逻辑不是很清楚,这里我也根据思考和查阅,给出我自己的解法. typedef int Type; //给出Id的一个抽象 Type candidate[3] = {0}; //说明传的这个参数前要初始化. void find3(Type* ID,int N,Type* c

编程之美2.3 寻找发帖水王

这道题目由于不容易写测试用例,所以,可以把题目转换为:在一个数组中,有一个数字出现的次数超过了数组大小的一半,这和题目原意是一样的. 这道题目的思想是我们同时去掉数组中两个不一样的数字,那么,数组中原来存在的规律是不变的(仅针对这个题目). 好吧,还是先给出函数声明: /*2.3 寻找发帖水王*/ bool DutVerify(int*, int, int); int DutFindNumMoreThanHalf(int*, int); 可以看到,函数声明中多了一个:DutVerify,这个函数

寻找发帖水王

理论: java实现: package 经典; public class 寻找发帖水王 { /** * @param args */ public static void main(String[] args) { // TODO 自动生成的方法存根 int[] a={1,6,4,6,5,6,6,7,6,6,6,3,6,6,13,6}; System.out.println(find(a)); } public static int find(int []a) { int result=0,ti

编程之美2.3: 寻找发帖水王

题目:传说,Tango有一大"水王",他不但喜欢发帖,还会回复其他ID发的帖子,发帖数目超过帖子总数的一半,如果你有一个当前论坛上所有帖子的列表,其中帖子作者的ID也在表中,你能快速找到这个传说中的Tango水王吗? 解题思路:由于水王的发帖数目超过一半,当每次删除两个不同ID的帖子时,水王占得帖子数目仍然大于剩下帖子的一半,重复整个过程,将ID列表中的ID总数降低,转化为更小的问题,从而得到最后水王的ID. #include <iostream> #include <

第2章 数字之魅——寻找发帖“水王”

寻找发帖“水王” 问题描述 Tango是微软亚洲研究院的一个试验项目.研究院的员工和实习生们都很喜欢在Tango上面交流灌水.传说,Tango有一大"水王",他不但喜欢发贴,还会回复其他ID发的每个帖子.坊间风闻该"水王"发帖数目超过了帖子总数的一半.如果你有一个当前论坛上所有帖子(包括回帖)的列表,其中帖子作者的ID也在表中,你能快速找出这个传说中的Tango水王吗? 解法 采用Map存储每个ID和它出现的次数,之后遍历一遍Map找出其中的“水王”,时间复杂度为O

编程之美2.3笔记:寻找发帖“水王”

<编程之美>2.3: Tango是微软亚洲研究院的一个试验项目.研究院的员工和实习生们都很喜欢在Tango上面交流灌水.传说,Tango有一大“水王”,他不但喜欢发贴,还会回复其他ID发的每个帖子.坊间风闻该“水王”发帖数目超过了帖子总数的一半.如果你有一个当 前论坛上所有帖子(包括回帖)的列表,其中帖子作者的ID也在表中,你能快速找出这个传说中的Tango水王吗? 当面试的时候我们遇到这样的问题,应该怎么去思考呢?读SICP的一个很大的收获是,学会抽象.贵族娱乐城 抽象 抽象就是从问题中提取

寻找发帖“水王”

题目背景:Tango是微软亚洲研究院的一个试验项目.研究院的员工和实习生们都很喜欢在Tango上面交流灌水.传说,Tango有一大"水王",他不但喜欢发贴,还会回复其他ID发的每个帖子.坊间风闻该"水王"发帖数目超过了帖子总数的一半.如果你有一个当前论坛上所有帖子(包括回帖)的列表,其中帖子作者的ID也在表中,你能快速找出这个传说中的Tango水王吗? 方案一:就是对发帖的ID 进行排序.对排完序的ID进行查找超过一半的ID号,排序的时间复杂度为O(N*logN).

【编程之美】寻找发帖&quot;水王&quot;

Tango是微软亚洲研究院的一个试验项目.研究院的员工和实习生们都很喜欢在Tango上面交流灌水.传说,Tango有一大"水王",他不但喜欢发帖,还会回复其他ID发的每个帖子.坊间风闻该"水王"发帖数目超过了帖子总数的一半.如果你有一个当前论坛上所有帖子(包括回帖)的列表,其中帖子作者的ID也在表中,你能快速找出这个传说中的Tango水王吗? 方法一:暴力求解 对每一个ID,遍历整个列表,统计出现的次数,如果超过一半,则说明找到了"水王".复杂度