Skip to content

四火的唠叨

一个纯正程序员的啰嗦

Menu
  • 所有文章
  • About Me
  • 关于四火
  • 旅行映像
  • 独立游戏
  • 资源链接
Menu

一道位运算的算法题

Posted on 10/01/201406/23/2019 by 四火

programmer

最近遇到这样一道算法题:

Given an array of integers, every element appears three times except for one. Find that single one.

一组整数,除了一个只出现一次以外,其他每个整数都恰好出现三次,要寻找那个特殊的整数。

似曾相识

首先,它让我想起了另外一道类似的题目,如果把上面的“ 恰好三次”,改成“ 恰好两次”,寻找那个特殊的整数,又该怎么解?

那样的话,我希望找到一个方法,让两个相同的数进行运算以后,能够泯灭掉,这样所有的数进行运算,剩下的值就是那个特殊的数。恰好有这样的方法,这个方法就是“ 异或”:

public int singleNumber(int[] A) {
    int total = 0;
    for (int a : A)
        total ^= a;
    return total;
}

通用算法

“ 恰好两次” 恰好有“ 异或” 来解,现在“ 恰好两次” 变成了“ 恰好三次”,推广一点说,如果是“ 恰好 N 次”,该怎么解?

通用的算法中,用一个 HashMap 可以得到复杂度近似为 n 的解法,key 为数字本身,value 计数,到三次的时候 delete 掉这个 entry,循环完成以后整个 HashMap 中剩下的就是那个特殊的整数了。这个解法普普通通,没有叙述的必要。这个方法可以保证“ 恰好 N 次” 一样解决。这个算法很简单,就不写出来了。

另外一个思路,借由位操作,对于整数 32 位,对于每一位,整个数列的数加起来去取 3 的余数,就是那个特殊的数在该位上的值。这个方法也可以保证“ 恰好 N 次” 一样能够被解决:

public int singleNumber(int[] A) {
	int ret = 0;
	for (int i = 0; i < 32; i++) {
		int c = 0, mask = 1 << i;  // ① mask, 第 i 位为 1,其他位都为 0
		for (int j = 0; j < A.length; j++) {
		int val = (A[j] & mask);
		if ( val>0 || val<0 ) {  // ② 如果该数在这一位上为 1,计数器就加一
			c++;
			}
		}
		if (c%3 > 0)  // ③ 这一位的计数除以 3 取余数,在这里只可能为 0 或 1
			ret |= mask;
	}
	return ret;
}

关于补码

但是,我在一开始实现这个算法的时候,在上面代码中②的位置,我漏掉了 val<0 的情况,因为第一印象告诉我,一个正整数去与上一个掩码数,会得到一个正整数。但是这是错误的印象。比如在参数 A 等于 { -1, -1, -2, -1 } 的时候,漏掉 val<0 的结果等于一个荒唐的 2147483646。

这是为什么呢?

因为负数在内存中是以补码方式存放的,第一位最高位是符号位,0 表示正数,1 表示负数,仅当表示负数的时候,余下的 31 位等于那个数的数值每一位都取反,然后加 1。例如-1,这 32 位数是:

// 取反加一前:
1(符号位)000 0000 0000 0000 0000 0000 0000 0001
// 取反加一后:
1(符号位)111 1111 1111 1111 1111 1111 1111 1111

32 位整数的范围是从-2147483648 到 2147483647,为何负值比正值能表示的数多一个,就在于这个“ 加一”(表示 0 的时候符号位是 0,相当于表示 0 的时候占用了正数的表示法)。

所以,如果漏掉了上面代码中 val<0 的情况,在执行到 i=31 的循环的时候,掩码 mask 即 1<<i 是-2147483648,因为它把符号位给变成了 1,后面都是 0:

// 即
1(符号位)000 0000 0000 0000 0000 0000 0000 0000
// 如果按照“ 取反加一” 的规则,它是由它自己取反加一而来的,发生了溢出
1(符号位)000 0000 0000 0000 0000 0000 0000 0000

所以这个数也是补码表示的负数中,最特殊的一个。

那为什么上面说漏掉 val<0 之后算错的结果是 2147483646 呢?

这个实际要求解的数-2 在内存中的表示是这样的:

// 取反加一前:
1(符号位)000 0000 0000 0000 0000 0000 0000 0010
// 取反加一后:
1(符号位)111 1111 1111 1111 1111 1111 1111 1110
// 符号位错误:
0(符号位)111 1111 1111 1111 1111 1111 1111 1110

由于前面说到的,符号位错误了,变成了正数,而正数的表示法可不是补码表示,所以得出了 2147483646 这个数。

借助两个数的每一位存储信息

下面这个方法稍微有点难理解,而且很容易写错。需要两个数(one 和 accumulation),因为一个数在每一位上面无法存放超过两次同样的数出现的信息。每次循环中,需要先标记出现,然后再清零出现过三次的标志位。最终 one 留下的每一位都是无法清零的,即出现次数不是 3 的整数倍的。

public int singleNumber4(int A[])
{
	int one = 0; // 出现一次的标志位
	int accumulation = 0; // 积累标志位
	for (int i = 0; i < A.length; i++)
	{
		accumulation |= A[i] & one; // 只要第二次或者以上出现,就为 1
		one ^= A[i];  // 出现奇数次保留,偶数次抛弃
		int t = one & accumulation;  // 第三次的时候 one 和 accumulation 都保留了该位的值
		one &= ~t;  // 清零出现三次的该位的值
		accumulation &= ~t;
	}
	return one;
}

其实,这道题还有许多其他做法,既包括利用位运算的其他做法,也有那种“ 先排序,然后再寻找特殊数” 这样突破常规想法的解法(其实我觉得先排序这样的做法很好啊,虽然复杂度稍微高一些(取决于排序的时间复杂度了),但是清晰,而且通用性更好。方法虽然简单,但是我大概受到的教条式思维太严重了,这样的方法根本没有想到……)。

==================================================

【2014-11-9】偶然知道还有一种看起来更简单的方式,来自这里:

public int singleNumber(int[] A) {
    int ones = 0, twos = 0;
    for(int i = 0; i < A.length; i++){
        ones = (ones ^ A[i]) & ~twos;
        twos = (twos ^ A[i]) & ~ones;
    }
    return ones;
}

欢迎讨论。

文章未经特殊标明皆为本人原创,未经许可不得用于任何商业用途,转载请保持完整性并注明来源链接 《四火的唠叨》

×Scan to share with WeChat

你可能也喜欢看:

  1. 求第 K 个数的问题
  2. LeetCode 题目解答——Medium 部分(下)
  3. Javascript Memoizer
  4. 青蛙跳台阶问题的三种解法
  5. LeetCode 题目解答——Medium 部分(上)

6 thoughts on “一道位运算的算法题”

  1. Anonymous says:
    11/01/2014 at 6:57 PM

    数组求和,让后除以 3 取余数就是了

    Reply
  2. Calvinxiao says:
    10/21/2014 at 6:27 PM

    其实我想到了一种解法,就是用快排时的分区算法,对一个数组分好区之后必然一边的长度会是 3 的倍数,而另一边的不是,那么就继续在长度不是 3 的倍数那边去找。
    <code>
        public class Solve
        {
            public int find(int[] a)
            {
                int l = 0, r = a.Length – 1;
                while (l < r)
                {
                    Random rand = new Random();
                    int randIdx = rand.Next(l, r + 1);
                    int x = a[randIdx];
     
                    int i = l, j = r;
                    do
                    {
                        while (a[i] <= x) i++;
                        while (a[j] > x) j–;
                        if (i <= j)
                        {
                            int t = a[i];
                            a[i] = a[j];
                            a[j] = t;
                            i++;
                            j–;
                        }
                    } while (i <= j);
                    int left = j – l + 1;
                    if (left % 3 != 0)
                        r = j;
                    else
                        l = i;
                }
                return a[l];
            }
        }
    </code>

    Reply
  3. ld says:
    10/14/2014 at 3:58 PM

    最后一种解法里面:
    acc |= A[i] & one 
    不能保证出现两次以上的才为 1
    假设 A[i] 是 1,2, 3, 1, 2, 3, 1 即 1 出现 3 次,2 出现 3 次,3 只出现 1 次
    循环第一次碰见 3 的时候 (one 是 1^2 = 3)
    到时 acc = 3 |3 = 3,这时 3 才出现 1 次,不满足两次以上

    Reply
    1. ld says:
      10/14/2014 at 4:00 PM

      Sorry, 我理解算了,这里是以位做单位算出现次数的

      Reply
  4. 竇小蹦與畫家 says:
    10/09/2014 at 12:00 AM

    好吧,我就只想到了你的最後一種辦法… 我也僵化了。。。
    int singleNumber(int array[], int size) {
        // one, two, three
        // the mask code indicating times of 1s for the i-th bits
        int one = 0, two = 0, three = 0;
        for (int i = 0; i < size; ++i) {
            two |= (one & array[i]);
            one ^= array[i];
     
            three = one & two;
            one &= ~three; // clear the third time appeared bits
            two &= ~three;
        }
        return one;
    }
     

    Reply
  5. Anonymous says:
    10/08/2014 at 10:12 AM

    关键是,哪种算得更快?优化算法是为了提高速度
    如果后者花的时间更长,那又有什么意义呢?

    Reply

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

订阅·联系

四火,啰嗦的程序员一枚,现居西雅图

Amazon Google Groovy Hadoop Haskell Java JavaScript LeetCode Oracle Spark 互联网 亚马逊 前端 华为 历史 同步 团队 图解笔记 基础设施 工作 工作流 工具 工程师 应用系统 异步 微博 思考 技术 数据库 曼联 测试 生活 眼界 程序员 管理 系统设计 缓存 编程范型 美股 英语 西雅图 设计 问题 面向对象 面试

分类

  • Algorithm and Data Structure (30)
  • Concurrency and Asynchronization (6)
  • System Architecture and Design (43)
  • Distributed System (18)
  • Tools Frameworks and Libs (13)
  • Storage and Data Access (8)
  • Front-end Development (33)
  • Programming Languages and Paradigms (55)
  • Testing and Quality Assurance (4)
  • Network and Communication (6)
  • Authentication and Authorization (6)
  • Automation and Operation Excellence (13)
  • Machine Learning and Artificial Intelligence (6)
  • Product Design (7)
  • Hiring and Interviews (14)
  • Project and Team Management (14)
  • Engineering Culture (17)
  • Critical Thinking (25)
  • Career Growth (57)
  • Life Experience and Thoughts (45)

推荐文章

  • 聊一聊分布式系统中的时间
  • 谈谈分布式锁
  • 常见分布式系统设计图解(汇总)
  • 系统设计中的快速估算技巧
  • 从链表存在环的问题说起
  • 技术面试中,什么样的问题才是好问题?
  • 从物理时钟到逻辑时钟
  • 近期面试观摩的一些思考
  • RSA 背后的算法
  • 谈谈 Ops(汇总 + 最终篇):工具和实践
  • 不要让业务牵着鼻子走
  • 倔强的程序员
  • 谈谈微信的信息流
  • 评审的艺术——谈谈现实中的代码评审
  • Blog 安全问题小记
  • 求第 K 个数的问题
  • 一些前端框架的比较(下)——Ember.js 和 React
  • 一些前端框架的比较(上)——GWT、AngularJS 和 Backbone.js
  • 工作流系统的设计
  • Spark 的性能调优
  • “残酷” 的事实
  • 七年工作,几个故事
  • 从 Java 和 JavaScript 来学习 Haskell 和 Groovy(汇总)
  • 一道随机数题目的求解
  • 层次
  • Dynamo 的实现技术和去中心化
  • 也谈谈全栈工程师
  • 多重继承的演变
  • 编程范型:工具的选择
  • GWT 初体验
  • java.util.concurrent 并发包诸类概览
  • 从 DCL 的对象安全发布谈起
  • 不同团队的困惑
  • 不适合 Hadoop 解决的问题
  • 留心那些潜在的系统设计问题
  • 再谈大楼扔鸡蛋的问题
  • 几种华丽无比的开发方式
  • 我眼中的工程师文化
  • 观点的碰撞
  • 谈谈盗版软件问题
  • 对几个软件开发传统观点的质疑和反驳
  • MVC 框架的映射和解耦
  • 编程的未来
  • DAO 的演进
  • 致那些自嘲码农的苦逼程序员
  • Java 多线程发展简史
  • 珍爱生命,远离微博
  • 网站性能优化的三重境界
  • OSCache 框架源码解析
  • “ 你不适合做程序员”
  • 画圆画方的故事

近期评论

  • Ticket: TRANSACTION 1.922915 BTC. Go to withdrawal >> https://yandex.com/poll/enter/BXidu5Ewa8hnAFoFznqSi9?hs=20bd550f65c6e03103876b28cabc4da6& on 倔强的程序员
  • panshenlian.com on 初涉 ML Workflow 系统:Kubeflow Pipelines、Flyte 和 Metaflow
  • panzhixiang on 关于近期求职的近况和思考
  • Anonymous on 闲聊投资:亲自体验和护城河
  • 四火 on 关于近期求职的近况和思考
  • YC on 关于近期求职的近况和思考
  • mafulong on 常见分布式基础设施系统设计图解(四):分布式工作流系统
  • 四火 on 常见分布式基础设施系统设计图解(八):分布式键值存储系统
  • Anonymous on 我裸辞了
  • https://umlcn.com on 资源链接
© 2025 四火的唠叨 | Powered by Minimalist Blog WordPress Theme