摸鱼概论

摸鱼,是我们日常紧张工作中的一段放松时光,在摸鱼的时刻,你可以做任何你想做的事情,如果你有一个靠窗的工位,你甚至可以望着窗外发呆。记得有一个阳光明媚的下午,我坐在工位上,看着窗外一个女生,在围着园区的小院子,跑圈。那一刻,我仿佛回到了初中,坐在教室里,望着窗外操场,正在体育课上游戏的同学们。

摸鱼,跟开小差有着本质的区别,开小差是指我们当前在做某一个事时的分心,比如我们在参加一个会议,但我们听不下去了,这时候我们就会开小差,人还在会议室里,但是心不知道跑到哪里去了。而摸鱼,则是工作不饱和时的一种个人选择,一天8小时的工作时间,你可能花了5个小时就把这一天的活全部干完了,那剩下的3小时,就只能在摸鱼中度过。当然,我们也可以选择在工作不饱和时跟老板要求更多的工作,以承担更大的责任。但是,这样的选择,一般不会提升我们的工资水平(毕竟不是计件的工作),亦或者当我们的工资水平提高时,我们也很难将其与当下是否选择摸鱼关联起来。

我们喜欢摸鱼,但是呢,我们又害怕老板看到我们正在摸鱼。虽然这并不会有什么实质性的惩罚。但是如果老板看你摸鱼多了,就会怀疑你的工作是否不饱和。把原来排期5天的任务,改成排期1天,这可咋整?

所以,摸鱼的要义,在于,鱼,我摸了,还要尽可能地不让老板发现,让他以为我的工作是饱和的。

那老板什么时候会发现,我们在摸鱼呢?根据我的观察,首先,老板日常也是有很多工作的,除非你坐在老板旁边,否则老板专心工作的时候,是发现不了你在摸鱼的。其次,如果你坐在老板附近,但又不紧挨着老板的话,那么一般只有在老板离开或回到工位的时候,有机会发现你在摸鱼。因为他难免在路途中环顾四周,观察组员的工作状态。

在日常工作中,促使老板离开或回到工位,一般有三种场景。老板去开会、老板去茶水间接水、老板去洗手间。

老板去开会的场景,相对可以预测,因为我们可以在钉钉的日程表里面看到老板当下的闲忙情况。我们摸鱼的时间只要避开老板日程表由闲转忙的时间点即可。因为这个时候,他很有可能要起身去会议室开会了。

老板去茶水间接水,同样也相对可以预测,如果他用了一个透明水杯的话,我们只需观察他水杯里的水位情况即可。如果水杯里的水是满的,那我们即可放心享受片刻的摸鱼时光。

老板去洗手间,则根本无法预测,因为他可以在任何他方便的时候,起身去一趟洗手间。正是因为有这种不可预测的随机数存在,加剧了我们摸鱼时不被发现的难度。

摸鱼三定律

我们假设,在某一时刻,你在摸鱼的概率为aa,因为我们总是带薪摸鱼,所以在这段摸鱼的时光中,公司付出但没有任何实际效用的工资为pp。而这个时候,老板起身离开工位的概率是bb。我们假定,老板每次在起身离开工位的路途中,都会环顾四周,如果此时我们在摸鱼,那么老板一定能够发现,一旦老板发现,他有η\eta的概率觉得我们是在开小差,而不是工作不饱和。当他觉得我们在开小差时,我们不会有任何损失。而当他认为我们工作不饱和时,也就是1η1-\eta时,他会立刻提升我们的工作强度至饱和状态。同时,不管老板起身去干啥,在他起身环顾四周的这段路途中,公司也是要为之付出成本的,我们将老板在路途中的这段时间,公司付给他的工资记为ss。同时,如果我们在该摸鱼的时候,没有选择摸鱼,那我们下次就不一定有机会再摸一段和现在相同时光的鱼了。比如说,你的老板现在不在工位,而且未来半小时内都不会回来,那么你如果现在不赶紧摸上半个小时的鱼的话,等老板回来了,你再想摸,很可能就会产生变数,我们定义一个摸回系数μ\mu,表示在老板回来之后,比着你现在摸鱼,我们能在老板的眼皮子低下,摸回来的那一部分的比例。由此,我们可以得到如下的博弈矩阵:

老板
起身 不起身
摸鱼 ((η+ημ1)p,s)((\eta+\eta\mu-1)p, -s) (p,p)(p, -p)
不摸鱼 (μp,sμp)(\mu p, -s-\mu p) (μp,μp)(\mu p, -\mu p)

当我在摸鱼时,老板起身,发现我在摸鱼。此时,如果老板认为我工作不饱和,然后提升我的工作量,那么我将损失一整段的摸鱼时光,我的收益是p-p,如果老板仅认为我在开小差,那我们我未来是可以把鱼再摸回来的,只不过摸得可能不如现在多了而已,那么我的收益是μp\mu p。加权老板认为我在开小差的概率η\eta,此时,我的期望收益来到了E=p(1η)+ημpE=-p(1-\eta)+\eta\mu p,化简后即为上表中的(η+ημ1)p(\eta+\eta\mu-1)p。同时,公司因为老板起身,所付出的额外工资为ss,所以公司的收益为s-s

当我在摸鱼时,老板不起身,此时老板因为不知道我们的工作状态,所以他既不会觉得我们在摸鱼,又不会看出我们在开小差。此时,我们可以享受一段完整的摸鱼时光,我们的收益来到了pp,而公司因为我们摸鱼,在没有得到任何工作成果的情况下,还要付我们带薪摸鱼这段时间的工资,公司的收益即为p-p

当我没有在摸鱼,而老板起身。此时,因为我们现在该摸的鱼,还没有摸,如果未来工作量不发生变化的话,这些鱼我们是迟早要摸回来的,而我们又无法笃定这一点,所以引入摸回系数后,我们此刻不摸鱼的收益为μp\mu p。同样,公司付出了老板起身的成本ss和未来我们摸回这部分鱼时的工资μp\mu p,公司的收益即为sμp-s-\mu p

当我没有在摸鱼,而老板也没有起身的时候。依据上述理论,我们的收益为μp\mu p,公司的收益为μp-\mu p

由此,我们可以写出我们的期望收益函数f(a,b)f(a,b)和公司的期望收益函数g(a,b)g(a,b)

f(a,b)=(η+ημ1)pab+pa(1b)+μp(1a)b+μp(1a)(1b)f(a,b)=(\eta+\eta\mu-1)pab+pa(1-b)+\mu p(1-a)b+\mu p(1-a)(1-b)

g(a,b)=sabpa(1b)+(sμp)(1a)bμp(1a)(1b)g(a,b)=-sab-pa(1-b)+(-s-\mu p)(1-a)b-\mu p(1-a)(1-b)

二者化简后可得:

f(a,b)=(η+ημ2)pab+(1μ)pa+μpf(a,b)=(\eta+\eta\mu-2)pab+(1-\mu)pa+\mu p

g(a,b)=(pas)b(1μ)paμpg(a,b)=(pa-s)b-(1-\mu)pa-\mu p

对于我们而言,我们的收益函数为f(a,b)f(a,b),其中我们能控制的变量只有aa,也就是说我们要不要摸鱼的概率,我们是没有办法控制老板当前是否起身的概率bb的。同样,对于老板而言,其收益函数为g(a,b)g(a,b),他也只能控制自己起身的概率bb,他是没有办法控制我们摸鱼的概率aa的。此时,我们将二者的收益函数对各自所能控制的变量求一阶导,当一阶导为0时,所解出来的a,ba, b即为这个动态博弈过程中的混合策略纳什均衡解。即:

fa=0(η+ημ2)pb+(1μ)p=0\frac{\partial f}{\partial a}=0 \rightarrow (\eta+\eta\mu-2)pb+(1-\mu)p=0

gb=0pas=0\frac{\partial g}{\partial b}=0 \rightarrow pa-s=0

结果为:

a=sp,b=1μ2ηημa=\frac{s}{p}, b=\frac{1-\mu}{2-\eta-\eta\mu}

将其带回上述的期望函数,可以得到均衡条件下的各方的期望收益为:

f=μpf'=\mu p

g=(1μ)sμpg'=-(1-\mu)s-\mu p

纯数学符号的计算,往往显得过于枯燥,我们来代入一些数字,使这个过程生动起来。

假设我们每分钟的工资是3元,如果按一天8小时,一个月平均22.5个工作日的话,就是月薪32400元,这个数字显然还算合理。也就是说,我们摸鱼1分钟的收益p=3p=3元。假设我们老板的工资,恰好是我们的一倍,也就是每分钟6元。老板在起身环顾四周的途中,大约会消耗10秒钟的时间,来观察组内成员是否摸鱼,也就是说公司一次监督的成本是s=1s=1元。

同时,假定老板每次发现我摸鱼都有50%的概率认为我在摸鱼,即η=0.5\eta =0.5。如果我们错过了现在的摸鱼时光,未来我们有50%的概率能够把现在没摸的鱼再摸回来,即μ=0.5\mu =0.5

那么,当我们一次摸鱼的概率取到a=13a=\frac{1}{3},老板起身的概率取到b=25b=\frac{2}{5}的时候,我和公司的这场摸鱼博弈将达到稳定状态,双方均无动机改变策略。此时,我摸鱼一分钟的收益为1.5元,公司的损失为2元。

无动机改变策略是指,在不改变游戏规则(参数)的情况下,当我以13\frac{1}{3}的概率摸鱼时,公司的损失将是一个定值,2元,不管老板怎么改变他起身的概率,这一损失都不会继续扩大或缩小(此时老板的收益函数斜率为0,这也是上文求解导数等于0的意义),所以老板无动机改变起身的策略。

同样,当老板起身的概率为25\frac{2}{5}时,我摸鱼的收益都会是一个定值,1.5元,不管我怎么改变摸鱼的概率,这一收益同样也不会继续扩大或缩小(此时我的收益函数斜率为0),所以我也无动机改变摸鱼的策略。

因此,当我以13\frac{1}{3}的概率摸鱼,且老板以25\frac{2}{5}的概率起身时,我们两个的博弈达到稳定状态,双方均无动机继续调整策略。我们将这种状态称为混合策略纳什均衡。

同时,我们观察上文中的混合策略纳什均衡解,可以得出我们的摸鱼三定律:

当达到混合策略纳什均衡时,我们摸鱼的概率a=spa=\frac{s}{p},与我们一次摸鱼的收益pp呈负相关,而我们摸鱼的收益可由我们单位时间的工资乘以摸鱼的时长得出,所以可以得出我们的摸鱼第一定律:我们的工资越高,我们摸鱼的概率就越低。「比待遇越比心胸越窄,讲奉献越讲境界越高」,这种喊口号的行为只能提高公司对摸鱼行为的监督成本,继而增大员工摸鱼的概率,实实在在地提升员工工资才是降低员工摸鱼行为的有效方式。很多人称这种方式叫高薪养廉。

如果没有前面的计算,我只是单纯和你说,要想降低员工摸鱼的概率,就要提高员工的工资水平。你可能很难接受这一说法,并且一定能举出反驳这一观点的例子来。

我的博弈论老师曾跟我说过,要让人接受自然科学的知识,相对容易,而让人接受社会科学的知识,则相对困难。博弈论发展到今天,为什么会选择通过数学计算的方式向人们呈现,很大一个考虑就是数学证明是一个相对严格,而且相对容易使绝大多数人接受的方式。这其实也是经济学家们在不断的口水战中,取得的一个均衡。

同时,因为我们摸鱼的概率a=spa=\frac{s}{p}。我们发现当公司监督成本sps\ge p时,我们一定会选择摸鱼,因为公司一次监督的成本,要比抓到我们摸鱼所带来的收益大,抓摸鱼是一个纯赔本的买卖。而当公司的监督成本为0时,我们一定不会选择摸鱼,因为公司可以无成本地一直监督我们。由此即可得出我们的摸鱼第二定律:当sps\ge ps=0s=0时,这个博弈均可取到一个纯策略纳什均衡,分别为我一定摸鱼公司一定不监督和我一定不摸鱼公司一定监督。

纯策略纳什均衡和混合策略纳什均衡的区别在于,在混合策略纳什均衡下,双方都按一定概率执行策略,而纯策略纳什均衡则是给定一方的策略,另一方一定有100%的概率要这么干。

当达到混合策略纳什均衡时,老板起身监督的概率为b=1μ2ηημb=\frac{1-\mu}{2-\eta-\eta\mu},因为μ\mu是我们现在不摸鱼,而未来把现在没摸到的鱼重新摸回来的概率,所以μ\mu带有天然的值域μ[0,1]\mu \in [0,1],在这一区间内bb关于μ\mu的函数图像是这个样的:

看图即可得出我们的摸鱼第三定律:当我们现在不摸鱼,而未来能把我们现在没摸到的鱼,重新摸回来的概率越大,老板当下选择监督的可能性越小,当我们未来一定能把现在没摸到的鱼重新摸回来时,那老板一定会选择不监督。 这一点其实也很好理解,老板既然都已经知道他管不管你都已经没什么用了,那么他现在为什么要管你呢?

此处严格的证明应该是证明函数b(μ)=1μ2ηημb(\mu)=\frac{1-\mu}{2-\eta-\eta\mu}η,μ[0,1]\eta, \mu \in [0,1]时单调递减,但是,考虑到公式多了,大家就不喜欢看了,所以,画个图就当证明了吧。即得易见平凡,读者自证不难。

抓摸第一定律

上述讨论的,都是在摸鱼这一行为没有任何惩罚的情况下,即便我摸鱼被抓住了,大不了就是老板给我更多的工作量,让我的工作重新充实起来,然后短期内不能再摸鱼而已。而现实情况是,很多公司,尤其是实体产业的流水线工厂,摸鱼是会有惩罚的。我们经常可以在新闻上看到,那些流水线工厂会安排监工巡视流水线工人的工作情况,如果发现有人在摸鱼,就会对工人进行罚款。

我们假设,一次摸鱼被抓住的惩罚是cc,同时这笔罚款将成为公司或老板的额外收入。我们来探讨一下这个惩罚策略将会怎么影响我们的摸鱼行为。

在探讨这个问题之前,我们先来考虑一个前提条件,如果公司为摸鱼设置惩罚,那从老板的视角看,抓到我们摸鱼的时候,还会认为我们是在开小差吗?这个问题要分两种情况考虑:

第一种情况是,老板是这家公司的实际拥有人,或者说控股股东,那么老板一定会认为我们在摸鱼,然后对我们施加处罚。因为抓到我们摸鱼的好处,是完全归老板所有的。同样,如果公司规定,不管谁抓到别人在摸鱼,那么对摸鱼者的惩罚将归举报人所有的话,那举报人出于自身利益最大化的情况考虑,也一定不会认为我们是在开小差。

第二种情况是,老板只是公司内部的高级打工人,他有行使监督的权力,但是对摸鱼者的惩罚,还是归公司所有,抓摸鱼不会对他产生任何额外的好处。在这种情况下,老板一般会从保护自己组内员工,提升团队凝聚力的角度考虑,选择睁一只眼闭一只眼,当他看到我们在摸鱼的时候,也会装作看不见,未来提升我们的工作强度就好了,没有必要去闹到对我们罚款。因此,在这种公司内,对摸鱼惩罚制度的设立,也很容易名存实亡。

用稍专业点的话来说,就是第一种情况的老板拥有剩余索取权,而第二种没有。

由此,在加入对摸鱼者的惩罚后,我们仅考虑第一种情况,即η=1\eta = 1。在此前的博弈中,我们会考虑一个如果现在不摸鱼,未来能不能把现在的鱼继续摸回来的摸回系数μ\mu,但是,如果我们现在不摸鱼,未来摸回来的时候,也是要担着被发现然后被罚款的风险的,所以我们要加一个未来摸鱼的风险发生系数κ\kappaκc\kappa c即为对未来摸鱼的罚款期望。那么未来摸鱼的期望收益即可写成E=μpκcE=\mu p-\kappa c,为了简化计算,我们令τ=μκcp\tau =\mu-\frac{\kappa c}{p},即E=τpE=\tau p。带入摸鱼被抓到的惩罚的cc,我们可以得出如下的博弈矩阵:

老板
起身 不起身
摸鱼 (τpc,s+c)(\tau p-c, -s+c) (p,p)(p, -p)
不摸鱼 (τp,sτp)(\tau p, -s-\tau p) (τp,τp)(\tau p, -\tau p)

同样,我们可以写出我和老板各自的期望收益函数:

f(a,b)=(τpc)ab+pa(1b)+τp(1a)b+τp(1a)(1b)f(a,b)=(\tau p-c)ab+pa(1-b)+\tau p(1-a)b+\tau p(1-a)(1-b)

g(a,b)=(s+c)abpa(1b)+(sτp)(1a)bτp(1a)(1b)g(a,b)=(-s+c)ab-pa(1-b)+(-s-\tau p)(1-a)b-\tau p(1-a)(1-b)

通过上文所述的求导法,我们可以解出这一博弈的混合策略纳什均衡解:

a=sc+p,b=(1τ)pc+(1τ)pa=\frac{s}{c+p}, b=\frac{(1-\tau)p}{c+(1-\tau)p}

观察上述结论,我们发现,在取得混合策略纳什均衡时,我们摸鱼的概率和老板抓摸的概率,均与罚款的数额cc呈负相关,由此即可得到我们的抓摸第一定律:被抓到摸鱼的惩罚越大,我们摸鱼的概率就越小,老板抓摸的概率也越小。 前半句很好理解,关键在于后半句,可能很多人都有疑问,为什么罚款多了,老板抓摸鱼的概率还会变小呢?这是因为罚款多了,我们摸鱼的概率就小了,老板自然也会想到这一点,他会预判我们的预判,所以也会适当降低抓摸的概率。换句话说,老板也会考虑我们对制度的反应,然后把我们的反应放到他的决策因素里面,所以罚款的数额cc也出现在了老板抓摸概率的分母里。

后记

我们所讲的摸鱼理论,有一个很大的前提背景,就是它是一个完全信息博弈。换句话说,我知道老板都有哪些策略以及老板的策略收益是什么,我只是不知道他会怎么执行这些策略而已。但现实是,我不完全知道老板都有什么样的管理策略,我也不完全知道老板在执行不同管理策略的时候,他的收益是什么。我跟老板之间是有信息差的。

我们公司对于管理同学有一套内部的管理方法论,组成的内网网课叫做侠客行。我是没有权限看的。按理来说知己知彼才能百战不殆,现在我不知道老板们的策略是什么,老板们也摸不准我的想法是什么,那应该怎么办呢?这就是博弈论中的典型的不完全信息博弈问题。针对此类问题,博弈论中也是有一套完整的方法论来解决不完全信息博弈的。一种较优的方案是通过海萨尼转换将不完全信息博弈转变为不完美信息博弈,再计算贝叶斯纳什均衡。

此外,在不完全信息博弈中,还可以借助一些社会工程学的手段,来获取更多的有用信息,辅助我们决策。社会工程学,听起来像是一门正经学科,可研究的却都是一些不正经的内容,说得好听,其实就是教人怎么使诈,怎么通过手段,大多是欺骗以及一些不合法的手段,来获取信息。社会工程学有一本很著名的书叫做_The Art of Deception_,直译为中文应该叫做_欺骗的艺术_,但是,当我们国家引进这本书的时候,骗人的艺术,太不正经,于是译者把这本书的中译本,改名叫做《反欺骗的艺术》。利用欺骗得来的信息,很有可能也是一个谎言,博弈论中自然也考虑到了这一点,所以引入了声誉机制和有效沟通理论。

大家大可不必研究博弈论,当个天真的人没有什么不好的,因为这个社会中的很多博弈是可以随着社会的发展自行取得均衡的。我举个例子,我听说上海有一家公司的作息时间是11-11-6,早上11点上班到晚上11点下班,11-11-6算起来跟996的工作时长是一样的,那为什么他们这么晚上班呢?这本质还是不太想卷的人和卷王之间在现有的游戏规则下达成了一种暂时的均衡状态而已,因为即便你改成996,工时虽然没有变,但是能卷到11点的卷王,是不会9点就走的,所以即便改成9点上班,在那些想卷想表现的人那里也会演变为9-11-6,那倒不如干脆11点上班哦。对卷王来说有利,因为老板也是11点来,他们提前卷老板看不到,但是他们下班卷老板看得到,对不太想卷的人来说也有利,都是一块11点下班,在老板的视角里,我和卷王卷的程度好像是一样的,我11点上班比着9点上班还能多睡2个小时呢。11点上班其实就是不太想卷的人和卷王之间,在这场工时博弈中取得的一个纯策略纳什均衡。

一旦一个博弈取得纳什均衡,在不改变游戏规则(激励制度)的情况下,参与者是不会自发改变策略的,也就是说上海的这家公司,在没有外力介入或者公司内部激励制度发生改变的情况下,未来大概率会一直维持11-11-6的作息。这种制度一旦形成,就会有强大的内生阻力阻碍它发生变化,如果我们选择加入,那么作为制度中的个人,很大程度上也只能选择接受。

所以很多事,其实你知道了也没什么用,从博弈的角度讲,你没有动机改变策略,其它个人也没有,相反你知道了还会徒增你的烦恼,就跟学习博弈论一样。