An image to describe post 浅谈「黑匣子思维」

2014年摄于韩国。

2005年3月29日,37岁的伊莱恩要进医院了。她患鼻窦疾病已经有几年,今天要去动手术彻底治愈。这种手术医院已经进行过很多次,从来没有出过问题,主刀医生有三十多年的经验,麻醉师也有十六年的经验。看起来,一切都应当会很顺利。

手术开始,麻醉顺利进行。伊莱恩进行麻醉之后,身体的许多机能会停止运作,为保证呼吸不停顿,医生需要把一个设备从病人口中插入,固定在呼吸道上方,这样氧气就可以直抵肺部。

可是这一次,主刀医生发现,伊莱恩的下颌肌肉太紧张,设备塞不进她的嘴里。在尝试了几分钟无果之后,医生换了个办法,给病人注射松弛剂,于是嘴松开了。不幸的是,伊莱恩的软腭挡住了呼吸道,医生完全看不到呼吸道在哪。

因为一直不能输送氧气,伊莱恩的血氧饱和度已经降低到了40%,通常来说,这个值低于90%就很危险了。40%,已经是仪器能够测量的最低值。情况危险,于是另一位麻醉师也来帮忙了。现在,一共有一名医生、两名麻醉师,外加三名护士。

不过,医生们仍然没法把氧气输送设备插进伊莱恩的呼吸道。事关紧急,按照规定,此时应当采用气管切开手术救命,于是一名护士飞快地拿来了设备,并向医生建议应当进行气管切开。

但是,医生们似乎没有听见护士的建议,他们仍然执着地尝试,一次又一次把设备插到病人的呼吸道中……

最终,医生们成功了,血氧饱和度也恢复到90%。然而为时已晚,大脑和机体的严重损伤已经造成。伊莱恩在重镇监护病房躺了13天之后,遗憾地离开了人世。

故事到此告一段落。美国没有那么紧张的医患关系,也没有医闹,所以医生很迅速也很直接地告诉了伊莱恩的丈夫马丁,表达了遗憾:对不起,麻醉过程中出现了一些意外。发生这样的事情,我们无能为力。我们已经尽力了,非常抱歉。

看起来,虽然有遗憾,也不会以闹剧结束。大家应当互相信任,互相体谅。

然而这次,医生们遇到的情况不一样。伊莱恩的丈夫马丁是一名飞行员,身为飞行员,他非常清楚航空业是如何对待事故,保证安全的。对于妻子的逝世,他没有愤怒,因为他充分相信医生的经验。但是出于飞行员的职业习惯,他忍不住想要知道,到底问题出在什么地方。

马丁找到了重症监护室的负责人,希望还原事情的来龙去脉,找出到底有哪些问题,这些问题该如何改进。为了让对方放心,他还介绍了航空业的普遍做法。可惜,他得到的答复是:对不起,我们医疗卫生行业不是这么做事的。如果你执意要调查,可以去法院起诉。

马丁觉得无法理解。在他所在的行业,2014年以来,每100万次飞行的事故率仅有0.23,创下历史新低。而对于国际航空运输协会成员公司来说,这个数字更是低到了0.12。也就是说,每飞行830万次,才会出现一次事故。这背后当然有航空业时刻紧绷的神经,更重要的是,航空业坚持对事故和潜在事故进行细致周密的复盘,勇于曝光事故,习惯对问题深挖,甚至对尚未造成事故的隐患,也要曝光和深挖。

相比之下,医疗行业的事故率要高得多。据美国《患者安全季刊》统计,每年死于可预防伤害的患者多达40万人——相当于每24小时就有两架波音747坠毁。即便如此,无论在哪个国家,对于医疗事故的调查仍然困难重重。医生们总是觉得:被调查表达的是不信任、不尊重。

几周以前我在文章里提到了《黑匣子思维》,这本书开篇就讲了上面的故事,凸显出不同行业对事故的不同态度和处理方式。航空业的处理方式,作者称为“黑匣子思维”。或者换种说法,就是“形成闭环”:对事故和潜在事故进行细致的分析,不断找到可以改进的点,加以完善,确认问题得到解决,各项指标变化如预期。

在平常人看来,面对事故时,“黑匣子思维”当然要更好。那么这么简单的道理,为什么在航空领域可以落地,在医疗行业施行起来却困难重重呢?

我相信,并不是医疗卫生行业的每一个人,都排斥事后进行详细周密调查的。我也相信,不是航空业的每一个人,都乐于坦然接收调查,进行详细分析的。许多人是身不由己,被习俗、惯例“裹挟”着这么做的。看来,真正重要的是建立这样的习惯和共识。

那么,在其他行业培养这样的习惯容易吗,比如IT行业?可以想见,很不容易。

我曾经尝试在一些的软件开发团队里推行这种“勇于曝光自我问题,勇于剖析其他人问题”的工作习惯。虽然之前设想过可能有阻力,但是无论如何,程序员的接受难度应当比医生小吧,毕竟程序员处理的不是“人命关天”的事情,“系统”也比病人更容易背锅。

结果,遇到的阻力远远超出我的想象。尽管再三重申不追究责任,只做客观探讨,结果仍然很不乐观——当事人默不作声,其他人顾虑重重,会场只剩空荡荡的煎熬。唯一“敢于”发言的反而是新人。不过,除非新人有足够的技术素养,讲的话让人挑不出毛病,否则很容易被不友好的反问和质问给吓到,下次也不敢作声了。

说句题外话,如果你“有幸”一直身在大厂,或者在技术氛围很不错的环境里,估计不会遇到这种困难。但是在“大厂”和“小而美团队”之外,还有大量的团队都存在这样的问题。

这引起了我的好奇,航空业是如何实现黑匣子思维的?航空事故是如何调查的,我一直没看到详细的资料。不过,最近我在一部关于航天的纪录片里看到了有趣的细节。虽然航空和航天不是同一回事,“黑匣子思维”却是可以借鉴的。

这部纪录片是2008年的When We Left Earth,讲述的NASA(美国宇航局)成立50周年来对太空持续不断的探索。其中有一集,花了不少篇幅讲解1986年“挑战者”号航天飞机的事故。今天许多人大概都知道,1986年1月28日,“挑战者”号航天飞机在升空73秒之后爆炸,是航天史上的一大悲剧。

在纪录片中我看到,“挑战者”号航天飞机爆炸之后,地面指挥中心立刻对所有现场人员发出了这样的指令。

An image to describe post 浅谈「黑匣子思维」

站立者为时任美国宇航局局长(NASA Director)Gene Kranz,之前在多次航天任务中担任飞行总指挥(Flight Director)。

原来,即便是极为在乎降低事故率的航天领域,“黑匣子思维”也不是完全靠自觉进行的,明确的指令、严格的规范,都是不可或缺的。在航天飞机爆炸这么大的事故面前,没有面面相觑或者乱成一团,而是第一时间下达明确指令,这明显不是“灵机一动”能做到的。

NASA做得还不只这些,为了确定事故的原因,碎片搜索的范围达到了1600平方千米,最深处是在370米深的海底。整个搜索过程持续三个多月,直到判断基本可以定位问题的根源,碎片搜索行动才告结束。

看到这里,我想起自己经历过不少IT系统的灾难,它们的严重程度当然赶不上“挑战者”号失事,处理过程却没有NASA的规范:IT灾难更多仍然靠高手来力挽狂澜,现场数据的保存并没有明确的要求,事后的分析和还原工作,也因为证据不足或者成本太高无疾而终。最终,或许有一个形式上的结论,却不是“根本原因”。

NASA做得这么好,是不是应当称为学习的榜样?非也,根据调查结论,NASA仍然受到大量的批评。

事后美国成立了总统调查委员会,主席是前国务卿威廉·罗杰斯(所以也称为“罗杰斯调查委员会”),成员还有宇航员尼尔·阿姆斯特朗(第一个登上月球的人)、物理学家里查德·费曼(大名人)等等。可以说,没有让NASA自行调查,而是包含了那么多“局外人”的潜台词之一就是:信不过。

经过几个月的调查,调查委员会不但指出了技术原因是发射时温度太低导致密封圈失效,还进一步挖出了宇航局工作文化中的问题:与供应商沟通不够,决策流程有重大缺陷…… 费曼并且非常直白地指出:要想在技术上获得成功,必须把事实放在公关之上,因为大自然是不可欺骗的。美国总统里根更是直接下令,宇航局必须在三十天内落实全部整改措施。

这种“打破砂锅问到底”的追寻,最终取得了什么结果?32个月之后,宇航局才进行了下一次航天飞机发射,检查更严格,后续发射的频率更低,花里胡哨的任务也没有了——要知道,正是之前持续发射成功导致了盲目的乐观情绪,“挑战者”号搭载女中学教师的一部分考虑正是吸引公众的注意力。结果,之后的航天飞机任务确实没有再出现事故。

然而,17年后悲剧再一次发生,“哥伦比亚”号航天飞机在返航时解体。“哥伦比亚”号事故的调查委员会毫不客气地指出:“NASA未能从挑战者的事故中学到足够多的教训,特别是未能真正的设立独立作业的安全监督小组”,“NASA对罗杰斯委员会的回应并没有达到委员会的初衷”。“造成对挑战者号(事故)负有责任的制度失效原因并未消除”。

这个故事说明了什么?在我看来,它说明了:即便对于有开放精神的行业和团队,“黑匣子思维”的建立和维持也不是件容易的事情,时常需要借助外力来刺激,否则就容易退化。

前段时间我和一位做开发的朋友聊天,他讲了个很有意思的故事。他供职于一家以温暖、人性化的文化著称的大厂,大家都很认同自己公司的企业文化。前不久,公司从某讲究“狼性”的公司引进了一名技术人才,这名新同事说话做事都不太讲究,与公司文化不太合拍,不过大家也还能忍。更麻烦的是,新同事的“狼性”十足,遇到问题根本不顾及面子,也不怕得罪人,“挖地三尺”也要把根源找出来。

一开始,大家都特别不适应这种方式。无可否认,大家的职业素养本来就很高,但也要顾忌同事关系和团队配合,所以许多问题和故障的分析“适可而止”了。新同事来了之后,就再没有发生过“适可而止”的事情,牵连出来的变量、挖出来的关系链条都比之前大大增加。大家表面上不说,内心都相当不屑,认为是小题大做。

再过一段时间,神奇的变化出现了。以前认为过于复杂的问题,现在逐渐有了分析的思路;以前认为太过困难的问题,现在发现不那么困难了…… 这时候,大家才终于意识到,原来挖得深一点,问得紧一些,是真正能看到好处的。

听到这个故事的事后,我想到了两点:第一,许多人反感“狼性”,其实适当的“狼性”是需要的,但这种“狼性”应当是对事深挖三尺,而不是对人穷追猛打;第二,许多团队即便已经“足够优秀”,只要能够容忍“对事不对人”的狼性,面对问题勇于曝光、敢于深挖——尤其是面对新鲜血液时——仍然是能挖掘潜力,取得更大成绩的。

如果团队还没有那么多“黑匣子思维”,又没有引入合适的新鲜血液?如何建立“黑匣子思维”的意识和习惯?我觉得,多提问题是个好办法。

以前我写过《 丰田生产方式的启发》,其中没有提的一点是,丰田生产方式要求“遇到故障一定要问五个为什么”。比如车门出现了某种缺陷,提问方式大概是这样的:

为什么车门出现这种缺陷?因为螺丝没有拧紧。为什么螺丝没有拧紧?因为工人不敢用太大的力气。为什么工人没有用太大的力气?因为没有扭力扳手,力度没有明确指示。为什么没有扭力扳手?因为五个人只配备了两把扭力扳手,没有机会使用。为什么五个人只配备两把?因为扭力扳手很贵,生产部门不知道会出现这种故障,从节省成本的角度考虑,没有给每个人都配备。

最终的解决之道,就是明确向生产部门提出需求,要求给每个人都配备扭力扳手。在这之前,无论是要求工人拧紧螺丝,还是要求工人每次用适当的力气,或者是要求大家轮换用扭力扳手,都没有解决问题的根源。

这种场景,相信许多程序员也不陌生。为什么没有预料到故障的发生?因为缺乏监控。为什么缺乏监控?因为不了解具体情况,不知道要监控什么。为什么不了解具体情况?因为数据量太大了。为什么数据量太大是问题?因为缺乏分析手段。那么,为什么不抽样调查?…… 所以,结论就是抽样调查。许多问题只要追问到这个程度,就不再是“不可解决”的,就不再有抽象的困难。

为什么一定要这样追问才能解决问题呢?坦白说,最早看到丰田生产方式要求问“五个为什么”的时候,我也有同样的疑惑。后来我才明白了:“黑匣子思维”,探究问题的根源,说起来容易做起来难,许多时候甚至有悖于人性,所以当事人很容易就给自己找个借口中止了。多问几个为什么,其实是逐个击穿自我设置的障碍,努力接近最终答案的过程。

P.S. 受朋友启发,为了改善大家的阅读体验,我也录了一段音乐放在文章开头,希望大家喜欢。


今天希望和大家分享的不是书籍,而是一部纪录片,名字在上文已经提过:When We Left Earth(豆瓣得分9.4,相当高)。它用诸多珍贵的历史镜头,和当事人的详细访谈,真实反映了NASA探索太空的波澜壮阔的历程。

An image to describe post 浅谈「黑匣子思维」

看到最早大家不知道应当派什么人去太空,有人提出杂技演员最适合上天,我们大概会发笑;看到阿波罗计划步步为营,阿波罗10号在已经“可以登月”的情况下仍然只验证近月轨道,所以没有满载燃料以防宇航员“强行登月”,我们会对宇航员的遗憾感同身受;看到“哈勃”望远镜上天发现问题,宇航员在地面上演练过千万次修复,第一次太空出舱行走替换完零件之后却始终无法关闭望远镜舱门,地面指挥中心差点要决策放弃整个修理计划,我们会和画面中的人员一同焦灼…… 每一个片段,都是人类探索广袤宇宙的的一步,扎实而艰辛。

我个人感觉,相比如今不少公司火热的创业史,这整段历史虽然缺乏“专业的”粉饰,却更让人激动,更能引发我们对科学技术、对广阔世界的思考。用“波澜壮阔”来形容,真是再合适也没有了。

An image to describe post 浅谈「黑匣子思维」