



笔者在前面讲述了故障排查的简单步骤、故障报告整理、客观思维,基于这些内容就可以进入工程实战了,硬件设计的目标是为了工程产品的实现,笔者从始至终坚持实战,有了基础的方法,就可以从事工程实践,就需要在实践中提升认识。
但是此处插入了一节“务虚”的内容,主要是回答以下几个问题。一是这本书是以讲解故障排查思路、方法为核心主线的,应该如何处理理论知识和故障案例排查的联系;二是讲故障排查的方法论和案例分析,最终的目标是什么;三是工程实践中一些非技术层面的挑战与应对。
笔者没有采用先划分硬件技术模块,再讲解理论知识,最后列举常见故障和误区,类似查故障“字典”的模式。硬件技术知识非常繁杂,再加上不同行业背景和技术迭代演进的因素,编写这种“字典”是不现实的。另外只把理论知识与故障案例捆绑呈现,只能得到“刻舟求剑”的效果。
相信很多读者有这样的体会,带着很多理论知识从高校毕业,对具体的工程问题没有思路。经过若干年工作历练又走向另一个极端,全凭实践经验工作,基本不考虑技术理论。理论与工程实践脱节。本书通过故障案例排查的形式呈现研发设计流程中的这个关键环节。前面已经讲了几个故障案例,解析这些案例的主线是讲故障分析的思路、通过试验来贯彻思路、解决问题,是故障排查中思考和实际操作的真实过程,目的是使故障排查具有可操作性,但是如果只讲解故障现象与解决方案,最终会陷入“经验论”,成为一种“不可名状”的方法。另一条暗线是讲思路和方法的效力,打出高质量的“三板斧”是需要技术功底的,同样测量故障板卡的电源、时钟,解决问题的实际效果,差异可能非常大。没有扎实的理论知识,方法和技巧都是空谈。
综上所述,思维方法与理论技术需要相互促进。
故障案例的“穷举”是没有前途的,而实际工作的一些做法,例如只叙述故障来龙去脉的项目质量报告、故障复盘总结等,事实上是一种变相的“穷举”。没有讲清楚什么样的客观环境和主观想法使研发人员做出错误的设计操作或正确的排故选择,没有深入挖掘思维中的弱点或误区,这些会议和报告就是应付的形式,下面用《传习录》中的一段对话阐述这个问题。
问:“圣人应变不穷,莫亦是预先讲求否”。先生曰:“如何讲求得许多。圣人之心如明镜。只是一个明,则随感而应,无物不照……是知圣人遇此时,方有此事。只怕镜不明,不怕物来不能照。”
这段话的大概意思是学生陆澄问阳明先生“圣人能够遇事随机应变,是不是预先都研究过”,阳明先生回答“怎么可能预先研究过那么多”。并讲了一个通俗比喻,圣人的心就像镜子,照过的东西不会一直留在镜子里,没有照过的东西也不会在镜子里预先存在。照镜子就怕镜子不明亮。学者需要下的功夫是把镜子擦亮。
落到本书的主题——硬件技术,“擦亮镜子”的功夫是什么呢。笔者认为第一是专业基础理论,大学二、三年级的基础课程是以不变应万变的最佳切入,可能有一些读者已经是研究生学历了,笔者仍认为有必要时常复习基础理论。在工作实践中时常回看课本,思考理论与实践如何相互印证,清楚来龙去脉,效果会非常好。相反的情况是工作中只知道流程,称其为“经验”,原理不琢磨,差不多就行。那心中这面镜子就是昏暗的,对不知道为何对,错也不知道为何错。案例内容是记住了,但是案例是不可能穷尽的,“经验”越来越丰富,本质上没有提高。
第二是形成自己的方法,并不断通过实践去修正。这个过程需要“抽象”,具体的步骤越简单,适用的领域则越广泛,方法越有效,从而形成镜子。下面继续讲适用自身的方法。
故障案例贯穿全书始终,笔者希望通过这些案例的讲解,读者形成适合自己的一套方法论,再用自己的方法写复盘文章。学以润身,本质是要提升自己,形成适合自身的风格和打法。
其次,若个人的方法论与认识论尚未成型,可通过案例实战理解理论知识,本书最后参考文献中包含很多教材,读者可以配合阅读。
最后,若将本书的案例作为一本对照排故的手册,那用法就错了。研发设计中的故障排查是设计的一个环节,设计流程中的故障是开放的、发散的,不可能穷尽,研发过程中的故障排查与解决,是原型机到产品的蜕变过程。这不同于生产流程中的产品故障诊断,可以封闭一个收敛的故障集合,并依据检测标准来约束良品率指标。
同时,在工程实战中,一个故障现象的细节差异可能导致截然不同的结果。笔者在工程项目中拒绝以“曾经某项目的某问题”去“套”目前的问题。方法或经验必须是案例的抽象,通过案例实践形成适合自己的整套思维方法,才是可用的。
在《传习录》中有这样一段文字,一友问:“读书不记得,如何?”先生曰:“只要晓得,如何要记得?要晓得已是落第二义了,只要明得自家本体。若徒要记得,便不晓得;若徒要晓得,便明不得自家的本体。”
记住案例故事,学习理论知识,形成个人的方法论,即“记住”“晓得”“明得自家本体”这三层意思。阳明先生讲,第一等是明白自己、读到自己。案例也好,知识也罢,最终目标都是形成适合自己的有效打法,知行合一。
初步形成了一套故障排查的工程实践方法后,接受实践检验的过程中就会面临挑战,宏观来讲,挑战主要可以分为两方面,有时个人的思路被客观条件所限制,有时个人认定的思路被试验结果否定,瞬间没有思路。这些都是故障排查中必经的挑战。
有时现场的状况和条件是复杂而苛刻的。并不是想测到什么信号,想看到什么结果,就能出现在你面前,等你分析。有时候协调一台测试仪器都是困难的。另一方面,一个行业的产业链分工不同,看待问题的角度和思路也有很大差异,实验室的研发人员来到生产线、加工厂,就能理解如果在生产流程中添加调试项(debug),会遭到工厂的强烈抵制。
没有条件怎么解决问题?
这是一个伪命题,没有解决问题又如何知道条件是否满足。所以先不要着急下结论,试验条件有限,就着手创造条件;没有试验环境,就思考或讨论。正视故障和问题可以帮助你放下消极负面的情绪,把故障排查工作带入正轨。
另外,研发人员尽可能将故障排查(属于研发过程)约束在熟悉的研发、测试实验室环境和自己可以掌控的流程中。当你觉得上述环境不足以排查故障,需要协调产业链上下游的资源时,要准备好面对不确定因素和未知流程造成的障碍。
先解释一下标题的含义。故障排查过程中,经常会遇到如下情况:对故障进行了分析,思考得出测试方法甚至解决方法,准备着手调试和验证了。一般地,在验证结果之前,个人感觉常常是“思路正确,各个角度看,都非常合理……”。但是试验结果否定了论证假设,否定了之前全情投入的故障排查和解决方案,顿时会出现一个思维真空区,完全没有思路,从信心满满走向另一个极端。
这是一种正常的现象,因为如果自己都不能肯定“思考得出的试验方案和解决思路”,或者自己认为不正确、可能性不大,也就没有积极测试验证的动力了。所以,这种“全情投入”一定是自己觉得大概率能够解决问题。
针对上述状态,建议先仔细梳理、检查一下验证过程,避免因验证操作偏差而前功尽弃。另外,验证过程与预想方案的差异很可能是再次发起故障排查的切入点,这是故障排查过程中的复盘。
如果核查了试验操作过程无误,确认故障排查方案已经失败,出现思维真空、情绪崩溃。此时,故障排查成员间需要相互提醒,先放松、转移一下注意力。因为思路已经僵化在错误的方案之中,需要控制一下思绪,此时非常容易钻牛角尖。复盘工作不妨冷静之后再执行。
读者可能质疑“此时压力特别大,怎么可能说放松就放松”。所以笔者建议成员间相互照应,转移注意力,控制情绪。当然,如果是单兵作战,那只能自己寻找适合的调节方式了。
笔者曾在同一个故障案例排查过程中,连续、反复地“思路真空”,从“怎么想怎么有道理”到“大脑一片空白”。这时候应先把情绪修正,再谈技术。
本书很长的篇幅都在讲思路、讲方法、讲技术本身。如果故障排查的试验思路和方案,与你个人对故障情况的理解不一致,且试验还需要你执行,该如何做?
更进一步来讲,你向项目组反馈了自己的见解,但是没有得到采纳,执行方案仍然与你个人想法相左,该如何做?
这种情况下,笔者的思路是暂时放弃个人想法,抛开对错,服从组织,完整执行项目组的试验安排。而且是发自内心的、不带个人情绪地坚决执行。原因由一次拓展经历说起。
拓展培训中一些游戏项目给笔者带来了很多启发。其中有这样一个游戏:
一个大约15人左右的小队,游戏进行前,队员都带上了眼罩,游戏全程“盲”操作。地上放置了3条不等长的绳子,绳子不可打结,要求以绳为边,摆出一个面积最大的正方形。
拓展机会不多,对大多的游戏项目是没有“实战”经历的,大家也没有什么“充分讨论”,一拥而上就开始执行(玩)了。过程如下,我们先找到3条绳子的端,让3名队员双手牢牢攥住,然后向外撑起了一个圆,面积大约有5m 2 ,笔者用臂展估算了距离,大致确定了直角,并由4位队员控制直角,最后调整修正一下四边长度。大约10min后正方形成型。上述实现的步骤如图1.10所示。
 
    图1.10 绳子形成正方形的流程
因为项目完成较快,在剩余时间指导老师让我们总结得失,此时大家觉得方法不好,应该一字排开形成直线,然后对折,再1/4折……讨论过程中,笔者没有发言,因为执行过程的“馊主意”是由笔者指挥的,没有必要再解释。事后,笔者看法是这样的:
游戏中匆忙执行的方法,是在实践中找方法、调整。事后看不是一个好算法,但是队员们的执行力非常强,控制住了要点:三名队员锁紧绳端,四名队员控制直角。思路虽然粗糙,但结果没有问题。
相反,若思路很好,而队员不够团结,各自为战,或者执行成本高,队伍指挥执行能力不足,都无法完成项目,结果必败。
故障排查试验中,个人视野是相对有限的,即使胸有韬略,但限于角色,可能不知项目或产品全貌。所以经过项目组充分讨论的试验方案(这个讨论可能并不为你所知),执行起来不要犹豫。即使个人认为这是错误的试验动作,也要不带负面情绪地坚决、完整地执行。
当然,项目组的决议可能就是失败的,那就勇敢承认组织的能力不够,重新来过。
遵守纪律的失败是完全可以接受的。纪律不是胜利的保证,是提升胜利概率的保证。反之,形成了决议,而组织各要素成员执行不能统一,正确的决议也会导致必败的结果。