第五章不要相信你的直觉-重新定义团队：谷歌如何工作在线阅读

语速1.0: 2.0

进度0:

第五章不要相信你的直觉

为什么依靠本能无法成为优秀的面试官以及如何提升招聘效果

Insights from Inside Google That Will Transform How You Live and Lead

“你不会有第二次机会给人留下第一印象”是海飞丝洗发水在20世纪80年代的广告宣传语。不幸的是这句话也概括了绝大多数的面试状况。关于如何把握好面试“头五分钟”的指导文章不胜枚举，这些文章论述的是面试官是如何做出初步评估，而余下的面试时间都是在证明自己的评估。^[79]如果他们喜欢你，就会寻找更加喜欢你的理由。如果他们不喜欢你的握手方式或拙劣的自我介绍，那么面试就已经基本宣告结束，因为面试官在余下的面试时间里会一直寻找拒绝你的理由。此类用于后续做出相对重大决定的细微瞬间被称作“薄片”。

托莱多大学的两名心理学学生特里西亚·普利克特和内哈·贾达姜与其导师弗兰克·伯尼瑞合作，在2000年发表了一项研究成果，认为一次面试的前10秒钟里做出的判断可以预测整个面试的结果。^[80]他们录下真实的面试情境，之后请研究项目参与者观看其中的一些小片段，依此做出论断：

片段是从每一次面试中截取的，从应聘者敲门开始到坐下之后10秒钟止，视频片段会展示给经验很浅的观察者看。观察者从受聘价值、竞争力、智力、雄心、可信度、自信心、紧张程度、热情、礼貌、亲切度和表达能力等方面评分。通过薄片做出的判断，11个变量中有9个与现实中面试官所做的最终评价有显著相似性。因此，通过握手或简短介绍得到的即时印象能够预测结构化招聘测试的结果。

问题在于，根据头10秒钟的印象做出的预测是没有任何意义的。

这头10秒钟的预测使我们在整个面试过程中都在试图证明我们对某个人的印象，而不是真正地去评估他们。心理学家将这种现象称作证实偏见（Confirmation Bias），“倾向于寻找、解释或优先考虑那些能够支持我们观点或假设的信息”。^[81]我们根据非常简短的交流，潜意识中匆匆地做出了判断，这种判断受到我们内在偏见和信念的巨大影响。在不经意间，我们已经从评估应聘者转而变成寻找证据证实自己的最初印象。^[1]马尔科姆·格拉德威尔与密歇根大学的心理学家理查德·尼斯贝探讨过我们不自知的自欺欺人：

错觉的基础在于我们不知从何处来的自信，认为自己掌握了状况，认为自己能够读懂一个人的品性……你在面试某个人的时候，与他们相处一个小时，你不认为这个过程是在提取一个人行为的样本，更不会认为那是一个存在偏见的样本，但实际却并不如你所想。你认为自己看到的是全景，虽然小而模糊但却是完整的个体。^[82]

换言之，多数的面试都是在浪费时间，因为99.4%的时间都用在证实面试官最初10秒钟的印象，不论印象好坏。“请做一下自我介绍。”“你最大的缺点是什么？”“你最大的优势是什么？”毫无价值。

同样毫无价值的还有很多公司采用的案例面试和智力题。

这类题目包括：“你的客户是一名造纸厂商，正在考虑建第二座工厂。是否应该建？”或是“估测一下曼哈顿有多少加油站。”或者，最烦人的问题“一架波音747里能放下多少颗高尔夫球？”和“如果将你缩小到（美国）五分钱镍币大小，将你放进榨汁机里，你将如何逃脱？”

在此类问题上的表现最多只能算得上一些独立技能，通过练习可以得到提升，对评估应聘者没有可用的价值。最坏的情况是，通过这些问题从应聘者身上得到的一些琐碎信息或洞察，仅仅使面试官以为自己聪明，得到自我满足。这些问题对预测应聘者在未来工作中的表现几乎没有任何作用。^[83]其中部分原因在于这些问题与工作任务不相关（你在日常工作中什么时候估测过城里有多少加油站？），部分原因在于流动智力（可以预测工作表现）与智力题等顿悟性问题毫不相干，另有部分原因在于无法区分天赋异禀和通过练习获得技能的人。

事实上，谷歌正在使用类似的问题，并且我敢保证以后也会继续使用。对此我很抱歉。我们尽可能避免采用这些面试方法，因为这样做确实是在浪费所有人的时间。包括我在内的公司高管每周在审阅应聘者材料的时候，都会忽略对这些问题的作答。恰如我们对招聘网站投放信息的问题看法类似，我们认为有些评估方法根本没有效果。令人高兴的是，2013年的电影《实习大叔》中两位失业的手表销售员决定来谷歌当实习生，给出了榨汁机问题的答案，至少这个问题不会在面试中出现了。^[2]

一个世纪的科学研究指明了方向

1998年，弗兰克·施密特和约翰·亨特发表了一篇综合分析文章，总结了85年来关于评估预测人才表现方面研究的成果。^[84]

他们研究了19种评估技巧，发现典型的、非结构化的测试对于预测应聘者受聘之后表现的结果很不理想。非结构化测试的r2值为0.14，即对员工未来表现的预测准确性为14%。^[3] 这种方法要优于背景调查（预测员工未来工作表现的准确性为7%），优于工作年限（3%），远优于“笔迹学”或笔迹分析（0.04%）——我很惊奇竟然还会有人采用这种方法，或许有些医院会测试医生笔迹的易于辨认性……

预测某人在工作中表现最好的方法是样例测试（29%）。

这种方法需要安排应试者完成一项与其将要负责岗位工作中类似的工作样例，评估他们的表现。即便这种方法也无法毫无偏差地预测工作表现，因为实际的工作表现还要取决于其他技能，比如与同事合作的能力，如何应对不确定性，以及学习的能力。更糟糕的是，很多工作岗位无法选取合适有效的样例，供应聘者完成。客户服务中心或任务导向型的工作岗位招聘时，你可以（而且应该）采用样例测试的方法，但是许多工作中每天都有太多的变化因素，很难选取工作样例。

不管是工程师还是产品管理人员，我们聘用的所有技术人员都需要通过某种样例测试，要求应聘者在面试过程中解决实际的技术问题。根据乌尔斯·霍尔泽所说：“我们的面试要切实地测试你的技能。比如，编写一段代码，解释代码的含义，对吧？不是看看你的简历了事，而是要真正地看一看你能做什么。”埃里克·维奇补充说：“面试由大批工程师展开，会询问大量数据导向型的问题。问题不仅仅是，呃，‘给我讲讲你曾经……’而是‘给我编写一段算法，解决这个问题’。”

预测工作表现有效性第二位的是一般认知能力测试（26%）。与案例面试和智力题不同，一般认知能力测试是真正的测试，有明确的正确或错误的答案，与IQ测试的题目有些类似。一般认知能力测试能够有效预测工作表现是因为一般认知能力包括学习能力，而高智商与学习能力的结合足以使大多数人在大部分工作中取得成功。然而，其中的问题在于，绝大多数此类标准化测试都有歧视非白种人和女性测试者的倾向（至少在美国是这样的）。sAT一直以来都低估女性和非白种人在大学的表现。菲利斯·罗塞尔在1989年对sAT进行的研究中比较了能力和大学表现相近的高中女孩和男孩，发现女孩在sAT考试中的成绩要低于男孩。^[85]原因包括测试的形式（在大学预修课程测试中就没有性别差异，因为在这项测试中采用了简答题和短文测试的题型，而不是选择题）；测试计分方法（男孩在排除一个选项之后更容易猜出正确答案，因而提升了他们的分数）；甚至还有问题内容（“女性在有关人际关系、审美和人文科学等类型的sAT问题上做得更好，男性在有关体育、自然科学和商业方面的问题上表现更佳”）。^[4] 此类研究重复过多次，尽管类似的标准化测试正在转好，但仍有不足。^[5]

我们在此举一例，位于南加州的一所文理学院匹兹学院对于高中成绩平均积点（GPA）3.5以上或年级前10%的学生，将测试成绩作为入学申请的可选递交材料。自此以后，他们接收的学生平均GPA提高了8%，而且有色人种学生的比例增加了58%。^[87]

与一般认知能力测试效果相当的是结构化测试（26%），应聘者在面试中将被问及一系列问题，这些问题都有明确的标准，对其应答质量进行评估。结构化测试在调查研究中经常使用。结构化测试的好处在于对应聘者的评估完全基于应聘者的表现，而不是取决于面试官的标准高低，或问题的难易。

结构化测试有两种类型：行为测试和情境测试。行为测试要求应聘者讲述过去的成就，并将其与当前工作的要求做对比（比如，“给我讲讲你曾经……”）；情境测试会虚拟一个与工作相关的场景（比如，“假如……你会怎么做？”）。一位勤勉的面试官会深入评估应聘者所讲故事背后的诚实可信性和思考过程。

结构化测试对非结构化的工作也具有预测效果。我们还发现通过这种测试，应聘者和面试官都有了更好的面试体验，而且人们也都认为这样的面试结果非常公平。^[88]既然这样，为什么没有更多的公司采用这种方法呢？嗯，因为很难编排这样的测试题：你必须编写出试题，测试这些试题，确保面试官能够按照设定提问。而后你还需要不断更新测试题，以免应聘者互相沟通面试情况，来参加面试时就已经知道答案了。这需要大量的工作，但是换成常用的面试方式就是浪费所有人的时间，因为这种方式或主观性太强，或存在偏见，或二者兼具。

还有一种更好的方法。研究显示评估技巧的组合比单一的评估技巧要更有效。比如，一般认知能力测试（预测未来表现的准确性为26%），与尽责性评估（10%）相结合对未来谁将在工作中取得成功有更好的预测（36%）。以我的经验，在尽责性评估中得分高的人“工作完成方休”——他们要彻底完成工作才会停下来，而不是做得差不多就行——而且对团队和所处的环境有更强的责任心。换言之，他们更可能表现得像主人翁而不是雇员。我还记得来谷歌的第一个月前后，有一次找到我们的技术支持团队成员约什·奥布莱恩帮忙解决一个IT问题。那是个周五，五点过后，我对他说可以等到周一再接着完成。“没事儿。我们干完再下班。”他继续解决我的问题，直到解决了为止。^[89]

说到这里，我们都采用了哪些评估技巧呢？

我们的面试流程旨在预测应聘者加入工作团队之后的表现。我们以科学为依据达成这个目标：结合行为和情境结构化测试，评估认知能力、尽责性和领导力。^[6]

为了帮助面试官，我们开发了一种名为qDroid的内部工具，面试官可以从上面选择自己正在筛选应聘者的工作岗位，查看应该进行测试的方面，同时还会收到一封面试指导电子邮件，里面包含一些用于预测应聘者在该项工作上未来表现的问题。这使面试官更容易找到一些很棒的面试问题。面试官还可以在面试小组里分享文件，这样所有人都可以协作，从各种角度评估应聘者。

qDroid页面样例

qDroid页面样例。版权归谷歌所有

如果面试官自己愿意的话当然也可以制定自己的问题，而此举的巧妙之处在于提供了经过实践证明的有效的问题，使面试工作变得简单了一些，也可使面试更好、更可靠。

面试问题举例如下：

✦ 给我讲一下你的行为对团队带来积极影响的一次经历。（追问：你最初的目标是什么，为什么？你的队友如何反应？之后你有什么计划？）

✦ 给我讲一下你有效管理团队实现目标的一次经历。你采用了什么方式？（追问：你的目标是什么？你是如何面对团队的每位成员和整个团队的？你在对待不同的个体时是如何调整领导方式的？这个特定的情势下传递出什么关键信息？）

✦ 给我讲一下你与某人（可以是同事、同学或客户）共事遇到困难的一次经历。什么原因使你与这个人难以共事？（追问：你采取了哪些措施解决这个问题？结果如何？你可以采取哪些不同的做法？）

这本书还是草稿的时候，一位早期读者告诉我：“这些问题太泛泛了，有些令人失望。”他说的对，但又不对。是的，这些问题确实平淡无奇；真正引人注目的是问题的答案。但是，这些问题能够为你提供持续可靠的依据，帮助你从优秀的应聘者中筛选出极其优秀的一些人，因为极其优秀的应聘者在做出选择的时候会有好得多得多的前例和理由。你可以看到伟大与普通之间清晰的分界线。

当然，问一些诸如“哪一首歌能够最好地描述你秉持的职业道德？”或“你独自在车里面会想些什么？”——这两个问题都是其他公司的真实面试问题——的问题会很有趣，但是面试的目的是要识别最适合这个工作岗位的人选，而不是纵容自己问一些能够激起心理偏见（“我的天啊！我在车里的时候也在想这些事情！”）却无法证实应聘者能否完成工作的问题。

而后，我们会按照统一的标准^[7]对面试进行打分。我们对一般认知能力测试的评分包括五个部分，第一部分为应聘者对问题的理解。

在每一部分中，面试官要说明应聘者的表现，而且每个表现的等级都有明确标志。随后面试官要明确记下应聘者是如何展示他们的一般认知能力的，以便后续面试官做出自己的评估。得知我们的面试问题和评分表之后，之前那位持怀疑态度的朋友不假思索地说：“切！不过是些陈词滥调和公司套话。”但是回想一下你最近为同一个职位面试过的五个人。你问这些人的问题很相似，还是问每个人的问题都有不同？你对他们每个人都问遍了该问的问题了吗，时间是不是够用了？你对他们都严格保持同样的标准，还是因为疲倦、暴躁或心情不好而刁难其中某个人？你有没有记下详细的笔记，以便后续面试官参考使用你的见解？

凝练的招聘标准应该涉及所有这些问题，因为这样可以将纷杂、模糊且复杂的工作环境浓缩成可度量、可比较的结果。比如，设想你正在面试一个应聘技术支持工作的应聘者。对于“寻求解决方案”的一般答案可以是“我按照用户的要求修好了笔记本电脑的电池”。非常突出的答案应该是这样的：“我意识到，既然他过去抱怨过电池的续航能力，而且还准备出去旅行，我还应该为他准备一块备用电池，以备不时之需。”采用一种看似无聊的标准是量化、应付复杂现实的关键。

如果你不想独自完成所有这些工作，也可以轻松地从网上找到结构化测试问题的样例，稍加改变就可以用在你的实际面试中。比如，美国退伍军人事务部设有一个网站www.va.gov/pbi/questions.asp，上面有差不多一百个样例问题。利用这些问题，你在招聘工作上将立刻取得巨大进步。

还要记得，你不仅要评估应聘者，还需要让他们喜欢上你。真的。你得让他们有一次非常棒的体验，处理好他们关心的问题，使他们感觉刚刚经历过一生中最快乐的一天。面试是很尴尬的一件事情，因为你要与一个刚刚见面的人进行亲密的交谈，而且应聘者处于非常脆弱的地位。投入时间使应聘者在面试结束时感觉良好是很值得的，因为他们会把自己的经历讲给他人听——也因为这是待人的正确方式。有时，只需要简简单单地留一些时间做交谈。面试时太容易过分关注你的需求：你很忙，需要尽快评估完这个人。但是他们所做的决定比你的更大。毕竟，公司有很多员工，而一个人只能有一份工作。我一直特别注意询问应聘者对招聘过程的看法，而且至少留出10分钟的时间供他们问问题。

面试之后，我们会用一种我们称作VoxPop^[8]的工具对每一位应聘者进行调查，弄清他们对招聘过程的看法，之后再根据他们的反馈意见调整我们的流程。根据VoxPop，我们现在开始尝试办公室快速游活动，时间允许的情况下提供午餐，要求每一位面试官都至少留出五分钟的时间供应聘者问问题。应聘者还告诉我们说，我们返还他们往返路费的时间太长，于是我们就将这个时间减半。

相比过去硅谷里每个人都有一段痛苦的谷歌面试经历，今天80%参加过谷歌面试而被拒的人都表示会推荐朋友到谷歌应聘。考虑到他们并没有被雇用，能够有这样的结果是相当了不起的。

面试该问哪些问题？

过去我们以为只要聘用最聪明的人就足够了，但是一队加里·卡斯特罗夫（国际象棋特级大师，是一位超级天才）可能并不适合一起协作解决真正重大的问题。因此，从2007年起我们开始在一万名左右聘用的员工和数百万未聘用的应聘者中寻找某些重要特征。除了测试技术应聘者的工程技术能力之外，我们意识到还有4个方面的特性可以预测某个人能否在谷歌取得成功：

1.一般认知能力。一点都不奇怪的是，我们想要聘用聪明人，有学习能力，可以适应新的环境。要记住一般认知能力是在于理解应聘者在现实生活中如何解决难题和如何学习，而不是查看他们GPA和sAT成绩。

2.领导力。同样不足为奇，对吧？每一家公司都想要领导者。但是谷歌寻找的是某种特别类型的领导能力，称为“新兴领导力”。这种形式的领导力不关乎正式的头衔——在谷歌进行的各种工作中，极少有正式的领导者。我还记得有人问我一个最高可实现全公司员工收入10%提升的项目“执行发起人”是什么意思。我解释说我不清楚这是个什么职务，而且在谷歌这个职务是没有任何意义的。一名新员工或许会把此类的名头放在我的名字前，因为我的头衔是高级副总裁，但是我在这个项目上的角色和其他人都一样：发表见解，做一些分析，协助得出正确的成果。我们在谷歌期望一个团队在其存续期内，不同时期能够用上不同的技能，这样就可以有很多人站上领导的位置，做出贡献，而且——同样重要的——特别技能需求的时期过后能够退回团队成员的位置。我们非常不喜欢唯我独尊的领导者：言必称“我”而不是“我们”，只关注自己的成就而不是取得成就的过程。

3.“似谷歌人一般的”（“Googleyness”）。我想要那些能够在谷歌蓬勃发展的人。这个概念并没有明确的定义，但是包括一些特性，比如喜欢享受欢乐（谁又不想呢？），谦逊一些（如果不能承认自己可能存在错误就很难去学习），尽责心很强（我们想要的是主人翁，而不是雇员），能够接受模棱两可的状况（我们也不清楚公司的业务将如何发展，应对谷歌的内部事务需要应对很多模棱两可的事情），能够证明你在生命中走过勇敢或有趣道路的证据。

4.职务相关的知识。至今为止我们在筛选应聘者的过程中关注最少的一种特性是应聘者是否真正了解自己将要承担的工作。依我们的推理和经验，多年来成功地完成过同样工作的人，在谷歌遇到事情的时候很可能复制以前的做法。恰如心理学家亚伯拉罕·马斯洛写过的：“我认为，如果你仅有的工具只是一把锤子，那么就很容易想要把一切都当成钉子对待。”^[91]这种做法的问题在于你丢掉了创新的机会。相反，以我们的经验看来，有好奇心、有诚意学习的人，在绝大多数情况下都能想出正确的答案，而且创造出一种全新解决方案的可能性也高很多。^[9]在工程技术或产品管理等技术岗位上，我们会深入评估应聘者的计算机科学专业水平，但是即便在这些岗位上，我们也更倾向于聘用对计算机科学有整体认识（不过要达到专业水准）的人，而不是仅具备某一领域知识的人。而且平心而论，我们的招聘原则已经超越了单纯聘用通才那么简单，而是开启了一种更加精妙的方式，我们会审视公司的人才库，确保通才和专家的数量能够达到平衡。最奢侈的事情莫过于不仅能够建立深度专业化的领域，而且在这些领域中我们还能够确保随时补充新鲜血液，加入非专家的想法。

确定了这几项特性之后，我们开始要求所有的面试反馈意见中都要针对每一项特性做特别评价。不需要每一位面试官针对所有特性进行评估，但是每一项特性都至少需要两名独立的面试官做评估。我们要求书面反馈意见中包括对特性的评估、所问的问题、应聘者给出的答案以及面试官对答案的评估。这种反馈意见的形式经证实有很高的价值，因为能够保证后续每一位应聘者的评估人可以独立地对应聘者进行评估。比如说，如果你面试过我，对我印象一般，但是你记下了你问的问题和我给出的答案。后来的审核人可以根据自己的意见评估我给出的答案到底好不好。（当然，如此详细地记录面试过程可能有些尴尬——几乎所有谷歌的面试最开始都是由面试官询问：“你介意我做笔记吗？”有些面试官甚至会在笔记本电脑上做笔记，这可能会使应聘者有些不安。）此举不仅能在某种程度上给应聘者第二次机会，而且能够帮助我们评估面试官本身是否善于评估他人。如果我们发现某个面试官持续“犯错误”，我们要么会对其加以培训，要么要求其停止做面试工作。

不断核查招聘过程是否切实有效

你可以想象，我们在招聘优秀人才方面的投入非常巨大。

但是我们有一个业务经营假设，即我们所做的任何事情都可以做得更好。谷歌1998年建立的第一个搜索索引包含2600万个独立的网页。到2000年，网页达到10亿。到2008年，网页达到1万亿（1000000000000！）。

根据我们搜索团队的杰西·阿尔波特和尼森·哈扎伊所说，我们的搜索引擎比以前更加全面且高效：“我们的系统从谷歌最早用于应答查询问题的一系列网络数据至今已经取得了长足的发展。在过去，我们做的每一件事情都要分批进行：单个工作站可以在几个小时的时间里做出2600万个网页级别（区分搜索结果优先次序的一种算法）图表，而这些网页将在固定的一段时间里作为谷歌的数据库使用。2008年，谷歌不停地做着网页搜寻，搜集更新的网页信息，每天都要多次重新处理整个网络连接图。这1万亿个urL的图表就好似有1万亿个交叉口的地图。每天我们都要完成数次计算，工作量等同于全面探查全美所有道路的每一个交叉口。只不过我们这一幅地图有美国地图的50000倍大，道路和交叉口也是美国的50000倍。”当然，这已经是五年多以前的事情了。现在的谷歌是2012年投入运行的版本，可以预执行你需要知道的事情。比如，你的手机可以下载即将乘坐的航班登机牌，会提醒你高速路上堵车，这样你就可以走小路，还会告诉你一些在周边发生的有趣事情。

恰如我们的产品可以不断变得更好，我们的招聘机器也可以。我们不断地核查调整，平衡我们的速度、错误率以及应聘者和谷歌人的招聘体验。比如，现任我们一个商务团队人力资源主管的托德·卡里塞，当时还是招聘团队的一名博士分析员，他对每名应聘者要经历多达25次面试到底有没有实际效用的问题说出了自己的看法。他发现通过4次面试就可以有86%的自信确定是否聘用某个人。4次面试之后的每一次面试仅提高1%的效用。不值得为此浪费谷歌人的额外时间，让应聘者饱受煎熬，因此我们推行了“四次准则”，限定应聘者现场面试的次数（尽管我们允许个别情况下出现特例）。单单这一项改变就将面试的中位时间从以前的90到180天降低到现在的47天，为我们的员工节省了数以十万小时计的时间。

直到今天，我们从未认为自己每次做的都是对的。我们会重新查看被拒的应聘者的申请，评估我们是否犯了错误，加以改正，并吸取经验。我们的“再访项目”首先会将某一特定职位——比如软件工程师——所有在职的员工简历通过某种算法找出最常见的关键词。而后关键词列表由精心挑选的一组招聘人员和管理人员加以审阅并做补充。比如，如果Ieee（the Institute of electrical and electronic engineers，电气与电子工程师协会）成为一个常见的关键词，他们或许就会将其他专业协会的名称加入其中。然后更新之后的关键词列表通过另外一种算法，这一次在过去6个月的申请者中寻找，根据每个关键词在成功和不成功的简历中出现的频率分配一定的权重。最后，我们对之后6个月投来的简历按照分配权重的关键词进行评分，重点标明被拒的高分应聘者，以便我们的招聘人员能够再次核查。2010年，我们通过这个系统对300000名被拒的软件工程师简历做了筛选，再访了10000位应聘者，聘用150人。为了聘用150人，做这么多工作好像有些过于繁杂，但是1.5%的聘用率是我们0.25%的总体聘用率的6倍。

图解给面试官的反馈意见

图解给面试官的反馈意见。版权归谷歌所有

我们不仅从应聘者的角度来看招聘工作。面试官也会收到反馈意见，评价他们在预测某人是否应该聘用方面的能力。每一位面试官都能看到过去自己的面试评分记录，以及被面试人是否被聘用。

这样一来面试官就能知道他们对潜在谷歌人的评估是否恰当，督促他们回顾之前的面试笔记，发现其中的错误或疏忽。同时此举也可以使后来审核每一位应聘者信息包的审核人了解某一位面试官的面试意见是可靠的还是应该忽略。

永远不要在质量上将就

到目前为止我们谈论的重点在于寻找应聘者和面试，但这只是招聘流程的两个部分。表面上看来，所有组织的招聘流程都是一样的，都非常无聊：发布招聘公告、收简历、审阅简历、面试、聘用。听着就要瞌睡了。

再深入一些研究，就会发现谷歌采用的招聘方式从应聘者申请一项工作之后就开始出现很大不同。我们的筛选过程分为6个独特的部分，目标在于保证招聘的质量标准，确保我们做出的决定尽可能不存在偏见。

第一，评估工作不是由部门经理完成，而是由专职的招聘人员展开。我们的招聘人员是简历分析专家，如果你要接受全球100多个国家发送来的简历的话，这种能力就非常重要。比如说，在评估大学学生的时候，GPA应该是一项重点考虑的因素。但是对于来自日本的应聘者却不是这样。在日本，大学录取主要依据全国考试的成绩决定，因此高中学生极度重视这些考试，为了取得好成绩，他们会连续数年每周课后用去15~20小时的时间参加juku（在日本为学生参加大学入学考试做准备的课后特别辅导班）。但是，一旦拿到一所名牌大学的录取通知书，日本学生就会彻底抛开成绩。从以往的经验上看来，这些学生会享受juku和单调的sarariman（“上班族”——一种术语，用于形容过去日本遵守规则、一始而终、进阶缓慢的工作一族）生活之间最后一点的嬉戏时光和自由。日本大学成绩作为招聘指示条件几乎没有任何用处，但是了解到某个人读的哪所大学则很有帮助，至少在聘用新近毕业的学生时有效。

典型的招聘流程与谷歌的招聘流程对比

典型的招聘流程与谷歌的招聘流程对比。版权归谷歌所有

我们的专业招聘人员还对谷歌内部的多种工作岗位都很熟悉，这着实算得上是一个很强的能力，因为我们当前的业务包括搜索、自动驾驶汽车、未来眼镜、光纤网络服务、制造业、影视工作室和风险投资等多个领域！招聘人员能够做到这一点非常重要，因为当某人申请我们公司的一个职位时，他们并不了解我们公司的一切。事实上，多数公司负责不同部门招聘工作的招聘团队也是不同的。申请某个部门产品管理工作被拒的人可能很适合另一个部门的市场营销工作，但是如果两个部门的招聘人员互相不沟通，这名应聘者就不会得到机会。在谷歌，申请安卓产品经理工作的人被拒之后还可能成为通信公司销售职位的有力人选。我们的招聘人员有能力引导应聘者在全公司范围内找到较为适合的岗位，这要求招聘人员既要知道公司所有的工作种类，还要了解每种工作的职责。如果当前没有合适的工作，招聘人员会做好记录，以便后续跟进，在未来有合适的工作机会时，提供给强有力的应聘者。

简历经过筛选之后，进入我们招聘流程的第二步，远程面试。远程面试比现场面试要难很多，因为这样很难建立互动、捕捉非语言的细节。电话面试对于那些英语不流畅的人（谷歌的公司用语言为英语）尤为困难，因为通过电话更难表达清楚。我们更喜欢使用谷歌视频群聊，可以进行视频交流，也可以利用屏幕和白板分享，这样应聘技术岗位的人和面试官就可以一同编写和审核软件代码了。视频群聊不需要特别的设备，也不需要会议中心或下载什么软件。应聘者只需要登录Google+，接受弹出邀请，加入视频群聊，即可开始一段视频会议。利用视频群聊还可以降低成本，因为远程面试的费用远低于现场面试，而且节省了面试官和谷歌人的时间。我们招聘人员经历过数百次这样的远程面试，相比那些或许只经历过一两次远程评估的普通招聘经理，优势明显。

安排专业人员做最初的远程评估同时还意味着可能预先对最重要的招聘特性进行了有效、可靠的筛选。通常应聘者解决问题的能力和学习能力都是在这个阶段进行评估的。我们提早完成这部分工作，这样后来的面试官就可以重点关注其他特性，比如领导力和适应不确定性的能力。

此外，在面试过程中出现意外的状况时，专业招聘人员要懂得如何处理以化解尴尬。比如有一位应聘者把母亲也带到了面试现场。还有一位应聘技术岗位的应聘者忘记束腰带，每次转身在白板上写代码的时候裤子都会掉。我们经验丰富的招聘人员帮他解了围，把自己的腰带给了应聘者。

我参加过的其他公司的几次面试都见到了潜在的老板和几位未来的同事。但是我几乎没有见过可能在我手下工作的人。谷歌则将这种方式倒置。你很可能会遇到未来的经理（如果可能的话——有些比较大的工作群体，比如“软件工程师”或“财务策略师”等的招聘经理不止一位）和同事，但是更重要的是与一两名将要为你工作的人会面。从某种意义上讲，他们的评估比其他人都重要，毕竟他们要与你朝夕相处。因此说来，我们所用方法的第三点关键不同之处就是有下级对潜在的雇员做面试。此举向应聘者传递出谷歌没有等级划分的强烈信号，同时有助于防止任人唯亲，避免经理聘用老朋友来新组建的团队。我们发现，非常优秀的应聘者可以使手下深受鼓舞、兴奋异常。

第四，我们还补充了“跨职能面试官”，即与应聘者竞聘的岗位没有任何关联或关联很少的面试官。比如，我们或许会请法律部或负责广告产品设计的广告团队成员来面试潜在的销售人员。此举旨在提供公正的评估：从不同职能部门来的谷歌人不会特别在意某个职位是否空缺，但是却会强烈期望保持招聘工作的高标准。而且他们也相对不容易犯“薄片”错误，因为他们与应聘者的共同点要少于其他面试官。

第五，我们采用了一种彻底颠覆的方式编写给应聘者的反馈意见。我们讨论过面试反馈意见必须包含几项重要的特性，还采用“后门”参考资料。此外，我们会平等地看待每个人对应聘者的反馈意见。下级的反馈意见与招聘经理的反馈意见同等重要，甚至更重要。托德的研究显示，面试的最优次数为4次，而单个面试官的评估报告本身并没有太大的帮助。

每个面试官完成的面试次数

展示个体面试准确率与平均面试分数86%准确率对比的散点图（每一个点代表一位面试官）。面试官准确率是指面试官希望聘用的应聘者中真正得到聘用的比例。A组包括纳尔逊·艾布拉姆森，唯一一位战胜群体智慧的人。B组中的面试官看似比一般人水平高，但是所做的面试次数尚有不足，无法通过统计数据证明是其技能高超还是仅仅因为运气好。多数个体都要低于“群体”的平均准确率，落在C组。

平心而论，在这方面唯一称得上专家的谷歌人是纳尔逊·艾布拉姆森。他是位于散点图右上角那一个孤零零的点。但是托德经过深入研究之后发现，纳尔逊有着他人无法比拟的优势。他在我们的数据中心工作，这里是一个全球网络服务器，能够快速获取互联网副本，几毫秒内就能得到搜索结果。这个角色需要有非常特别的技能组合，而他面试的人也都做这些工作。此外纳尔逊还是谷歌第580号员工，因此有非常丰富的经验。但是这是我们分析的5000个现场技术面试的案例中唯一一个特例。

与在其他情境下相似^[10]，“群体智慧”在做招聘决策时也同样适用。

因此，我们依然报告每位面试官面试的反馈分数，但是更多强调的则是平均分数。^[92]采用这种方法可以避免某个人排挤应聘者的情况，同时还可以限制帮助某位应聘者游说的可能。

第六，我们依靠没有利益相关性的审核人。除了采用结构化的面试题，招聘时关注应聘者的一些特性之外，我们还会刻意为每一名应聘者安排至少三重审核。招聘委员会首先审核，决定是否推荐某位应聘者继续参加面试。比如，在人力运营部，招聘委员会由负责我们团队主要板块的多位主管和副总裁组成。招聘委员会成员在应聘者将要进入自己团队时要主动退出评审。他们要审阅一个应聘者信息包，每个应聘者信息包有40到60页长。我在下文中选取了其中一些关键要素。

如果招聘委员会拒绝了应聘者，招聘流程便就此结束。如果他们支持一位应聘者，他们的反馈意见就会补充到招聘信息包中，而后递交高管评审。在每周例会上，我们的高管中某几位会对每周的应聘者做另一层次的客观评估。有时我们一周有300多名应聘者，有时不到20人。在这个阶段，应聘者或被推荐聘用，或被拒，或被要求提供更多信息，通常此时会进一步测试应聘者某一方面的特性或是考虑应聘者被聘用的机会高低。在这个阶段拒绝应聘者最常见的原因是什么呢？文化。^[11]尽管谷歌人持各种政见的都有，但是透明和发声的权利等企业文化却被广泛认同，这也是我们公司经营的核心。恰如杰夫·胡贝尔最近对一位应聘者的评论所说：“这是一个很了不起的应聘者——技术面试评分很高，非常聪明，完全能够胜任工作——但是特别傲慢，面试官没有一个希望他加入自己的团队。这是一个了不起的应聘者，但是不适合谷歌。”

招聘信息包节选

招聘信息包节选。版权归谷歌所有

如果高管评审之后表示支持，这些应聘者就会作为每周推荐聘用人员送交拉里审核。报告中包括一些链接，包含了每名应聘者的详细招聘信息包，同时还包括各级评审时对每名应聘者的总结、反馈意见和推荐意见。拉里给出最多的反馈意见是应聘者或许没有达到我们的聘用标准，或是材料中体现出的创造性还不够好。比反馈意见更为重要的是，拉里向公司传递出讯息：招聘工作是最严肃的事情，我们有责任继续做好这项工作。新入职的谷歌人听闻拉里亲自审阅过他们的申请时，总是会喜出望外。

如果我们按照传统的招聘流程，就可以在一两周内完成一个招聘流程，而不是像今天一样用上6周时间。在必要的情况下，我们也有能力加快招聘速度——每隔几周的时间，我们都会进行一次快速招聘，为了那些已经拿到其他公司的录用函但如果不迅速回应就过期的应聘者，^[12]我们还在美国和印度的大学校园里开展过为期一天的招聘活动，测试能否提高我们的招聘成功率。至今为止，快速的招聘流程并没有实质性地提高应聘者的应聘体验，也没有提高应聘者接受我们工作邀请的比例，因此我们的关注点仍然在于探寻方法聘用我们可能忽略掉的人，而不是加快招聘流程。

信息汇总：如何招聘最优秀的人才

你可能会好奇这样做会不会用去谷歌人很多的时间，确实会的。

但是并没有你想象的那么多。有四个原则可以帮助最小的团队在招聘工作上有非常非常大的提升。

在公司员工数量达到2万人之前，多数员工每周用在招聘工作上的时间在4~10小时之间，我们的高管每周很容易就要用上一整天时间，所有高管加起来每年有8万~20万小时要用在招聘工作上。这其中还不包括我们的专职招聘人员所用的时间。这些时间的投入是公司快速成长所必须的，也确保我们在招聘质量上没有将就。而且，说实话，这在当时已经是我们竭尽全力的结果。我们用了数年的时间研究和实验，找出了高效招聘的方法。

2013年，谷歌大约有4万名员工，尽管我们的招聘工作量是公司员工2万人时的近2倍，谷歌人平均每周用在招聘上的时间却降为1.5小时。我们将谷歌人用在每一位应聘者上的时间减少了75%。我们还在继续努力降低这个时间，并学着更高效地管理招聘团队和他们的时间。

但是至今为止，最好的招聘技巧莫过于有一批核心的优秀人才。乔纳森·罗森博格以前总是在办公室里放200份谷歌人的简历。如果一名应聘者对是否加入谷歌持观望态度，乔纳森就会把这一堆简历放到他面前说：“你一定要与这些人共事。”这些谷歌人教育背景各异，有很多来自全球最好的学校；他们开发出具有开创性的产品和技术，比如脚本语言（Javascript）、数据块定位（BigTable）和映射规约（Mapreduce）；曾在最具有开创性的公司供职；他们中有奥林匹克运动员、图灵奖和学院奖获得者、太阳马戏团表演者、魔方冠军、魔术师、三项全能选手、志愿者、老兵，以及做过你能想象的各种炫酷事情的人。应聘者总是会问乔纳森是否刻意挑选的这些简历。而乔纳森则会真诚地告诉应聘者，这些简历是从那些制造谷歌产品的谷歌人中随机挑选的。他每次都能留住应聘者。

说到这里，我们到底是如何打造自我复制的招聘机器的？

1.设定高质量标准。进行招聘之前，确定你所期望的一些特性，定义何谓伟大的团体。首要准则是只聘用比你更优秀的人。不要将就。永远不要。

2. 寻找你自己的应聘者。领英、Google+、校友录和职业协会使这项工作变得简单明了。

3.客观地评估应聘者。请下级和同事参与到面试中，确保面试官做好记录，请一组不存在偏见的人做最终的招聘决定。定期回顾那些笔记，将笔记与新员工的表现做对比，优化自身的评估能力。

4.给应聘者一个加入的理由。清楚地解释为什么你们所做的工作很重要，请应聘者了解将要与之共事的突出人才。

写出这些内容很简单，但我根据自己的经验可以告诉你，这些真正要落在行动上却很难。经理恨死了不能自行聘用团队成员。面试官也很难忍受他人指指点点，按照某种特定的形式进行面试或写反馈意见。在出现违背直觉的数据面前，人们都会有不同意见，会争辩是不是每一份工作都需要设定如此高的标准。

不要屈服于压力。

为品质而坚持。

经常有人对我说：“我只是想要一名行政助理，只要能接电话、安排会议日程就可以——我不需要聪明人，只要一个能干活的就行。”这是很糟糕的逻辑。一名出众的行政助理能对经理产生强大的影响力，帮助他们更好地安排时间，优化任务顺序，作为经理的脸面应对所有来访的宾客。这些角色很重要，而一名普通的行政助理与一位卓越的行政助理之间有着天壤之别。我之所以知道这些是因为我有幸与最优秀的行政助理汉娜·查共事过。

如果你致力于带领团队或所在组织走上转型升级之路，那么把招聘工作做得更好是唯一最好的出路。这需要有意愿和耐心，但确实行之有效。要愿意使员工在招聘工作上投入时间。永不止步。

采用这种招聘方式还有另外一个好处：在多数的组织里，你要先加入，然后证明自己。在谷歌，我们对招聘流程的品质充满信心，因此员工一旦加入我们的团队，从第一天起就会得到我们的信任，成为我们的正式成员。

谷歌工作法则：筛选新雇员?

✦ 设定高质量标准

✦ 寻找自己的应聘者

✦ 客观评估应聘者

✦ 给应聘者一个加入的理由

证实偏见只是我们的潜意识在不经意间促使我们做出糟糕决定的一种。为了建成一个偏见更少、更具有包容性的工作场所，我们在谷歌不遗余力地减少潜意识的偏见。我们在一篇名为“你不知道自己不知道：我们的潜意识如何破坏工作环境”的文章中介绍了我们尝试的一些方法——选自谷歌官方博客，2014年9月25日，http://goo.gl/kxxgLz。
“正确的”答案是：既然在这个问题中你缩小了——改变了你体积——但是其他一切都没有改变，你的力量–体积比就增加了，你可以轻而易举地跳出榨汁机。在回答出正确答案之前，文斯·沃恩和欧文·威尔逊扮演的角色还猜测榨汁机会破掉——因为他们以前卖过榨汁机，所以知道——而他们会很安全。然后呢？“就有两个五分钱大小的人自由地生活在世间，”他们大喊道，“畅想一番吧！……太阳镜修理？我们就能站到那些小螺丝上！或者把我们附着在送入人体内部的装置中去战胜病魔？……我以为我们被困在榨汁机里。但现在我们又能救死扶伤了?!……真是一次难忘的经历啊！”
我在此处做了简化处理。更准确地说，r2是一种量度，用于表示某一个或多个变量对结果的预测有效度。如果r2的值非常高并接近100%——考虑到生活的纷杂混乱，社会科学中很少会出现这种情况——我们就可以充满信心地根据模型中的其他数据对结果进行预测。如果r2的值接近0，预测的结果将会很不准确。r2的值要根据各个变量之间潜在的关联性或几个事件同时发生的概率来确定。r2和关联性并非因果关系。换言之，高的关联性，比如r2=0.9，并不意味着A会引起B，只是A和B同时发生。比如，如果我每天早上6点都去跑步——我要能这样严于律己该多好啊！——出门之前，我都会把狗放到院子里，我跑步的时间与狗出门的时间有关联性——反之亦同——因为二者倾向于在同时发生，但二者互相不为因果。然而，如果你有足够多的数据，控制其他因素，做一些数据测试，确保结果是可靠的，那么依据这种关联性对哪些可行和哪些不可行做判断将会是一个不错的出发点。在招聘的问题上，面试表现当然不会引起后续的工作表现，但是——如果控制了其他变量——这个过程可以帮助预测某个人在未来工作中能有多好的表现。
可惜的是，罗塞尔的研究指出了这些差异，但并没有解释差异出现的原因。有一种可能的解释是，女孩和男孩解答任何问题的能力都相似，但是每一种性别都受困于“刻板印象威胁”——一种心理学现象，如果有一种很显见的刻板印象存在，人们就会按照这种刻板印象行事。比如，研究显示，当被测试人进行测试之前了解到某种刻板印象，他们的表现就会发生变化。在一项基础研究中，有一组女孩在进行数学测试之前被告知这项测试能够体现性别差异，而在测试结果中也真的出现了性别差异，女孩的成绩远低于男孩。而另一组女孩在做同样的测试之前被告知这项测试不会体现任何性别差异，测试结果中就没有出现任何性别差异。——资料来源：stephen J. spencer, Claude M. steele, and Diane M. Quinn, “stereotype Threat and Women’s Math Performance,” Journal of Experimental Social Psychology 35, no. 1(1999):] 4-28.[86]
2014年，负责设计和管理sAT考试的美国大学理事会宣布他们再次对sAT考试做了改进，以解决此类及其他一些问题。尽管这些努力是成功的，但是此举也帮不了我们这些已经上了大学，正在申请研究生学校或已经工作的人，我们已经不太可能再去参加sAT考试了。——资料来源: Todd Balf, “The story Behind the sAT overhaul”, New York Times Magazine, March 6,2014.
我们人力分析团队的一位博士梅丽莎·哈勒尔补充道：“转而采用结构化测试是明智之选，因为这种方法能更好地预测应聘者未来的工作表现。”而且这种方法有利于多样化，因为有预先设定好的问题和评分标准，可以降低潜意识中的偏见。[90]
行为锚定等级评价法。
VoxPop是拉丁语“vox populi”的缩写，意为“民众心声”。
当然，在某些岗位上需要特定的专业技能。你不可能在税务部全部安排一些不懂如何填写纳税申报单的人。但是即便是在这些部门中，我们也尽量安排多种背景且具有创新思维的人。
比如，密歇根大学的斯科特·佩奇的研究表明，人们对奥巴马总统金融团队将要施行的金融市场政策的猜测，其准确性比美联储的一小批经济学家的分析要更准确。根据《谁想成为百万富翁》的电视节目的前主持人里吉斯·菲尔宾所说，在节目中，询问观众时得到的答案有95%是正确的。谷歌的网页级别——一种确定搜索优先顺序的算法——在很大程度上也是依靠的群体智慧。
此处的文化特指本章前文中介绍过的一些特性，包括尽责心、能够接受模棱两可的状况等。同时还指拓展在谷歌工作的人的类型，避免出现同质化。
这种录用函被称作“爆炸录用函”（exploding offers），因为如果不在限定日期内接受邀请，就会失去录用机会（爆炸）。这种录用函在应届生招聘中常用，但当下在硅谷越来越盛行。我认为这种做法在应聘者身上强加了很多不公平的压力，应聘者本应自由地做出最有利的决定，不应承受任何胁迫。毕竟，公司有很多员工，但是每个人只能做一份工作。应该是一份心甘情愿去做的工作。当时哈佛大学教授罗伯特·J·罗宾逊在其1995年发表在《谈判杂志》的作品《拆除爆炸录用函：远点策略》中介绍了如何应对爆炸录用函的方法。文章题目参用了《星际迷航：银河飞龙》中一个称作“远点相遇”的片段。进取号星舰船长被外星人法官判刑，这名法官对警卫说：“士兵们，如果这个罪人说出‘有罪’之外的一个词，你们就扣动手枪扳机。”他问皮卡德船长的下一个问题是：“罪人，你要如何为自己辩护？”皮卡德这样回答：“有罪……暂时的。”鉴于皮卡德既非有罪（“暂时的”），也没有死，这种胁迫的困境就自然而然崩解。罗宾逊的巧妙想法就是用同样的方法应对爆炸录用函：“我接受，暂时的。”策略就是提出一种合理的状况（比如“除非我能够与未来的上司见面”；“除非我没有从正在等待消息的公司处得到更好的录用条件”），解决截止日期问题。“一旦截止日期问题解决，”罗宾逊认为，“威胁的真实性也就打破了。”