集智专栏
资源加载中,请稍后...
集智专栏

韦恩图背后的真相——数据科学家的核心技能

朝阳

译者按:本文是数据科学界资深从业人士Daniel Tunkelang所撰写的一篇文章。他从自身的经历出发,介绍了数据科学从业者和管理者都应该具备的一些技能和知识。无论对于行业管理者还是数据科学的学习者和求职者,本文都具有很好的启迪意义,希望本文能在学习和工作中给予大家一些帮助。

如果你所在的公司是以数据作为首要驱动力,那么你一定清楚现在数据科学家有多难招。事实上,数据科学家短缺的现象已经持续了好几年,在过去的一段时间内我们看到与数据科学相关的各种项目遍地开花,某些项目甚至声称在几个月内就能将普通学生锻炼为数据科学家——但需支付16000美元。与此同时,很多美国的顶尖高校也开始在数据科学方面设立学位。很多人不禁会问,这些教育项目到底能教给学生什么东西?更确切一点,当我们招募数据科学家时,他们应当需要具备什么样的技能?

数据科学技能韦恩图

2010年,Drew Conway发表了数据科学技能韦恩图,这张韦恩图中列举了一些数据科学家应当具备的技能,比如计算机技术、数学及统计知识以及一些专业技能(他称之为实质性专门知识)。

数据科学技能韦恩图,原图版权归Drew Conway所有数据科学技能韦恩图,原图版权归Drew Conway所有

对广大的希望招募数据科学家的管理者而言,这张图是一个很有用的参照,但也就仅仅是个参照而已。作为一个数据科学家,每一项技能究竟要达到何种程度才够用?数据科学家们真的能在工作中成为以一当百的多面手么?在过去的几年间,我(指作者Daniel Tunkelang ——译者注)一直在致力于招募和管理数据科学家们的工作,而根据我的个人经验,我会对以上的几个问题提出几点我的看法。

计算机技术很重要,但某些可以速成的技巧并无意义

你的技术团队是否在使用Hadoop或是Spark?抑或是Tableau或Qlikview(这些都是数据科学研究中常用的一些流行工具或框架。 ——译者注)。如果你的团队在使用这些工具,也许你觉得在招聘启事中加入这些技能要求很有必要——但事实上并非如此。一般而言,新雇员可以在几天或几周内掌握这些工具的基本使用技巧,而这笔教育投资花费甚小。与此相对的,如果你试图在面试者中挑选出具备以上技术能力的人则可能花费两倍的时间和金钱。

诚然,并不是所有人都能很快地掌握新技术,因此在入职教育过程中估量每个候选人学习一项新技能(或是新工具、新框架和新的程序语言)所需的时间非常重要,而且往往并不能每次都估量出正确的结果,因此当你预估的时间与实际不符时,请保持一定的耐心。

除此之外,不要让某些可以速成的计算机技能限制了你选择人才的范围,而相反的,应该更多地去寻找那些技术方向合适,对于新技术也具有足够学习能力和学习欲望的人。

数学与统计知识也很重要,但你并不是要去拿奥林匹克金牌

对数据进行建模和分析需要最基本的数学知识,而一项包含对于实验结果的统计化分析自然也需要必要的对于统计学的理解。数据科学家在这些领域需要较为深厚的知识积累,但是,除去这些必要的知识积累之外,更高层次的知识却显得收获甚小。

数据科学家其实并不需要一个在数学或是统计学方面的学士学位,更不要说硕士或者博士了。大多数的数据科学家需要具备一些基础知识去解决真实的、复杂的现实问题,也就是说,你只要保证你所招募的人选知晓足够的基础知识。一些人连贝叶斯法则或是中心极限定理都不了解的人自然很难负担数据科学家的工作,但是不要试图去寻找最顶尖的数学家或者统计学家来当你们团队的数据科学家,让这些天才们去继续解决千禧年问题,或是等着拿到教授职位吧。

领域内专业知识的重要性与所处领域密切相关

在上面的韦恩图中,拥有计算机技术和数学知识的人们一般就可以完成机器学习的相关任务了。但是研究数据科学往往还需要额外的技能树,那就是专业知识。

专业知识对于数据科学的重要性值得商榷。Conway(文中韦恩图的作者 ——译者注)认为能够发现关键问题是一个人从事数据科学工作最值得推崇的优点,而这种能够发现关键问题的潜质来自于对于专业领域的理解。但与此相对的,KDD Cup以及Kaggle上面的竞赛冠军却往往对项目相关领域一知半解(二者都是数据科学相关的竞赛平台)。

所以,专业知识究竟有多重要?这取决于专业领域自身。对于诈骗行为检测而言,很多应当掌握的东西可以在工作中学到——这也是很多人所做的,这些领悟到的经验就可以很好地加深我们对于行业的理解。而与之相反的,如果一个数据科学家缺乏良好的的生物学教育背景,他将很难在药物研究领域获得突破。

专业知识自然多多益善,但真正能发挥大用的知识不是很多,所以要允许科学家们在工作中一步步学习。

别试图寻找独角兽

上文中的数据科学韦恩图中,三个圈交界的地方代表了三种技能的组合,同时具备这三种技能的人非常罕见,而且很难寻找。所以千万不要希望你的应聘者还能具备额外的无用技能——如果你试图寻找这样的顶尖人才,你将会耗费大量的时间。而正确的做法是,不要仅仅拘泥于这些表面上的内容,要着眼于你候选人的基本技能、工作经验以及他们在工作上接受新技巧和新知识的能力。

招募数据科学家的工作并非一帆风顺,但也并非荆棘丛生,祝你好运!


本文作者Daniel Tunkelang

Daniel Tunkelang是一名资深的数据科学和软件工程管理人士,他建立并领导了业界最强大的一些开发团队。他曾经在麻省理工学院学习计算机科学和数学并在卡内基梅隆大学获得了计算机科学的博士学位。他是Endeca的创世员工和首席科学家——这个研究组织后来被甲骨文以11亿美元的高价收购。他在Google拥有自己的研究小组,同时在LinkedIn(领英)担任数据科学的领导职位。

本文翻译自O’Reilly 的文章Beyond the Venn diagram, Identifying the essential skills for data scientists,原作者Daniel Tunkelang,部分内容有删改。

您也许喜欢这些文章

集智专栏

[Python爬虫] BeautifulSoup4基础问题:如何获取特定标签内的网页元素

发表至趣味项目
问题来自知乎,题主在使用Python的BeautifulSoup4库爬取网页时,在获取特定html标签内容过程中遇到问题:一是爬取文本内容失败,二是从文本中提出特殊符号,如括号。 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
集智专栏

人工智能揭秘,带你了解AI的前世今生

发表至数据科学
我们已经看过太多的媒体和人们在讨论人工智能,在讨论人类将会被AI统治。毫无疑问,人工智能已经成为了这个时代的主题和趋势,那么,到底什么是人工智能,人工智能又包含哪些部分,它的未来又是怎样的呢?本文将带你一一揭开人工智能的神秘面纱。
集智专栏

基于Keras的AV女优相似图像检索(译)

发表至趣味项目
介绍了使用深度学习框架Keras搭建卷及神经网络,对AV女优的图像进行特征提取并计算相似度的方法。

文章评论(1)

新用户791 发表于 5月前回复
笔者了不起!