英文原文:What IBM looks for in a data scientist
求职者有时会问 IBM 如何定义“数据科学家”这一职位。这是一个重要的问题,因为市场需要越来越多的数据科学家,IBM 分析师 Seth Dobrin 在本文中详细定义了 IBM 眼中的数据科学家。
第一步是区分真正的数据科学家和从事相关工作的其他专业人员(例如数据工程师,业务分析师和 A I 应用开发人员)。为了做这个区分,我们首先定义数据科学的含义。
数据科学的核心是运用科学的方法来解决商业问题。
你可以进一步扩展定义,使用人工智能来解决这些业务问题,进行预测,并优化流程。
根据定义,要实现数据科学的真正潜力,我们需要具有非常特殊的经验和技能的数据科学家,具体来说,我们需要具备运行和完成数据科学项目所需经验和技能的人员:
1、接受过科学训练,有相关学位
2、具备机器学习和统计方面的专业知识,重点在于决策优化
3、拥有 R,Python 或 Scala 的专业知识
4、能够转换和管理大型数据集
5、有能力将上述技能应用于现实世界的商业问题
6、能够评估模型的性能并进行相应地调整
1、接受科学训练,有相关学位
这不是关于学位本身,而是关于你在获得高等学位时学到的东西。 简而言之,学习科学的方法,能够从复杂而抽象的问题开始,将其分解成一系列可验证的假设,你设计实验来测试你的假设,以及你如何分析结果以确定假设是否被证实或证伪。你也可以在学术界之外学习这些技能,甚至通过在线培训,所以学位这一点具有一定的灵活性,但应用科学方法的直接经验是必须的。
拥有高等学位的另一个优点是同行评审过程和发表论文要求的严格性。为了获得发表,候选人必须以允许其他人审阅和作品。还必须提供证据表明结果是有效的,方法是正确的。 这样做需要深刻理解概率和确定性因素之间的差异以及相关性的价值。
2、机器学习和统计方面的专业知识,重点在于决策优化
将科学方法应用于商业问题,可以让我们预测未来会发生什么,从而做出更好的决策。这种预测是人工智能的产物,更具体地说是机器学习。 对于一个真正的数据科学家来说,机器学习和统计的核心技术技能必须的。
3、R,Python 或 Scala 的专业知识
作为一名数据科学家,并不要求你像专业开发人员一样精通编程,但是创建和运行支持数据科学过程的代码的能力是必须的,包括能够统一使用统计和机器学习中流行的数据科学语言。
4、能够转换和管理大型数据集
第四种技能也就是大数据能力。使用 Apache Spark 等分布式数据处理框架的能力是关键。 真正的数据科学家知道如何在数据科学团队的帮助下,从多个来源和多种数据类型中提取数据集。数据本身可能是存在于多个云中的结构化、半结构化和非结构化数据的组合。
5、有能力将上述技能应用于现实世界的商业问题
第五种技能是一种软技能。 这是与非数据科学家进行交流的能力,以确保数据科学团队获得所需的数据资源,并将数据科学应用于正确的业务问题。 掌握这一技能还意味着确保数据科学项目的结果,例如关于业务可能发展的预测得到商业人士的充分理解和操作。这需要良好的讲故事技巧,尤其是将数学概念映射到常识的能力。
6、能够评估模型的性能并进行相应地调整
对于一些人来说,第六个技能是第二个技能的一个方面:机器学习的专长。 我想要分开描述,因为这一点经常是一个好的数据科学家和坏的数据科学家的区别。 缺乏这种技能的数据科学家经常轻易相信已经创建并部署了有效的模型,而事实上他们的模型与训练数据并不匹配。
做一个真正的数据科学家
如果你想成为一个真正的数据科学家,而不是一个没有有抱负的数据科学家或只个数据科学家头衔,我鼓励你掌握全部这六个能力。 数据科学家与业务分析师或数据分析师从根本上不同,业务分析师或数据分析师经常担任数据科学团队的产品所有者,担任向数据科学家提供专业知识的重要角色。
这并不是说业务分析师、数据分析师和其他人不能转型为真正的数据科学家,但要明白,这需要时间,坚持,指导,并一次又一次地将自己应用于真实的困难问题。