成为数据科学家需要知道的一切
很容易理解为什么数据科学家新手经常对他们的职业选择感到不知所措。需要掌握的技能、语言和平台似乎是无穷无尽的。
好消息是,这显然不是真的。这个清单不是无穷无尽的。事实上,它相当短——只有四个要点,都植根于一个整体原则:专注于能让你在整个职业生涯中保持良好状态的构建模块。
由于技术变化的速度,那些新加入这个领域的人可能会觉得他们永远在追赶。事实上,,因为技术在不断变化,你最好把重点放在基本面上。
以下是我建议您掌握的四个方面:
- 基本语言,如R和Python:这些是对数据管理、清理和建模最重要的语言。
- 核心机器学习算法:回归、朴素贝叶斯、支持向量机和随机森林是最基本的集合,大多数面试官希望应聘者在做其他事情之前先了解这些。
- 在正确的问题上磨练:有一件事会让一个优秀的数据科学家与伟大的一是快速锁定一系列问题的能力,这些问题将揭示正确的答案。
- 讲述引人入胜故事的能力:这将有助于吸引客户,并最终引导他们实施您的建议。
接下来,让我们将这些要点逐个分解。
语言文字
数据科学家不仅需要精通一门语言,甚至一组语言,还需要掌握灵活性。他们需要能够迁移语言,并在最有助于解决问题的语言之间来回跳转。
为此,学习“构建块”语言将为您提供最佳服务。其中包括一种统计计算语言(如R)和一种通用语言(如Python)。
一旦您熟悉了R和Python,您会发现学习任何新语言都会变得容易得多。这两种语言目前都是这一领域的基础,几乎可以肯定,新的语言将与它们有共同的特点。
需要注意的是:您不必是这两种语言的专家,但您确实需要足够熟悉,这样您就可以在没有太多帮助的情况下研究自己的问题、处理编码问题和调试自己的代码。
机器学习
在这里,我也建议你避免使用流行词,专注于最基本的东西。在面试应聘者时,我经常感觉到他们需要用机器学习和人工智能方面的最新消息给人留下深刻印象。
但没有基本面,流行语毫无意义。相反,我们需要专注于核心技能,如评估机器学习分类器和理解对客户最重要的分类错误类型。毕竟,真正的成本分析比准确率更有价值。
同样,了解如何比较各种机器学习算法,并有能力为模型选择正确的参数也很重要。这些基本机器学习分类器包括逻辑和线性回归、朴素贝叶斯、随机森林和聚类(如k-means)。但请记住,这是一种需要慢慢培养的技能,而不是一下子就学会的技能。也就是说,作为一个新进入者,你不应该关注也你的大部分时间都花在机器学习或人工智能上。你的时间将更好地用在非技术技能上——下面将介绍更多。
非技术技能
一个常见的错误是认为技术技能是最终成功的最大驱动力。我认为沟通技巧和解决问题的能力可能更重要一些。这些品质将帮助你取得有影响力的结果——无论是增加公司的收入,创新产品,还是颠覆整个行业。您将从一个SQL猴子变成一个值得信赖的业务合作伙伴。
- 我最喜欢的非技术技能是我所说的“数据直觉。”数据直觉融合了领域专业知识和商业敏锐性,让您能够提出尖锐的问题并做出快速判断。它允许您以几种不同的方式查看数据,并找到不立即明显的趋势。
它还能让你发现异常值,并问一些揭示问题核心的问题:为什么这些异常值存在于我的数据中?它们代表什么?
当我处理一个问题时,我把它当作一个柠檬。我想知道,当我决定继续前进的时候,我已经从数据中挤出了尽可能多的能量。这就是使用数据直觉的地方:它是关于确信你已经探索了所有的途径。但发展这项技能需要时间和经验。你用得越多,你就会做得越好。
培养良好数据直觉的最佳方法是从事一个项目,该项目的结果对您有直接影响。(比如说,买房子,或者就我而言,买一辆新的山地车)。另一个好方法是处理来自你热爱的爱好或事业的数据。你将对这个行业有很好的了解,同时也会有很强的动力去寻找正确的答案。因此,您将能够快速生成问题和答案,最终帮助您将相同的方法和心态应用于其他问题。 - 接下来,我建议磨练你解决问题的能力。这意味着将客户的需求转化为一个具体问题,并将其分解为一系列步骤,从而找到解决方案。以下是我使用的流程,但您的流程可能会有所不同:
- 了解这个问题,它的重要性,以及它会带来什么影响/改变。
- 找出哪里可以找到数据。如果它不以可用的形式存在,请找出如何收集它。
- 寻找趋势,确定最能解释结果的变量或特征
- 研究不同的方法使模型与数据相匹配,以成功预测或解释结果。
- 验证模型是否与数据吻合良好,并根据业务案例预测结果。
- 与利益相关者交流您的发现,以便他们能够理解您的解决方案的总体影响。
3.最后,认识到你的工作不仅仅是分析。它还涉及使非技术受众能够访问数据和见解。大多数客户不讲数据;他们谈论收入、营销、销售或产品。作为一名数据科学家,你的工作是将技术科学问题转化为商业环境。
忘掉你读过的其他东西。如果你是一个有抱负的数据科学家,那么把这四大支柱作为你的口头禅,成功就会接踵而至。祝你好运