在新加坡,成为一名数据科学家需要了解的几个问题

Lye Kong-wei是Grab数据部门的负责人。在新加坡,他的团队负责机器学习、市场、优化、模拟、预测以及架构。不久前,在TechiInAsia举办的AMA(Ask me anything)活动中,他针对Grab这样大公司数据部门的职责和需求,做出了自己独特的描述。

  

成为一名数据科学家需要什么?

数据工程师需要处理数据库、构建通道并确保可用性。不仅要洞悉当前的前沿技术,他们还必须不断考虑采用更新的大数据技术进一步拓展。

另一方面,数据科学家要善于发现现在公司业务中的隐患,针对性地提出问题,找出相关数据,建立模型/算法来解决问题,并验证解决方案。而解决方案和结果往往因人而异,也许大相径庭。

在Grab中,数据科学、数据分析和商业智能意味着什么,它们是如何被使用的?

数据科学小组负责构建算法和模型,通常将研究(现有的和新的)转化为适用的产品特征。因此,从乘客打开Grab应用程序的那一刻到车辆到达的时候,数据科学为最有效的路线、旅行时间和价格点的思考和决策提供了动力。

数据分析查看来自多个来源的数据,以发现趋势和模式——这些洞察可以转化为业务决策。

商业智能会大量查看我们的内部运营数据,以找到改进我们的业务流程、运营和决策的方法。

作为一名非科技人员,在数据科学业务部门工作需要具备哪些最低能力?我应该从哪里开始学习?

建议把重点放在基本面上,比如统计学。这是数据科学的基本要求,要学会去理解数据,知道它试图告诉你什么。此外,还要找到可以作可视化数据的工具,尤其是当它们是高维数据时。建立数据模型,考察其与真实系统是否足够接近。

你是否觉得东南亚的数据人才短缺,尤其是数据工程师?你如何为Grab数据团队找到合适的人?

我认为数据专业人员普遍短缺,不仅仅是数据工程师。在Grab,我们在寻找优秀的数据工程师、数据分析师和数据科学家方面也面临着类似的困难,所以我们与学术界合作,扩大人才库。

新加坡很小,数据科学职业的未来前景如何? 

新加坡很小但它是一个高度数字化的经济体,也是一个国际商业中心,许多公司在这里设立分公司,确实看到公司雇佣越来越多的数据科学家,这个行业的未来是光明的!

在您团队的日常工作中,你们如何1 )数据清理和2 )更普遍的数据治理以确保数据安全,以及数据以正确的方式用于预测/推荐?

数据清理可以自动完成,也可以手动完成。这是最耗时的任务之一,但却是绝对必要的工作。除非数据收集得到完美控制。

在Grab,我们对访问和使用数据的权限有非常严格的规定。就以“正确的方式”使用数据而言,我认为这可能需要围绕隐私、道德等展开更大的讨论。在开始构建这些特性之前,我们通常会在客户内部和与客户广泛协商。

除了速度,你认为在学术界工作和在Grab工作之间有什么更显著的区别?

这主要是理论和实践。学术界的任务主要是教育和形成理论,所以他们的重点不是为现实世界制造产品。在Grab,我们的任务是识别客户面临的困扰,并给予解决。按照数据科学理论,我们应用数据技能来创建模型和算法的,并通过模型和算法解决问题,并且相当完美。

你的团队有没有建立一个模型,最初看起来不错,但在大规模部署时却不可行?对于这种情况,选择寻找替代方案还是投入更多资源? 

不仅仅是一两个,在早期的几个案例中,我们很难在相互冲突的设计目标之间进行权衡,尤其是当我们必须大规模部署时。作为概念的东西不一定能顺利成为真正的产品。通常,我们在最优性和计算时间之间进行权衡,“分而治之” 的策略在我们这边已经已经很常见了。 

Grab的数据团队中主要使用哪种编程语言?

也许不足为奇,但是我们主要使用R和Python。但是当需要进一步优化性能时,我们也使用低级语言编写。

 

Leave a Reply

Your email address will not be published. Required fields are marked *