图灵奖得主、世界知名数据库科学家迈克尔·斯通布雷克:从数据资产中获得最大价值

发布时间: 2022-05-30

       “我想给大家的首个建议是尽量把所有数据和应用迁移上云,原因就是云计算更便宜。”2014年图灵奖获得者、全球知名数据库专家迈克尔·斯通布雷克围绕“如何从数据资产中获取最大价值”发表了主旨演讲。他从云技术、机器学习、数据迁移、云迁移四个方面,分享了如何从数据资产中获得最大价值的有效方法。

       迈克尔·斯通布雷克在分享云技术时举例说,微软给亚马逊云计算服务数据中心提供了一项技术,他们往停车场放了一批集装箱(即数据中心),这些集装箱基本上是密封的,只设计了通电、通冷水和联网的开口,它们不一定需要放置在有屋顶和围墙的环境中,除非考虑安保问题,甚至可以放在电价便宜的地方。

        现在的数据中心可能位于高层建筑中,放在像上海或北京这样的大城市的市中心,这种集装箱式的“数据中心”会让云服务更便宜。这种新型数据中心的成本效益要好得多,可以连接数百万个设备节点,而传统数据中心只能连接几千个设备节点,如果你今天要连接100个设备节点,明天要连接300个设备节点,就可以按需购买,这样就实现了灵活性。

       迈克尔·斯通布雷克分享的第二点是机器学习。在他看来,大家都应该投资和使用机器学习,它是智能分析的趋势。如自动驾驶汽车、自助无人收银机等设备的应用,几乎在能想到的每一个行业中,机器学习都会造成颠覆性的深度冲击。

       网约车公司正彻底颠覆出租车行业。现在既存在传统技术,也存在新兴技术,更优秀的新兴技术会取代传统技术,大家都应该投资和使用新兴技术,否则可能会陷入类似传统出租车企业现在所处的窘境。

       对于机器学习,需要训练现有的业务分析师成为机器学习专家,而这一过程可能非常艰辛,所以一部分业务分析师可能得退休,已聘用的业务分析人员可能需要“大换血”。即便如此,也必须全面启用机器学习。

       那么需要做什么呢?迈克尔·斯通布雷克说,首先得花钱请一些机器学习专家。机器学习专家的费用很高,但不得不这么做,要做好准备迎接即将到来的人才和知识竞争。因为未来很可能出现赢家“通吃”整个行业的现象,未来机器学习专家会越来越多,现在大学的计算机科学系越来越专注于培养更多的机器学习人才,这会成为关键商业机密。因此,要全面学习和接受机器学习。

       在谈到数据迁移时,迈克尔·斯通布雷克说,数据科学家要么在研究数据分析,要么在研究机器学习,要么在研究其他技术,而数据科学的关键更多在于数据迁移。因为,一个数据科学家在工作中,至少耗费90%的时间在寻找自己要分析的数据,以连贯的方式迁移数据,并清理迁移结果。

        iRobot公司(一家生产扫地机器人的公司)的首席数据科学家说,她90%的工作时间都在做数据挖掘、数据整合和数据清理,而作为她专业的“数据分析”却只占了约10%的时间。在这10%的数据分析时间中,她把90%的时间用来改正她在数据清理时犯的错误。因此,不做数据清理,机器学习就毫无价值,得意识到一点,数据科学中最重要的部分是数据整合。

        迈克尔·斯通布雷克说,数据整合很难,因为必然会遇到要集成多个数据源的情况。假设你的员工数据库设在巴黎,而我的员工数据库设在纽约;你的员工拿的是定期薪水,我的员工拿的是计时计件工资。这两种数据库模式不一样,所以得付出精力,把双方数据进行统一协调,还得想办法处理无效数据。如果有一名员工部分时间在巴黎工作,部分时间在纽约工作,那么就必须删掉重复数据,避免重复计算。

       “当然,其中没有任何捷径,得将数据进行模糊匹配。比如,我是在巴黎工作的斯通布雷克,而另一个人是在纽约上班的斯通布雷克,两者只有姓氏不一样,所有这样的混乱都必须解决,而这一过程很复杂,也很难,但如果不这么做,数据分析就没有意义,机器学习模型就会失效,这一切也就丧失了价值意义。所以现在的数据科学家大部分工作时间都在做数据整合。”迈克尔·斯通布雷克说。

       那么该怎么办呢?迈克尔·斯通布雷克说,重要数据资产通常包括客户、项目、供应商和零件,而他们通常在数据孤岛中保存在公司内部的多个地方,从整理数据资产开始,定位所有重要的数据资产,建立一个数据目录以便能找到它们,确保手上有所有需要的存取代码,这样才能知道如何读取数据,还要确保重要数据可被读取,然后制定数据整合策略来整合这些重要数据资产。

       他提醒,不要临时做数据整合,要一个项目接着一个项目地来做,交给数据科学家来做,授权首席数据官来制定数据整合计划,授权首席数据官读取所有公司数据的权限,并且要派最优秀的员工来执行数据整合计划。如果不这么做,那建立的每个公用数据存储库,它又被叫做“数据湖”,就会沦为一个数据泥沼。

       最后,迈克尔·斯通布雷克建议通过制定云迁移策略,把大部分乃至全部数据都迁移上云。他表示,在这个难得的机会里,去做你平时不愿意做的事。比如,在迁移上云的过程中纠正上一任负责人犯下的错误,不要浪费这个颠覆的机会,因为你正在颠覆现有的行事方法。

        那应该怎么做呢?迈克尔·斯通布雷克说,在迁移上云的过程中应该清理和整合数据,另外也要重构应用程序,云计算服务将达到最高效率。使用“无服务器环境”,这是按需支付云计算费用的一种方法,它会要求重构应用程序,让它们能在云上高效运行。

       “如果做云迁移一定要外包所有能外包的业务,我身为一名数据库专家,希望各位在进行这一颠覆性举动时,一定要尽可能地把所有数据都放在一个数据库系统中,10年后,你的继任者一定会感谢你强制做了数据清理,做了数据维护,这使数据一致性问题变得更加容易。”迈克尔·斯通布雷克说。

来源:贵阳日报

记者:刘辉 彭刚刚