2017年10月27日-28日,易观A10大数据应用峰会在北京成功举行,峰会以“数以致用 源力觉醒”为主题。会议邀请到国内互联网行业领袖大咖,以及来互联网、传统企业、媒体及资本领域在内的3000多位与会者,共同唤醒“数字源力”,让用户数据价值得到充分释放和利用。
在28日上午举行的用户视图主论坛上,易观CTO郭炜做了题为《智能时代的大数据用户分析》的演讲。郭炜提到,易观重视从用户搜索、用户授权公开的互联网行为和物联网设施采集的数据中,分析人们的情感、喜好和个性化需求,进而提供更加精准的服务。以下为演讲实录:
各位来宾,各位伙伴们,大家早上好,我是易观的CTO郭炜。
我今天给大家分享的主题是智能时代的用户分析场景的扩展、回归与变革。大家进门看到了易观的展示大屏,其实在这个大屏上体现了今天所演讲的主题,分析场景的扩展、回归与变革。怎么回事?一步一步来讲。
先说场景扩展。做大数据用户分析第一感觉想到一件事,就是千人千面。的确,在大数据环境里面,针对每一个用户自己的用户行为,用户标签都可以通过数据挖掘和算法,给每个人打上特殊的标签,像易观给用户打上8600个标签,根据这些标签做相关的推荐或者做相关猜你喜欢,根据现在的情况推荐一些想要的东西。现在想到大数据,想到用户标签,想到用户分析第一反应,这是分析的扩展。
当然,除了背后这些标签的拓展,同时也有大数据可视化也有一些新的图形出现,比如右侧上面图,叫南丁格尔玫瑰图,还有这些图做了可视化。谈到大数据都说实时,我们在大屏实时跳动的数字其实来自易观SDK,实时采集每天接近亿级别的日活的用户,这些数都是实时计算出来,每秒钟计算超过55万条数据的情况。
其实大家装很多APP的时候,我们能做到秒级别的,把这个人男女性别、偏好几秒钟之内算出来,这不是易观的特性,做数据的公司都可以做到。我们做数据分析的时候,实时性的提升也是一个变化。
数据扩展的背后,其实数据分析场景也在回归。什么是场景的回归?第一个就是查询的回归,大家发现越来越多的需求不仅来自于推荐,越来越多的需求来自于用户的查询。在过去的时候,大家在5-6年前,大家想的数据仓库在做BI,我们要做一些能够让用户直接查询,让用户很快找到一些数据的结果,可能在最近几年大家都在提大数据,我们做用户画像,在做标签喜好的大数据。
第一个是查询在回归。最近这一年,大家发现非常多数据查询引擎在蓬勃发展,很多企业用户的需求,重新回归到用户统计的数据怎么样的,而不是某一个单点用户是怎样的。每一个企业做数据分析的时候,不甘于看到大数据的黑箱子或是看不见摸不见的人工智能的模型,企业还需要看到可视化、可量化的分析结果,这个分析结果是查询时代的回归,画面出的是易观方舟的Ad-Hoc查询的例子,这样的需求每个企业里还有很多。大家看到非常多的企业用户,看到我现在自己的用户究竟长什么样子?通过哪一个渠道进来,是什么样的人群?看到这些人群,他们的活跃是怎样的?留存是如何?客单价是如何,这背后是都是查询。
面对大量数据统计做抽样,现在大数据环境下要求秒级的反馈。企业有这么多的数据,这么多的用户行为,这么多的用户条件,马上告诉我这个用户群是什么样的,这种Ad-hoc查询,它的数据量是过去传统的存储引擎的10倍、100倍,以及千倍以上。所以,最近数据引擎重新回到投资热点上来。
第二个是SQL时代的回归。SQL这么多年,No-SQL曾经火爆过一阵,我们也曾经尝试过用No-SQL全面替代SQL,结果是研发效率下降一半研发人员单价成本上升一倍,并不合适。现在看到所有的数据引擎,向SQL低头,无论是Spark、还是Radis、ES。因为SQL这么多年,真的是一个非常好的语言,我们经常听到说,我们PHP过时了,我们的JS也过时了,我们的Java过时了,从来没有听说有一个东西把SQL干掉。大数据技术研发以后,我们SQL时代又回来了,我们做数据处理,做研发的时候,还是回到一个刚需。它的研发成本和人力投入是最佳的配置,最近一年我发现SQL正在回归。
第三,图像解析也在回归。为什么?大家看到易观这个大屏,第一眼大家看到的东西一定是中间的用户画像,但是大家仔细想一想,真正你能够理解的数字和意义?反而是上面实打实的数字,我看到用户画像,的确很时尚,但是什么含义?人脑会要反应很久才知道他说的是什么事情。
同样举个例子,大家在座都读过易观分析报告,易观所有的分析报告最常用是什么图?柱状图和折线图,为什么?是因为在这样信息繁杂的社会里面,我们理解一个什么东西最快,还是具体东西最快。我们分析产品里面,有特别让人眼前一亮的图形化的场景,但是其实我们很多的产品里面还是回归到我们柱状图、折线图,让我们的用户以最快的时间获得背后这些数字的意义。所以图形化的回归,代表着不是我们看到越花哨的图越好,而是说我们通过这些图形真的让大家理解图形背后数字的意义。
分析的场景也在变革。在发生什么呢?第一个是查询的变革,查询的变革尤特别是最近举办的易观OLAP大赛,挺令人震撼的,尽管有一个选手的速度不是最快的,查询OLAP这么复杂的东西,代码不需要十行,这意味着更复杂的查询精简化的查询,不像SQL写这么多东西,跟人类交互更加自然的交流,可能想到哪里,根据我自然的一些想法,来慢慢逐步把代码累起来,查询带有上下文交互场景。这一家参赛选手也是非常好的朋友,其实他的思路就是做这样的事情。我觉得查询的变革也是不断地进展。将来做一些查询,可能像SIRI一样对话完成,查一个数字,可能需要查什么样的东西,像谷歌、百度、Yahoo一样通过搜索带着上下文的数据就可以查询出来。
感知的变革,大家看到了门口的智能感知设备,我们现在看到,通过我们WIFI探针的方式探针到每一个人的手机是什么样的。包括智能脸部识别的设备,不只是苹果,还有很多国内的厂商都能根据你的脸去看你是怎样的人。
AI的升级,今天上午和下午,都会讲人工智能升级给我们的数据带来非常有意思的东西。可能大家都在讲AI是什么?直接讲AI引擎的升级,背后是AI辅助来做的。推荐引擎大家都知道,这是根据大家过去的行为点击去推荐你感兴趣的产品或者是新闻,其实大家在手机上面已经感觉到了。我想讲讲场景引擎和情感引擎。
场景引擎是什么?场景引擎是由我们感知设备的变化,不仅仅在线上浏览行为发生了变化,也知道线下的行为发生了什么变化,此时此刻此地你现在需要什么东西。
我举个例子,当然这个例子的前提是,如果在座各位的手机里面,有我们易观的SDK,我们在您授权的情况下,知道您其实今天早上在家起床以后,通过传感器的捕捉,发现你其实匆匆忙忙就在家里出来,因为开会比较早。从家里匆匆忙忙了以后,到了易观的大会里,通过我们WIFI探针的感知,你真正入场了,是我们一些VIP的用户。在这个时候,我们通过一些服务将一些消息直接发送到你手机上,比如:您是VIP的用户,没有吃早餐,要不要来一个金拱门的早餐呢?
第二个阶段是情感引擎。情感引擎根据你自己线下和线上的行为,以及面部识别的东西来判断你的情绪。今天下午有一个主题叫《有温度的AI》,背后讲的用人工智能怎么判断情感的状态,现在听歌的状态也可以判断你的心情是如何?高兴的,兴奋的,沮丧的,再给你推荐相关的歌曲,这些都是情感引擎,可以看到推荐引擎大大地普及,场景引擎正在进行,情感引擎正在慢慢尝试,下一个会是什么?我认为是一个心境引擎。
这个心境引擎是什么呢?有一个老话讲:你怎么听不进话呢?每个人沟通交流的时候有大量的信息,就像咱们交流的时候也有很多的信息,究竟哪些话真正听进去呢?和什么东西相关呢?它和我们的场景有关,你在什么场景下?你在什么样的心情下,你能接受什么样的东西?其实这些东西背后是你的潜意识和你现有的行为,你现有的场景和你现有情感一个综合。
现在还没有谁开始做,但我相信在不久的未来,各位再看到这些信息,它一定是根据心境引擎,根据我们此时此刻的场景,根据我们现在的心情,找到最能打动你的那句话,把这句话展现你面前,让你潜移默化去影响,去教导你,让你真正接受一些不知道的在潜移默化中去接受的一些东西。我相信总有一天,心境引擎会成为现实,会把你的心里潜在的需求,给出你心里预期一些服务,这是我讲的未来一些革命、升级。
再回来,重新回到我们前面我讲的这个题目,智能时代大数据用户分析,我讲了拓展、回归、变革,大家会发现,今天易观技术峰会全天所有的这些内容,也都是围绕着这些内容在做的。
我们查询看到SQL回归,怎么去做实时的分析,有什么样的进展?我们大数据的云化,我们AI的语音,AI的共享单车、视频,AI情感引擎、AI视觉识别都是发生变化。我们易观一起与您同行。我今天整体的演讲就到这里,昨天我们正式发布易观方舟,在这里我为易观方舟代言,欢迎各位有志于数据分析,做数据引擎的小伙伴加入到易观当中来,非常感谢。