2017年10月27日,易观A10大数据应用峰会在北京召开,本次峰会以“数以致用 源力觉醒”为主题。大会邀请到国内互联网行业领袖大咖,以及来互联网、传统企业、媒体及资本领域在内的3000多位与会者,共同唤醒“数字源力”,让用户数据价值得到充分释放和利用。
在27日下午的举行用户场景平行论坛上,科大讯飞大数据研究院副院长谭昶做了题为《讯飞大数据实践》的演讲。在谭昶看来,人工智能和大数据的终极目的,是让人们的生活变得更简单轻松,这也是讯飞大力发展该领域的主要目的。以下为其演讲实录:
大家好,先花一点时间介绍一下科大讯飞是一家什么样的公司,大家可能都已经比较熟悉。我们是国内在A股上市公司的人工智能领域的标杆企业,我们现在的市值达到700个亿,我们自己认为是人工智能的先行者。讯飞自己的公司的使命是什么?我们定义成这样一句话:“让机器能听会说,能理解会思考,用人工智能来建设美好世界!”分成了三个部分,第一句话是我们讯飞成立的初心,做智能语音,做中国最好的智能语音,机器说,机器听,这样就能同人和人的方式相比较。
到了后来,我们发现智能语音技术实际上是人工智能的一个非常重要的组成部分,人工智能在人机交互这个层面上最重要的在干什么,要有认知能力,要能理解、能思考,这样的话人工智能才能真正地应用到我们的生产生活实践里边去。
之后我们要做什么?人工智能还应该帮助人的最终目的是建设一个更加美好的世界,让每个人的工作生活变得更加轻松愉快。
大家会问一个问题,人工智能公司跟大数据到底什么关系?我希望用这页PPT把这个问题非常简单的回答,我们讯飞自己做的工作,讯飞输入法有语音识别能力,只要对它说比较标准的普通话一分钟400个字,怎么实现的呢?
深度神经网络作为机器学习的重要组成部分,它需要海量的数据据训练,这个训练过程里面我们一般来说十万小时左右的有标准语音数据一定要输入进去,经过我们的人工智能专家、大数据专家的工作,得到了非常良好的语音识别模型,这个模型要放在实验室睡觉吗?或者参加一些比赛,一定不是,我们放到讯飞开放平台里面,我们开放平台里面还有其他很多产品,机器人、音箱、电视摇控器这样的产品,每个人说的话都要经过这样的开放平台,经过用人工智能的技术把它转变成文字,而且这个识别率、处理能力识别率达到97%,这个过程的两个阶段,第一个人工智能的自学习过程里面离不开大数据,这个叫做大数据能够让人工智能更加的智能。还有一句话,原来的语音数据没有人工智能的时候没办法,数亿人海量的数据怎么去听,人工智能让非结构化的数据能够被处理,价值就产生了,大数据可以让人工智能更加的智能。
展开一点讲,大数据和人工智能的关系,深度神经网络和大数据之间形成了紧密结合才能成为我们让算法、模型取得一个良好效果的主流路径,还离不开更多的数据,我们有时候叫做数据闭环,在讯飞内部叫做涟漪效应,一滴水打入一个平静的水平,技术在扩散,水的波浪在不断的扩散,你要不断的收集数据改进你的技术,如果你的技术改进速度比扩散速度慢,最新进来的用户就会感觉到速度很慢。我们叫做研究、工程、产生、用户闭环迭代优化的过程。
人工智能成功了,大数据能不能成功,大数据为什么要有价值?如果大数据放在那里站着,我们怎么样把这个数据价值挖掘出来,我做数据科学家,建大数据平台,为结构化的数据如果想更好的处理分析的话,最好要有人工智能手段做一些比较复杂的挖掘或者说分析的过程,转变为容易处理的数据。这个过程三个阶段,采集数据,分析数据,深度的洞察使用数据,三个过程里面有三个讯飞小产品来介绍一下,人工智能技术已经深入到我们去进行数据价值挖掘的各个领域及各个阶段。
比如,我们现在有讯飞听见产品,所定即所见,所有的语音别转化为文字,被方便的处理。这是采集过程。在分析过程里面,刚才看到了赵总,我们能够把学生的过程数据,比如人脸,老师讲课全部转换为标准化结构化的数据,讯飞同样也有,我们也可以通过学生学习过程数据的分析进行个性化学习。还有一个层次洞察,最常用的洞察我到底能不能通过我的数据获得商业价值,获得广告上的商业价值,我们有自己的广告平台,也是人工智能开放服务过程里面收集到的用户行为数据。
有了这样的一个分析和认知之后,人工智能和大数据的紧密结合的,讯飞如果想让数据产生更大的价值,让我们自己公司取得的更大的商业上成功,必须把大数据和人工智能融合贯穿,怎样一步一步的实现呢?对于大数据能力的简单理解:首先你有没有大数据资源;其次,对于大数据的资源有没有足够好的分析处理能力,也就是我们的工具,你要挖金矿就要有锤子和锄头,大数据平台就是这样的工具。
在工具和数据之上我们首先要服务自己的业务。现在的思路我要把这个东西做深加工,先服务的业务,在消费者领域、APP怎么样服务更多更好的服务别的用户,我在教育领域怎么样让学生学习更轻松,这些过程都是业务本身的改进。再向上才是像广告、征信这样的大数据业务的能力,基于已有的数据创造一个以前不能做的业务,最典型的就是广告。
我们复盘一下讯飞有没有这个能力?大数据资源我们有人工开放平台,截止2017年9月我们已经覆盖了15.9亿的终端设备,每天形成40亿次的使用次数,包括45万的第三方团队,比如京东上面的客服机器人聊天,也是我们的语音识别自然语音处理的能力提供的,这都是大数据相关的。小的比较有趣的是,我们看到一个一个快递员最重要的事情打电话,你的快递到什么地方了过来拿,这个过程里面我们发现开发者做了非常小的产品,对着手机说出号码自动拨号,我现在两个手拿两个设备,没有办法拿第三个设备或者拨号,我的嘴可以说。这样很小的产品已经极大地方便了很多人的工作和生活。
在一个开放平台之外,我们还在非常多的领域做深耕,比如汽车领域,汽车语音套件95%的市场份额,智能家具产品已经有3000多个合作伙伴。工具不展开介绍了,这样一个平台我们每天处理15000个任务,100TB的数据,演奏出美妙的数据音乐,这个平台要完成收集、存储、计算,不仅对外部,还是对公司各个业务部门提供数据服务能力,更加简便的方法,让所有的用户去使用公司的大数据。
在平台数据之外我们要有人,我们也邀请了非常多的数据科学家作了产学研的合作,有了数据、平台、人,下面讯飞就一定是一帆风顺的?所有的大数据就迎刃而解?我们干不了这个事情。上午的时候很多嘉宾提到了我们做大数据也要深耕行业,一定要依靠行业里面的深耕扎根下去,才能取得差异化的优势、取得真正的胜利,把这些东西加起来以后最终的目的是获得商业价值,商业价值的体现有很多种,挖掘出来知识,产生新的产品,所有我们会进行一些企业内部的流程机制改造升级,都是产生价值的过程。
讯飞在哪些方面产生具体的价值?简单讲三个案例,看起来也非常简单,第一个精准营销,这个事太普通了,讯飞已经把自己的数据用好了,把数据变成了广告上的精准投放,变成了推荐过程里面的精准推荐,让大家享受到比较优质的服务。另外两个层面是讯飞比较独特的对于数据的深耕和探索,怎么样把大数据的能力、人工智能能力赋能到教育领域、智慧城市的政务服务以及交通领域。
第一个叫做讯飞广告平台,这个广告平台不做更细的展开,SSP、ADX、DMP,讯飞的大数据的价值已经孵化出来了,讯飞自己的大数据每天40亿次的交互,每天100个TB的交量,这些数据的价值被费用覆盖掉了,我们可以去做更多的事情,大数据业务回过头来反馈业务大数据的发展。我们两千多个标签覆盖15亿终端设备,独立用户识别出来10亿左右。
这个领域讯飞也做了一些自己的技术能做的事情,一个是对于自然语言的理解,语音第一步处理出来就是自然语言,自然语言对它进行深刻理解才叫人工智能,理解的过程可能有简单一点的,比如同样两个人谈汽车,关键做出来两个人有什么区别,一个人可能有车,有车谈怎么养车,出了事故怎么样。另外一个人还没车,就说这个车什么颜色,什么配置,这个车价钱怎么样,有没有促销。微车做汽车金融服务的时候,我现在要做有车的人卖保险,做没车的人推销二手车,这两人区分非常有意义,广告投放更加精准。
更直接的人工智能相关的技术,我们做一些生活语音方面的分析之后,男性和女性的差异非常精准的趣闻出来,大家使用用户行为手段,比如上网香水,男人给女人买,看一些军事、历史方面的书籍,也不是那么准确,都没有你对着手机说一句话我就能知道,男女都能知道,有价值的信息就被人工智能挖掘出来了。挖掘出来之后怎么办?我们给自己的产品也试了一下,发现这种精准营销的东西非常有威力,比如我们推出了讯飞翻译机,我们打广告的时候第一反应大家出国旅游基本要买翻译机,一打广告效果不理想。
我们做深度的分析,第一个留学人群代表什么?并不是中国人到外国学习,而是老外到中国来,他们会先买翻译机,我不会说中文,我会说英语就行,拿翻译机一说能跟中国人顺畅交流。其次是翻译人群,有些人要做翻译工作的时候拿翻译机减少很多工作量,出国旅游人很多,并不是所有的出国旅游人都会去买翻译机,坐飞机的时候才会去买翻译机。这是旅游的,再往下外语培训的人群,小朋友们不仅仅依靠真人老师学习,该可以依靠机器的老师来学习。这个过程里面有非常好的效果,从我们的10亿用户里面筛出来一千万人群,投放效果4.61%,比一般手段1%的的投放效果要好。我们给京东、2345做效果投放基本上都能收到非常好的效果回升,讯飞很多标签是别的公司做不出来的,拿不出来,因为他们没有。
在教育方面,刚才大家已经听了很多的科普,我就不展开了,最简单的,无论什么样的教育方式,最终的目的通过数据分析学生学的怎么样,老师教的怎么样,家长、教学主管部门,学校对于老师和学生的过程非常的感兴趣,有一些问题,我们在线的MOOC教育非常简单,但是在中国广大学校、每个教室里头大家学习的手段,老师的教案是纸的,作业还是纸的,这些数据能不能利用起来?怎么解决?
并不是大数据就能解决这个问题,先用人工智能解决数据采集的问题,我们用手写识别,第二步是老师改试卷,一场月考一千人的考试,可能整个年级组要花四五个小时,这样的工作能不能变成机器的工作,以后老师的时间被解放出来了,可以更高的备课,可以用人工智能手段,不仅可以把试卷扫描出来,把文字转化成机器可以理解的自然语言,而且可以对自然语言做深度的分析,对语文、英语、数学,无论是作文还是公式都可以直接告诉你做错了还是做对了,作文好不好,有没有排比句,有没有比喻,甚至有没有抄袭,这是机器的特性。效果不展开讲了,无论在今年高考里面,还是研究生里面我们都做了相应的验证,教育部考试中心非常认可,认为人、老师、和机器结合起来,这种产生的效果可能远远优于人和人之间的合作。
我们这个产品叫做全学科阅卷,只要这个字老师能认机器也能认。有了这样数据,下一步分析学生学的怎么样,一场试卷下来知识点拿出来,掌握程度和班级平均、学校平均、全国平均水平,基于差异找出薄弱点,找出需要做什么练习,学什么样的微课程,做完练习之后机器可以再做一次过程化学习的迭代更新,这样的良性循环建立起来之后,学生每做一道题下一道题都不一样,针对每个知识点的程度做出了非常精细的判断,每道题都是你可以学会的,成绩可能得到可以的提升。作文批改时间从原来40个小时变成几分钟,使用频率从月到周。未来所有的学校在使用个性化的产品大家一问可能都是讯飞的。
人工智能助力城市大数据应用。教育跟我们每个人的未来、子女的未来息息相关的,城市服务跟我们现在息息相关,我们都想享受更好的服务,比如大家遇到的困难丢了身份证去办的时候排队,提交的时候等30天以后再来拿新的身份证,办护照、港澳通行证,都遇到很多问题,现在国家也提了,这样的事情不能让人在那里跑腿。比如分析一个城市里面到底有多少数据,45个部门715类数据,一个城市里面典型为网上事项1948项,现在一号一窗一网,当场办理,原来十天现在变成一天了,所有的数据就被电子化,这个工作里面讯飞做的非常多的示范性工作,包括我们做的几个城市,在现在周围城市里面典型案例大家都看得到,安徽、杭州、贵阳等30多个地市都使用了“互联网+服务”的产品,这个产品到底干什么?
比如“人脸+识别”怎么用,比如老人半身份证只能去窗口办,比如领退休金,有时候老年身体不好去世了,被冒领了,国家有一个笨方法,社会保险长期待遇人员资格认证,今年认证通过的今年退休金可以照常领,很多城市这种情况,我们并不是都北京上海工作,加上可能在遥远的安徽,老年人每年跑一次,本来没病跑一次就生病了,现在把自己手机拿出来装上政府的互联网服务APP,打开摄像头,打开麦克风,让老年人对着说几句话,这是金融支付,避免了很多奔波的问题,身份认证一旦推广开来的话,最多跑一次,讯飞讲一次都不用跑,手机拿出来想办什么事就办什么事。我们逛淘宝难道有哪一次需要去阿里巴巴总部买东西吗?政府为什么还需要上门去排队,一次都不需要。我们在杭州开一个农家乐办证需要跑10天,现在做了一个政务服务平台,在线提交相应的资料申请材料,最后EMS可以把证照送到家门口,一个窗口受理,一站式完成服务。杭州政府给我们提了一次机会,让我们设计一下怎么样做到一次不跑,数字杭州顶层设计方案,到2020可以享受真正足不出户的服务了。
除了这些之外,我们也在城市里面做其他的工作,比如公交车路线优化,比如这个地方应该盖商场还是学校,这些工作里有一个非常关键的点,你不能只用政府的数据,你要考虑到城市里面产生的所有数据,比如车、人、手机的数据,这些数据使用起来之后,你可以对整个城市的运转状况做一个非常详细的洞察和理解,未来的物联网更发达的时候,我们会找到更多手段,这些数据利用起来之后,让我们的城市规划管理更加的智慧化、便利化,整个大家在城市里面的生活也会更加的幸福,更加的美好。
无论是在哪个领域,深度学习,培训方法,以及海量大数据资源,理念我们做了很多基础性的数据,广告、个性化学习、数据共享打通都不能根本目的,这些数据在各行各业产生真正的价值。比如我们在法院的一些工作,比如我们在公安、客服的工作,我们都是要用人工智能、大数据核心技术,让大家的变得更加的便捷方便,无论是老师,政府,公务员的,他们的工作都应该变得更加的轻松,同时每个人的生活都变得更加的幸福,学生、居民都可以变得更加幸福,这样的工作才是用人工智能、大数据最终需要创造价值据解决的问题,一句话作为一个总结,讯飞是一家用人工智能改变世界的公司,我们的团队是希望能够用数据去创造价值的团队,让讯飞成为一家创造更多和更好的社会型公司。