人工智能中转站:人机语音交互
发布日期:2015-12-24
智能语音交互对人们生活的影响正在潜移默化地发生。以前,人们还习惯于通过键盘和触控屏操控智能设备,而三到五年内,科学家认为人们或许可以随时给身边智能设备、机器人下达指令,帮助订餐、订票,乃至端茶递水。
过去,机器对语音识别度不高,对自然语言的语义更难以理解,阻碍了语音交互的应用。
但仅仅在一两年内,随着降噪技术、方言识别、“双工多轮交互”技术、机器学习技术的发展、对语音的准确识别,乃至对语义的准确理解,让机器准确理解并执行人类指令成为可能。
“以语音和语言为入口的认知革命,将推动人工智能梦想成真。这是一条人工智能走认知计算的必由之路。”由科大讯飞研发的最新技术,实时文字同传了科大讯飞董事长刘庆峰的演讲。
“(原来)我问一次北京明天天气,然后可以再问上海明天天气。而现在我可以问北京明天天气,然后直接问‘上海的呢?’,它马上就知道上下文相关。”刘庆峰说。
同时,在机器回答问题时,人类今后也可以随时打断,插入新的指令和话题。
方言、环境噪音,都可能影响语音识别准确度,而刘庆峰表示,最新的科技,结合了方言、降噪、“双工多轮”等技术,2015年将语音识别准确度由40%已提升至90%。
让机器执行人类语音指令,识别是首要前提,但接下来另一个重要课题是如何让机器理解自然语言语义,而这也涉及更深层次“人工智能”。
过去60年中,人工智能掀起过两波浪潮,从证明数学原理,到大规模神经网络出现。直到2006年,机器“深度学习”正式提出,并被证明可用于大规模神经网络的学习训练,海量的数据给予机器学习资源,卷积神经网络、递归神经网络等机器学习技术,在语音交互方面逐步获得应用。
“我们认为,人工智能发展有一条必由之路,就是以语音和语言为入口的认知智能的革命。这是我们今天所面临的机会,也是我们已经找到的路径。”刘庆峰说。
随着语音识别技术发展,演讲者现场发言时语音同步转录为文字实时显示,已经可以保证高准确度。这项技术将可能应用于教育、文化娱乐等多个领域。例如,学生将可以实时获得并保存教师讲课的文字内容,而专门从事语音文字转录的速记行业将发生改变,秘书和文字工作者的工作分量可减轻。
不过,机器在合成、识别很多方面达到人工水平是感知智能的发展,最有挑战性的是认知智能。
怎样突破认知智能?刘庆峰认为,应当回到人类进化的原点,“各方面的证据汇在一起,语言使得我们能够反馈周边环境信息,才使得我们可以虚构概念,可以有理想、有主义,可以有组织。”
认知智能有三个核心能力:交互、知识管理、学习和推理方面。学习、推理能力的发展成功已经应用到电信、金融、教育等行业。
在电信行业,智能语音客服已经可以代替三大运营商30%的人工客服。
在教育行业,美国、日本和中国都推出了“机器高考”项目。其中美国的目标是让计算机未来通过美国生物学大学入门考试,日本的目标是让机器人2021年能够考上东京大学,中国的人工智能计划,也是让类人答题机器人3到5年内能够考上一本大学,这意味着,在未来中国100个大学生中,机器要考入前20,其不仅需具备较强的记忆能力,还必须具备表达、推理、学习能力。
机器学习在教育行业的发展诞生了智能阅卷,而通过智能阅卷,可以分析出学生学习的薄弱环节,“有了这些技术,我们就可以给孩子有针对性的学习推荐,使个性化学习真的成为可能。”刘庆峰说。
“人工智能一定是为人类服务的,是用来延展我们人类的能力的。随着万物互联时代的语音、语言交互,使得我们的智慧可以在后台进行碰撞比对,相互启发获得灵感,我们人类的群体智慧会上一个巨大台阶。那个时候不是奇点临近,不是人类末日的到来,而是人类一个全新时代的开始。”刘庆峰说。