揭晓Siri,苹果发布论文阐释语音助手设计想法
发布时间:2021-11-07 08:11:29 所属栏目:传媒 来源:互联网
导读:最近,苹果发布了一系列论文来阐释语音助手的重要工作机理,公开揭秘Siri,向业界贡献了自己在设计上的不同想法。 揭秘Siri,苹果发布论文阐释语音助手设计想法 在第一篇论文中,苹果就语音助手中的多任务处理问题进行了阐释,它指出在Siri中,唤醒处理通常需
最近,苹果发布了一系列论文来阐释语音助手的重要工作机理,公开揭秘Siri,向业界贡献了自己在设计上的不同想法。 揭秘Siri,苹果发布论文阐释语音助手设计想法 在第一篇论文中,苹果就语音助手中的多任务处理问题进行了阐释,它指出在Siri中,唤醒处理通常需要两个步骤:AI首先必须确定输入音频中的语音内容是否与触发短语的语音内容匹配(语音触发检测),然后必须确定说话者的语音是否与一个或多个注册用户的语音相匹配(说话者验证)。一般方法是将两项任务分别来处理,苹果则认为可以用一个神经网络模型同时解决两项任务,同时它表示,经过验证,该方法各方面性能可以达到预期。 揭秘Siri,苹果发布论文阐释语音助手设计想法 在该论文中,研究人员给出了模型示例。他们在包含16000小时带注释样本的数据集中训练了基于两种思路下设计的模型,其中5000小时的音频带有语音标签,其余均只有扬声器标签。相比于一般训练模型去获取多个标签的思路,苹果通过将不同任务的训练数据进行级联来训练多个相关任务的模型。结果发现,在性能表现相同的情况下,苹果新提出的模型反而更适合应用,它能够在两个任务之间共享计算,大大节省了设备上的内存空间,同时计算时间或等待时间以及所消耗的电量/电池数量都将降低。 在另一篇论文中,苹果还介绍了多语言演讲场景的演讲者识别系统设计——知识图谱辅助听写系统决策。以声学子模型为例,它可以基于语音信号传输痕迹来进行预测,并且其上下文感知的预测组件考虑了各种交互上下文信号,其中上下文信号包含有关发出命令的条件信息、已安装的命令语言环境、当前选择的命令语言环境以及用户在发出请求之前是否切换命令语言环境的信息。 结果显示,这一设计的优势在于,它们可以在语音信号太短而无法通过声学模型产生可靠预测的情况下提供帮助。 此外,苹果还提出了一项补充研究,缓解错误触发问题,即忽略不适合语音助手(Siri)的语音。基于图结构设计AI模型的思路,研究人员提出了一种图神经网络(GNN),其中每个节点都与标签相连。结果显示,该模型减少了87%的错误触发。 (编辑:百客网 - 百科网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 中国医学装备协会远程医疗与信息技术分会第二届委员会正式成
- 华为新一代存储OceanStor Dorado 8000/18000 V6在 Interop
- 驰援湖北!浪潮捐赠的首批医疗防疫物资运抵黄冈
- 与Kubernetes渐行渐远,Docker未来在哪里?
- 2020 年 4 月头号恶意软件:Agent Tesla 远程访问木马通过
- 用 AI 解构未来,华米科技 6 月 15 日将召开首届 AI 创新大
- 云计算迎来硬核技术爆发期 阿里云蒋晓维入选计算机架构顶会
- Mellanox收购网络芯片初创公司Titan IC 进一步优化数据中心
- 触手主播白起登招生宣传页 变身校草青春燃遍校园
- 主流媒体建设自主可控平台的难点与对策 以芒果TV为例
站长推荐
热点阅读