为了和老外开会,我雇了一群“字幕组”...
发布日期:2021-07-01 03:44:26 浏览次数:2 分类:技术文章

本文共 2351 字,大约阅读时间需要 7 分钟。

图片

 

概述

 

企业用户随着工作业务的发展,对日常会议的记录和涉外会议所需要的翻译需求不断提升。

图片

微软提供了一个基于微软云Azure 认知服务的语音实时记录翻译解决方案—音频智能笔记,它可以看作是一个独立于系统之外的语音记录和翻译系统,能够实时提供音频记录和翻译功能,并实现对记录结果的保存和传收。

图片

 

1. 音频智能笔记

音频智能笔记是Azure 认知服务的语音实时记录翻译解决方案,可以适配于桌面端、移动端和企业应用。主要有音频记录、音频翻译和记录保存与传输等功能,同时构建于Azure云平台,保证了灵活部署和数据安全,并提供了定制化的语音服务。

 

主要功能:

音频记录

音频记录可准确地将超过85种语言和变体的音频转换为文本。

图片

该功能能够将多路音频(麦克风、系统音频、音频文件等)区分并记录成文本。其使用说话人分割聚类来确定说话者、说话内容和说话时间,通过自动设置格式和标点获取可读的脚本。同时音频文件自动保存到本地。

 

图片

音频记录功能界面

其中实时记录文本框提供导入、编辑、搜索和保存等功能,供用户自由处理音频记录结果。通过对转录文本进行搜索或分析或进一步操作,可以从语音音频中获得更多价值。

音频翻译

图片

音频翻译顾名思义,能够实时将输入的 30 多种语言音频翻译成用户所需要的语言文本,同时也提供纯文本翻译功能。

 

图片

音频翻译功能界面

 

图片

文本翻译功能界面

 

该功能能够规范化文本以获得更好的翻译,可以删除口头禅(“嗯”、“呃”和咳嗽声)和重复的单词,添加正确的标点和大小写,并排除不敬的语言,以获得更可读的翻译。

 

其他功能:

记录实时传输

对于任何实时记录能够一键传输,通过邮件方式进行收发,保证了会议的高效性。

 

灵活部署

随时随地部署,从云到边缘。在数据所在的任何地方部署运行语音到文本。使用容器和语言检测构建针对鲁棒云能力和边缘位置进行优化的语音应用程序。

 

数据安全

语音服务由 Azure 基础结构提供支持,提供了企业级的安全性、可用性、合规性及可管理性,在处理期间不会记录语音输入。

 

定制服务

1. 根据需求自定义语音模型。定制语音模型,以了解组织和行业特定的术语。克服语音识别障碍,如背景噪音、口音或唯一词汇。通过上传音频数据和脚本自定义模型。使用 Office 365 数据自动生成自定义模型,以优化组织的语音识别准确性。

 

2. 定制翻译以反映特定域的术语。为特定于业务或行业的术语自定义语音识别和翻译。无需机器学习专业知识即可训练和部署自定义翻译系统。

 

设想一下,你可以添加小语种、甚至根据你自己的口音、语调和词汇来设置一个专属于你的语音识别系统,这是不是很棒呢?

 

  特征总结 

 

图片

将以上六大功能合理整合便得到我们的音频智能笔记,总结而言其具有如下特征:

实时记录

实时提供系统音频的记录和翻译;可以同时记录多路音频并进行区分(包括电脑音频,麦克风等)

 

多语言

支持多种语言的实时翻译,包括简体中文,繁体中文,英文,日文,法文,西班牙文,韩文等;可以根据客户的实际需求,增加其他小语种的翻译功能。

 

易用性

便捷的使用界面,可以通过一键点击开始语音记录和翻译工作;可以通过一键点击,将语音记录和翻译直接通过邮件发送;直接获取系统音频,不受应用系统的限制。

 

AI

应用微软人工智能平台最新的认知服务,具有极高的语义理解和翻译能力,并随时平台服务的更新不断提升能力。

 

 

观看这个视频,了解如何使用基础版语音实时记录和翻译系统

 

本文的音频智能笔记,是基于Azure认知服务的语音服务,其具有极高的语音转文本和翻译能力,并随着平台服务的更新不断提升能力。那么下面再让我们简单了解一下Azure认知服务的其他服务:

 

 

2.认知服务中的其他服务

图片

 

Azure 认知服务是具有 REST API 和客户端库 SDK 的基于云的服务,可用于帮助你将认知智能构建到应用程序中。即使你没有人工智能 (AI) 或数据科学技能,也可向应用程序添加认知功能。

 

 

观看这个 50 秒的视频,了解如何使用你熟悉的编程语言为各种用例部署 AI。

图片

其主要提供五大类AI认知理解功能:影像、语音、语言、决策、搜索,让你能够构建可以看、听、说、理解,甚至可以决策的认知解决方案。所以不仅是语音服务,还有其他各类的服务也能够为我们提供多方面的认知功能。所以最后让我们来看一看认知服务的其他服务,

 

图片

 

Vision

一种用于识别和分析图像、视频和数字墨迹中内容的 AI 服务,可使用视觉数据处理以通过对象和概念标记内容、提取文本、生成图像说明、审查内容以及理解用户在物理空间中的移动。

图片

 

Language

语言服务旨在从非结构化文本中提取意义,包括QnA Maker、沉浸式阅读器、翻译工具、文本分析、语义理解。

图片

 

Decision

有助于更快速地做出更明智的决策,包括个性化体验创建服务、内容审查器、异常检测器和指标顾问。

 

Search

必应web搜索。

 

这些服务和本文的主角—语音服务一样,都能够提供可用于构建智能应用的一系列功能全面的 AI 服务和认知 API。对于其他服务的详细介绍,我们会在以后的文章中陆续推送,敬请期待。

 

总结

 

微软云Azure提供的音频智能笔记是一个成熟的基于AI认知服务的定制语音服务解决方案,为客户提供多路音频实时记录和多语言实时翻译功能,增加了记录实时传输以提高易用性,并基于Azure认知服务,为客户提供定制化的语音服务解决方案。

 

同时,该解决方案构建于Azure人工智能平台之上,非常易于整合与扩展,它能够利用云基础设施和数据服务的巨大力量,保证客户全面、稳定和高效的业务服务。

 

图片

企业上云直升机团队深度参与Azure认知服务的设计、开发、部署和咨询等环节,为客户提供Azure云平台的最佳实践,实现更好更快更高质量的定制业务应用场景。

转载地址:https://microsoftchina.blog.csdn.net/article/details/114997900 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:何为超融合?从一个汉堡讲起…
下一篇:关于Azure Databricks你必须要知道的几件事

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月27日 11时52分47秒