AI虚拟人“惊艳”亮相，多模态融合技术再起波澜-白红宇的个人博客

发布日期：2021-06-29 02:57:21 浏览次数：4 分类：技术文章

本文共 2913 字，大约阅读时间需要 9 分钟。

才艺精湛、情感丰富、又美又飒……这样的AI虚拟人，你喜欢吗？

AI虚拟人几乎复刻了一个真实的人，其外形、表情、动作形态逼真，语调、语气、说话风格自然流畅，还能通过多感官实时关注和识别用户的情绪、表情、语气，根据对话内容及时作出反应。同时，利用人工智能技术实现人体从微观到宏观的结构和机能的数字化，可视化，最终达到将现实生活中的人精确的在数字世界中模拟构建出来。

随着人工智能技术的不断发展，每一次迭代新功能出现的AI虚拟人都会引来诸多关注的目光。甚至有观点预测，未来的AI虚拟人类将成为人类和机器之外的第三类的存在。

如今，AI虚拟人的时代已经到来，这其中的技术取得了哪些突破？在人工智能从感知智能时代向认知智能时代迈进的过程中，有哪些发力的方向又面临哪些挑战？

AI虚拟人时代已到来

“大家好，我是华智冰，从诞生起我就对文学和艺术很感兴趣，不仅能写诗作画，还会根据不用场景创作歌曲……”

近日，清华大学计算机科学系迎来了一位“特殊”的学生，作为中国第一位原创虚拟学生，华智冰以视频形式登台亮相，不仅惊艳了观众，也引发了广泛的关注。

除了华智冰外，今年5月，腾讯AI虚拟人艾灵再秀新技能，首次展示AI作诗、AI书法等国风才艺，还能一展歌喉，与歌手展开跨次元合作。

中国软件网根据公开信息整理

根据中国软件网不完全统计，仅今年以来，已有近10位AI虚拟人面世。其中，搜狗和科大讯飞推出的AI虚拟人侧重于新闻播报，甚至是可定制化的方言播报，将内容多元化与场景多元化有效结合，让新闻资讯更接地气，呈现千人千面的特点。

值得关注的是，技能得到显著升级也是近期AI虚拟人的一大特点。除了写诗作画、唱歌舞蹈外，在所有的对话式人工智能系统中，华智冰也是目前掌握交互数据最多的AI虚拟人。

AI虚拟人背后的技术革新

在人工智能高速发展的十年时间里，自然语言处理、计算机视觉及机器学习等技术都取得了重大突破。如今它已被多数人认可为最有可能深刻变革人类社会的颠覆性技术。

华智冰的才华背后离不开人工智能技术的支持。根据媒体报道，华智冰“脱胎”于中国“悟道”超大规模人工智能模型，其形象、声音，甚至“才艺”，都是通过该人工智能模型生成。

值得一提的是，目前新发布的“悟道2.0”达到了1.75万亿参数，可以同时处理中英文和图片数据。该模型还引入大规模的知识图谱，构建了数据与知识双轮驱动的人工智能框架，并通过这种框架分析、理解富含前沿技术信息的知识。正是依托这一模型，华智冰不仅可以作诗作曲、生成图画，还具有一定的推理和情感交互能力。

诞生在腾讯AI Lab的艾灵，背后也离不开机器学习、计算机视觉、自然语言处理等多种核心AI能力融合。艾灵具备的唱歌、表情、作词、书法等多项才艺，均来自于对海量数据的深度学习，这帮助她快速掌握更多技能，向全能AI不断接近。其中，美妙的歌声来源于腾讯AI Lab研发的DurIAN声学模型。写藏头诗的能力，来自文本创作模型SongNet。最新掌握的新技能书法，则是依托前沿的图像生成技术，通过训练AI书法学习模型，模仿书法的形体及神韵。

“现在的深度学习和机器学习，是在原有自动化规则上多了学习能力，即自己发现规律。换言之，由于人类很难发现规律中的细节，而AI可通过大量训练让电脑学习去发现内在规律及细节。”华为人工智能算法工程师张侗表示。

如今，AI技术已日趋成熟化和规模化。然而要真正实现通用人工智能，必然要将在视觉、自然语言处理等细分领域各自所针对的信息模态整合利用，即实现多模态融合。多模态融合的目标是建立在图像、文字、语音等的多模态信息识别的基础上，实现不同模态信息的统一表征框架，从而起到1+1>2的作用。

除了图文融合等跨域模态融合，同域内的不同信息维度同样可以融合，随着人工智能认知能力的提升，多模态融合也将会从图文等实质性模态，逐渐拓展到如物理关系，逻辑推断，因果分析等知识性模态，从感知智能迈向认知智能。

腾讯AI Lab的多模态虚拟人合成技术

人工智能从感知智能向认知智能迈进

虽然现有的AI虚拟人已较此前相比在专业技能等方面有了长足进展，新一代人工智能正在逐步从感知智能向认知智能转化。但从目前看，现有的认知智能研究刚刚起步，远远没有达到人类水平。

感知智能是指机器具备了视觉、听觉、触觉等感知能力，能将多元数据结构化，并用人类熟悉的方式去沟通和互动；而认知智能则是指从类脑的研究和认知科学当中来汲取灵感，并且结合跨领域的知识图谱进行因果推理与持续学习等，为机器赋予类似人类的思维逻辑和认识能力，特别是理解、归纳和应用知识的能力。

智源研究院学术副院长、清华大学教授唐杰认为，未来AI虚拟人不仅需要可持续学习能力，创造能力和推理能力也是同样重要的技能。这就需要AI虚拟人写诗、作画，甚至会回答一些数学问题，还会编程。

值得期待的是，对AI虚拟人进行情感能力的培养已在进行。如今人和世界的关系正在发生变化，从过去到现在是人和人的交互，从现在到未来则是每个人通过亿万个虚拟人类与世界发生交互。虚拟人类和人类之间的关系不是替代的关系，而是协同的关系。

在人工智能从感知智能向认知智能演进中，“数据+算力+算法=模型”是其显著特点，模型浓缩了训练数据的内部规律，是实现人工智能应用的载体。通过设计先进的算法整合尽可能多的数据，汇聚大量算力，并集约化地训练大模型供大量企业使用，已成为必然趋势。

与此同时，在新基建政策的导向下，新基建的核心是数字化基建，而数字化的核心除了互联网技术之外便是人工智能技术。在人工智能被摆放在首要位置的背景下，互联网巨头以及相关类型的公司都加大了在人工智能领域的投入。

例如，百度不仅计划在未来5年培养500万的AI人才，更推出包括对话式人工智能操作系统DuerOS等在内的多款人工智能类产品。科大讯飞、商汤科技等人工智能专业企业分别在智能语音技术、智能图像识别技术等领域加大研发，取得了重大突破。

此外，AI虚拟人在当前的发展中也面临着一些现实挑战：

第一是投入成本极高。以科大讯飞为例，科大讯飞2019年度研发投入金额为21.43亿元，较2018年增长了20.91%。换句话说，科大讯飞把超过五分之一的企业营收放在了研发上。这样的高成本、高投入、高研发促使人民日报首位虚拟主播“果果”和全球首个人工智能多语种虚拟主播“小晴”成功上线；

第二是场景单一。从目前的AI虚拟人看，大多数仅限于新闻播报、多语种播报、气象播报等单一场景，没有进一步的下沉推广；

第三是认可度较低。目前的AI虚拟人虽然才艺广泛，但还很难做到结合自身的理解和感受，即兴组织语言。同时，缺少情感互动，无法感知关怀、温暖，难以产生真正的共鸣。

总体来看，以人工智能为核心的新一代信息技术正在改变着各个领域，成为千行万业实现创新发展的新动能。但从AI虚拟人应用现状来看，如何降低研发成本，开发新的应用场景等方面，成为相关科技企业和科研院所亟需解决的难题。

参考资料：

《人工智能如何打造“虚拟学生”》

《虚拟主持人不能成为一个“噱头”》

活动推荐

扫码报名参加

CDEC2021 成都站

转载地址：https://blog.csdn.net/Z1Y492Vn3ZYD9et3B06/article/details/117969913 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：得帆云数据中台，全链路赋能企业数据驱动业务

下一篇：培育百万开发者，Serverless的主战场

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章