56、回声配音 (2/2)

量子星星 / 著投票加入书签

笔趣阁 www.biquge2.com，你是黑科技大佬你不早说！无错无删减全文免费阅读！

bsp;  邵逸明飞快挂掉电话打开新闻网站，一个不容忽视的大头条挂在那里。

    “回声科技今日震撼发布，划时代语音合成技术，我国人工智能已领先世界！”

    他呆了一瞬，才打开新闻，拉下去细看。

    整篇新闻的口吻带有一种明明很激动却强自抑制的感觉，这小编也真是厉害，用特别理性客观的文字把回声从上到下夸了一个遍，还不着痕迹地介绍了新软件的各种功能。

    软件的名字很普通，就叫回声配音，和之前一模一样。

    只不过之前的回声配音是个网页程序，这回有了客户端。

    “基于这种划时代语音合成技术，回声科技目前仅发布‘回声配音’一项产品，仅仅是这一款软件，已经展现出令人震惊的功能效果。这一技术的后续开发非常值得期待。”

    邵逸明看完软件，强压着内心的惊疑不定，去应用商店下载了手机app。

    移动端的app设计非常简单，就是输入一段文字转换成语音，带有简单的参数调试功能。

    ai配音对硬件的要求相当高，手机端不能一次转换太多内容，一次输入仅限五十字。

    邵逸明第一时间想到那个刚刚通过海选的动画剧本，随意从剧本中拉出一句词输入进去。

    文字输入完毕，蹦出挑选音色的选项，预置音色有最基本的童音、少年、青年、中年、老年，每一样都分男女。

    点击某个音色，就直接输出声音。

    仅仅是一句简短的对话，邵逸明点开每一个音色来回听了三遍，越听越觉得难以置信。

    是语音合成，真正的语音合成。

    和软件唱歌不一样，语音合成不是简单的声音排列组合，还需要自然语言处理，识别文字语义等等。现在，程序识别出了某句话的语义，根据语义配置了合理的起伏、韵律和声调，然后播放出来。

    逼真程度之高，就像是有一个真人在手机里说话一样！

    程序的表达不一定最动听，但绝对是符合语境的，让人找不出违和感。

    换句话说，软件不具有顶尖配音演员的实力，但是却具有普通配音演员的能力。

    邵逸明强自镇定，安慰自己说：平平无奇，没有灵魂。别怕别怕。

    机器终归是机器，就算能配音，也只是套路化模仿人的语气，配不出有力量的情感表达。就像是演技拙劣的演员非要去演戏

    他随便选了一个音色，点击确认，来到了下一个页面——情感选择。

    下面有四个滑条，分别是喜悦、激动、愤怒、恐惧。

    邵逸明滑动这四个滑条的时候，感觉异常不真实，就好像在滑动图片的rbg滑条一样。

    滑动之后，实时生成的语音果然出现了微妙的语气变化。

    这一页下面还有一样小字：“登陆电脑客户端，调节更多情感维度，还可以自行设计维度模型，保存参数建立情感滤镜。”

    邵逸明犹豫了一下，没有理会，点击确定来到下一个页面。

    这一步的名字叫“音频液化”，选择一个参数，在屏幕上生成一条曲线，手指涂抹就可以改变曲线的形状，纵轴是该项参数，横轴是时间。

    音量是一条直线，用手指向上抹出一个小山包，山包对应的时间段的音量就会发生变化。

    语调是曲线，可以用手指涂抹直接改变声调的上扬或下抑。

    语气轻重是折线，可以制造强调声或轻声。

    发声位置，可以调出气音、鼻音、胸腔共鸣、丹田发声不同的效果。

    还有音高、语速等等各种各样的参数。原本“平平无奇没有灵魂”的普通对话，可以在这个界面往千奇百怪的方向去调整，输出令人叹为观止的多样性成果。

    第四步就是最后一步，完成这一步之后，系统就生成了mp3文件。

    邵逸明听了一遍又一遍，最后靠在椅子上，用手盖住脸，长叹一口气。

    除了音色有些出入，这整句话和他所设想的一模一样。

    过了半天，他终于找到理由安慰自己：“……第四步也太复杂了，选择困难症怕不是能玩一年。要是都这么一句话一句话地调，猴年马月才能完成一段配音？”

    厉害归厉害，效率反而降低了。

    这个想法刚一冒出来，app页面弹出提示：“是否感觉参数太细致，建立音频太麻烦，耗时过长？下载pc客户端，体验高效率ai配音。”

    邵逸明立刻捕捉到关键点：pc端的功能更加强大？

    这个手机端时时刻刻都在给pc端打广告，很明显只是pc端的一个推广试验版。

    移动app已经强大如斯，pc端的完整功能该有多么恐怖？

    邵逸明立刻起身，连回家都等不及，找了家最近的网吧，开机直接下载软件。

    比起手机端的简易，pc端显得过于臃肿了。光纤网速下，软件下载了整整一个小时，又安装了半个小时，才总算弄好。

    这是个付费软件，全功能试用一周，简单功能试用一个月。

    邵逸明迫不及待地点进去，发现它比起手机端的确是强大了不少。

    文本输入方式变成了导入文本文件，没有五十个字的限制，一次可以导入数千字的文本。

    他直接登陆云盘把自己的剧本下载下来，从里面选了一小段导入进去。

    文本读入后，显示在左侧的空白框里，系统自动识别文本格式，广告词、小说、剧本，都会有不同的排列方式，对应不同的窗口布局。就像ps一样，根据画画、修图、平面设计不同的功能，会有不同的窗口预设。

    文本一导入，软件就蹦出提示，“监测到您的文本类型为剧本，是否切换为广播剧模式？”

    切换之后，整个窗口布局大变样，被分成了五个模块。

    左上是文本时间轴，一行一句文本，对应着音频时间线。左下是角色窗口，从剧本中自动识别出的几个角色已经整整齐齐排列在里面，点开之后是自定义角色卡，包括该角色的音色、情感滤镜、语速语气等等。

    右上是属性编辑器，右下是音效素材库。

    整个页面最下方是一条多轨道时间轴，可以对音频进行整体的编辑。

    这么一看，这个软件就已经专业得不行，ui设计功力不逊于adobe系列。

    第一步依旧是选择音色，但不再直接输出音频，而是选好音色后，填到角色卡里。

    邵逸明选完第一个角色的音色就悟了，他应该先把这些角色卡填满，然后再去调整生成的音频参数。

    除了常规的语速语气等，角色卡里还有“情感滤镜”选项，可以选预置的，也可以自定义。自定义窗口里足有二十多个情感维度，开心、同情、嫉妒、失望……二十多个滑条看得人眼花缭乱。

    一个角色不可能永远高兴或永远悲伤，邵逸明填完第一个角色，想了想，复制出一份，在角色名字后面加了个括号（低落），微调了一下参数，换了一个滤镜，用来表示该角色不开心时的状态。

    很快，各个角色以及它们的复制体建立完毕，可以开始编辑详细语句了。

    每一句的可编辑参数都显示在右侧属性编辑器里，和角色卡里的参数几乎一模一样，也有情感滤镜选项。邵逸明立刻意识到，所谓的角色卡，其实就是一个参数模型。

    属性编辑器里，唯一和角色卡不一样的，就是音频液化曲线，像手机app一样，可以对某一个句子的不同时间点，进行最细微的调整。

    编辑完角色、编辑完语句，软件自动合成音频，这段音频显示在右下方的音效素材库里，可以拖入多轨道编辑器进行剪辑。音效素材库链接到云端，用户可以从中下载所需要的任何音效。当然，也可以自己导入。

    到这里为止，这个软件只是普通的配音软件而已，功能无非是模仿人类的声音，细化了各种可调参数。

    用这个软件来做广播剧的话，只要设定好角色，输入剧本就可以输出音频。但这样做出来的广播剧非常“标准化”，用邵逸明的话说就是“平平无奇、没有灵魂。”

    如果对广播剧进行精细化的微调，可以达成很好的效果，甚至能调出专业配音都达不到的水平，但那样又太慢了，要一点一点抠到天荒地老。

    邵逸明心想，这个软件是不是有点鸡肋？一键生成的作品比较粗糙，精细制作的效率又不如人工配音。

    当然，可以用这个软件生成大量粗糙的ugc作品，人们对ugc作品的要求一向很低，就像网友自己利用游戏制作的电影，再粗糙也有粉丝。

    但它也只能用大量粗糙作品填充低端音频市场，或者出一两部极其精细的“神作”，真正的中端精品内容，还是只能由pgc产出。

    这个想法才刚冒出来，邵逸明突然发现，软件里还有一个功能。

    “ai换声，这是什么？”

    他一下子打了个激灵，想到ai换脸、ai换人……“草，不会是我想的那样吧？”

    还真就是他想的那样。

    ai换声的功能是，可以自己为某个角色配音，ai系统会学习他的声学数据，换成系统预置音色。类似于变声器的功能，但不是实时变声。

    弄懂这个功能之后，他直接摘下耳机，坐在椅子上，喃喃道：“补齐了。”

    软件的最后一个缺陷也补齐了。

    精细制作效率低？不，我们可以ai换声。嫌调参数麻烦，就自己配音，再换成角色的声音。

    邵逸明是做音频内容运营的，他一下子就想出了，这个软件发布后，广播剧的制作模式将会发生多么翻天覆地的改变。

    在低端市场，只要设定好角色、输入剧本、适当添加音效，就可以一键生成广播剧。这种广播剧比较套路化，该有的语气声调样样不缺，但比较缺乏表现力。这就像是一部演技很差的偶像剧。

    在中端市场，依旧是按照上述模式生成广播剧，但在比较关键、比较需要表达力的篇幅上，可以由配音演员进行配音，再替换成角色的声音。全程配音替换也可以，总之，只要一个配音演员够了，一个人就能完成一整个剧组的工作。这种广播剧就像是偶尔演技爆发的普通电视剧。

    在高端市场，用软件对广播剧进行不厌其烦的精细微调，可以完成非常高级的表达。这种广播剧，大概就像演技爆棚的大电影，普遍意义上的“神作”。

    一部广播剧所需要的人才依旧是三种——编剧、导演、配音，但团队急剧缩水，最多只需要三个人。

    一名编剧足以自己完成一部低端剧集，再加上一名配音，可以完成中端或高端剧集，如果编剧本身就是配音那更好了。至于导演，可有可无。

    两个人能做，一个人也能做，超高效率的广播剧内容产出，这就是、这就是……

    “这就是付费音频的ugc模式……”