GDEP Solutions, Inc.
  • Home
    • 新着情報一覧
    • NVIDIA NEWS
    • GPU2021 開催概要 >
      • Day1 AI & GPU セッション
      • Day2 イメージングAI
      • Day3 GPUスパコン
      • 講演レポート | Denso
      • 過去開催 >
        • GPU2020
        • GPU2019
  • GPU製品
    • 即納モデル
    • NVIDIA GPU 一覧 >
      • NVIDIA H100
      • NVIDIA A100
      • NVIDIA RTX スペック比較 >
        • NVIDIA RTX A6000
        • NVIDIA RTX A5000
        • NVIDIA RTX A4500
        • NVIDIA RTX A4000
        • NVIDIA RTX A2000
      • Quadro GV100
    • GPUレンタル一覧
    • GPU年定額プラン
    • AI・データサイエンスおすすめ一覧 >
      • NVIDIA DGX H100
      • NVIDIA DGX A100
      • DGX STATION A100
      • HP Z8 G4 Workstation
      • HP ZBook Fury17G7 Mobile Workstation
      • Dell Precision 7920 Tower
      • DeepLearning BOXⅡ
      • DeepLearning STATION
      • NVIDIA EGX サーバー
      • HITACHI SR24000
    • 数値計算・解析おすすめ一覧 >
      • HP Z4 G4 Workstation
      • HP Z8 G4 解析ソフトウェア動作確認済みモデル
      • Supermicro 7049GP
    • NVIDIA A100搭載 Supermicro 740GP
  • ストレージ
    • Synology
    • DDN STORAGE
    • PURESTORAGE
  • HPC
    • HPC Workstation
    • HPCおすすめGPUサーバー
    • HPC SIサービス
    • AXXE-L by XTREME-D
    • NVIDIA HPC SDK
    • プログラム高速化サービス
  • クラウド製品
    • セキュリティ >
      • KernelCare
    • 仮想化 >
      • Login VSI
      • Login PI
    • リモートアクセス >
      • FastX
      • NiceDCV
      • NoMachine
    • ハイブリッドクラウドNAS >
      • Morro Data
    • クラウドストレージ >
      • クラウドストレージ Wasabi
  • GPUコラム / 導入事例
    • GPUプログラミング >
      • 初級編
      • 中級編 >
        • 第4回:MPI+OpenACC実装における計算と通信のオーバーラップ
        • 第3回:拡散現象シミュレーションのおさらい
        • 第2回:簡単なOpenACC + MPI コードで考える
        • 第1回:複数のGPUを使う方法とは?
    • GPU Technology for CG/AI >
      • 深層学習を利用した画像処理・必要なGPU性能
      • トランスフォーマー 最近流行のニューラルネットワーク
      • GAN Inversion による写実的画像生成の制御
      • 深層学習におけるアノテーションコストを抑えるための取り組み Active Learning
      • 深層学習に基づく人物画像の再照明
      • GPUの起源と進化
      • AlphaGo とその後
      • CUDAを用いたシンプルなパストレーシング
      • 流体シミュレーションの応用
      • GPUを用いた高速レンダリング
      • GPUを基盤としたCG/AIの技術進化
    • シリコンバレー発信 New Technology Report >
      • 最新記事から
    • ツブ子が聞く・見る・行く! >
      • 見る!NVIDIA RTX A6000
      • 聞く!NVIDIA DGX A100
      • 見る!NVIDIA A100 Tensor Core GPU
    • 導入事例 >
      • DGX SYSTEMS >
        • NVIDIA DGX A100 | 金沢大学
      • GPU Computing
  • 会社情報
    • ごあいさつ
    • 会社概要
    • アクセスマップ
    • 採用情報
  • お問い合わせ
シリコンバレー発信

New Technology
​Report

[No.24] AIボイスが人間レベルに到達、感情豊かなスピーチを生成し声優に代わりビデオのナレーションを担う

9/17/2021

 
AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。
AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。
​
AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。
画像
出典: WellSaid Labs

WellSaid Labs

この技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。

​同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。

AIボイスが声優を置き換える

生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。
また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。

製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。

個性的なAIボイス

Voice Avatarsが声優と同品質のボイスを生成できるようになった。
Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。

​人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。

実際使ってみると

実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。
ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。

操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。
アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。
​ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。
画像
出典: VentureClef

アバターの種類と特徴

Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。

「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。
また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。
「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。

​複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。)
画像
出典: VentureClef

音声合成技術

WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。

声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。
具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。

​また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。

技術の限界と課題

Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。

また、企業が社内教育の教材を生成する際にもこの技術が使われている。
一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。
​
この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。

声優とAIの関係

WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。

AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。

​ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。)
画像
出典: Voices

合成音声技術の進化

いま、スタートアップから高品質なAIボイスが続々と生まれている。
AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。

AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。
更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。

​合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。
≪ 前の記事を見る
次の記事を見る ≫

コメントはクローズされています。

    著者

    Kaz Miyamoto
    ​
    VentureClef, LLC

    記事一覧(目次)で見る

    カテゴリ

    すべて
    AI(人工知能)技術
    AIセキュリティ
    AI規制
    GAFAM
    NFT
    ヘルスケア
    メタバース
    ロボット
    自動運転車

    アーカイブ

    3 月 2022
    2 月 2022
    1 月 2022
    12 月 2021
    11 月 2021
    10 月 2021
    9 月 2021
    8 月 2021
    7 月 2021
    6 月 2021
    5 月 2021
    4 月 2021

    RSS フィード

Picture
GDEPソリューションズ株式会社
東京都文京区本郷三丁目34番3号 本郷第一ビル8階
TEL:03-5802-7050
・NVIDIA認定 Elite Partner [最上位レベル]
・NVIDIA Advanced Technology Program 達成  [DGX 販売資格]
・東京都公安委員会 古物営業許可番号
 第305471905562号
≫ 新着情報
≫ GPU2021開催概要
​
GPU製品
​≫ 即納モデル
≫ NVIDIA GPU一覧
 ≫NVDIA RTX スペック比較

≫ GPUレンタル一覧
≫ GPU年定額プラン
≫ AI・データサイエンスおすすめ
≫ 数値計算・解析おすすめ一覧
≫ NVIDIA A100搭載 SM740GP


​ストレージ
​≫ Synology
≫ DDN STORAGE
≫ PURESTORAGE
​
HPC
≫ HPC Workstation
≫ HPCおすすめGPUサーバー
≫ AXXE-L by XTREME-D
≫ NVIDIA HPC SDK
≫ プログラム高速化サービス
クラウド製品
​≫ セキュリティ
≫ 仮想化
≫ リモートアクセス

≫ ハイブリッドクラウドNAS
≫ クラウドストレージ
​
​GPUコラム
≫ GPUプログラミング入門
≫ GPU Technology for CG/AI
≫ シリコンバレー発信 New Technology Repot
≫ ツブ子が聞く・見る・行く
​

導入事例
≫ DGX SYSTEMS
≫ GPU Computing
会社情報
≫ ごあいさつ
≫ 会社概要
≫ アクセスマップ
≫ 採用情報
​
≫ お問い合わせ
​
≫ 個人情報の取扱いについて
≫ 利用規約

​
≫ メルマガを購読する
グループ会社
Prometech Softwareサイト
©2021 GDEP Solutions,Inc.
  • Home
    • 新着情報一覧
    • NVIDIA NEWS
    • GPU2021 開催概要 >
      • Day1 AI & GPU セッション
      • Day2 イメージングAI
      • Day3 GPUスパコン
      • 講演レポート | Denso
      • 過去開催 >
        • GPU2020
        • GPU2019
  • GPU製品
    • 即納モデル
    • NVIDIA GPU 一覧 >
      • NVIDIA H100
      • NVIDIA A100
      • NVIDIA RTX スペック比較 >
        • NVIDIA RTX A6000
        • NVIDIA RTX A5000
        • NVIDIA RTX A4500
        • NVIDIA RTX A4000
        • NVIDIA RTX A2000
      • Quadro GV100
    • GPUレンタル一覧
    • GPU年定額プラン
    • AI・データサイエンスおすすめ一覧 >
      • NVIDIA DGX H100
      • NVIDIA DGX A100
      • DGX STATION A100
      • HP Z8 G4 Workstation
      • HP ZBook Fury17G7 Mobile Workstation
      • Dell Precision 7920 Tower
      • DeepLearning BOXⅡ
      • DeepLearning STATION
      • NVIDIA EGX サーバー
      • HITACHI SR24000
    • 数値計算・解析おすすめ一覧 >
      • HP Z4 G4 Workstation
      • HP Z8 G4 解析ソフトウェア動作確認済みモデル
      • Supermicro 7049GP
    • NVIDIA A100搭載 Supermicro 740GP
  • ストレージ
    • Synology
    • DDN STORAGE
    • PURESTORAGE
  • HPC
    • HPC Workstation
    • HPCおすすめGPUサーバー
    • HPC SIサービス
    • AXXE-L by XTREME-D
    • NVIDIA HPC SDK
    • プログラム高速化サービス
  • クラウド製品
    • セキュリティ >
      • KernelCare
    • 仮想化 >
      • Login VSI
      • Login PI
    • リモートアクセス >
      • FastX
      • NiceDCV
      • NoMachine
    • ハイブリッドクラウドNAS >
      • Morro Data
    • クラウドストレージ >
      • クラウドストレージ Wasabi
  • GPUコラム / 導入事例
    • GPUプログラミング >
      • 初級編
      • 中級編 >
        • 第4回:MPI+OpenACC実装における計算と通信のオーバーラップ
        • 第3回:拡散現象シミュレーションのおさらい
        • 第2回:簡単なOpenACC + MPI コードで考える
        • 第1回:複数のGPUを使う方法とは?
    • GPU Technology for CG/AI >
      • 深層学習を利用した画像処理・必要なGPU性能
      • トランスフォーマー 最近流行のニューラルネットワーク
      • GAN Inversion による写実的画像生成の制御
      • 深層学習におけるアノテーションコストを抑えるための取り組み Active Learning
      • 深層学習に基づく人物画像の再照明
      • GPUの起源と進化
      • AlphaGo とその後
      • CUDAを用いたシンプルなパストレーシング
      • 流体シミュレーションの応用
      • GPUを用いた高速レンダリング
      • GPUを基盤としたCG/AIの技術進化
    • シリコンバレー発信 New Technology Report >
      • 最新記事から
    • ツブ子が聞く・見る・行く! >
      • 見る!NVIDIA RTX A6000
      • 聞く!NVIDIA DGX A100
      • 見る!NVIDIA A100 Tensor Core GPU
    • 導入事例 >
      • DGX SYSTEMS >
        • NVIDIA DGX A100 | 金沢大学
      • GPU Computing
  • 会社情報
    • ごあいさつ
    • 会社概要
    • アクセスマップ
    • 採用情報
  • お問い合わせ