GDEP Solutions, Inc.
  • Home
    • 新着情報一覧
    • NVIDIA NEWS
    • GPU2021 開催概要 >
      • Day1 AI & GPU セッション
      • Day2 イメージングAI
      • Day3 GPUスパコン
      • 講演レポート | Denso
      • 過去開催 >
        • GPU2020
        • GPU2019
  • GPU製品
    • 即納モデル
    • NVIDIA GPU 一覧 >
      • NVIDIA H100
      • NVIDIA A100
      • NVIDIA RTX スペック比較 >
        • NVIDIA RTX A6000
        • NVIDIA RTX A5000
        • NVIDIA RTX A4500
        • NVIDIA RTX A4000
        • NVIDIA RTX A2000
      • Quadro GV100
    • GPUレンタル一覧
    • GPU年定額プラン
    • AI・データサイエンスおすすめ一覧 >
      • NVIDIA DGX H100
      • NVIDIA DGX A100
      • DGX STATION A100
      • HP Z8 G4 Workstation
      • HP ZBook Fury17G7 Mobile Workstation
      • Dell Precision 7920 Tower
      • DeepLearning BOXⅡ
      • DeepLearning STATION
      • NVIDIA EGX サーバー
      • HITACHI SR24000
    • 数値計算・解析おすすめ一覧 >
      • HP Z4 G4 Workstation
      • HP Z8 G4 解析ソフトウェア動作確認済みモデル
      • Supermicro 7049GP
    • NVIDIA A100搭載 Supermicro 740GP
  • ストレージ
    • Synology
    • DDN STORAGE
    • PURESTORAGE
  • HPC
    • HPC Workstation
    • HPCおすすめGPUサーバー
    • HPC SIサービス
    • AXXE-L by XTREME-D
    • NVIDIA HPC SDK
    • プログラム高速化サービス
  • クラウド製品
    • セキュリティ >
      • KernelCare
    • 仮想化 >
      • Login VSI
      • Login PI
    • リモートアクセス >
      • FastX
      • NiceDCV
      • NoMachine
    • ハイブリッドクラウドNAS >
      • Morro Data
    • クラウドストレージ >
      • クラウドストレージ Wasabi
  • GPUコラム / 導入事例
    • GPUプログラミング >
      • 初級編
      • 中級編 >
        • 第4回:MPI+OpenACC実装における計算と通信のオーバーラップ
        • 第3回:拡散現象シミュレーションのおさらい
        • 第2回:簡単なOpenACC + MPI コードで考える
        • 第1回:複数のGPUを使う方法とは?
    • GPU Technology for CG/AI >
      • 深層学習を利用した画像処理・必要なGPU性能
      • トランスフォーマー 最近流行のニューラルネットワーク
      • GAN Inversion による写実的画像生成の制御
      • 深層学習におけるアノテーションコストを抑えるための取り組み Active Learning
      • 深層学習に基づく人物画像の再照明
      • GPUの起源と進化
      • AlphaGo とその後
      • CUDAを用いたシンプルなパストレーシング
      • 流体シミュレーションの応用
      • GPUを用いた高速レンダリング
      • GPUを基盤としたCG/AIの技術進化
    • シリコンバレー発信 New Technology Report >
      • 最新記事から
    • ツブ子が聞く・見る・行く! >
      • 見る!NVIDIA RTX A6000
      • 聞く!NVIDIA DGX A100
      • 見る!NVIDIA A100 Tensor Core GPU
    • 導入事例 >
      • DGX SYSTEMS >
        • NVIDIA DGX A100 | 金沢大学
      • GPU Computing
  • 会社情報
    • ごあいさつ
    • 会社概要
    • アクセスマップ
    • 採用情報
  • お問い合わせ
シリコンバレー発信

New Technology
​Report

[No.7] Voice Cloning 誰でもプロのアナウンサーになれる、AIが発言者の音声を編集し言い間違いを修正する

5/14/2021

 
アマチュアがNHKのアナウンサーのように流ちょうに喋るビデオを生成できる。
​ビデオの制作で時間がかかるのがナレーションの録音と編集である。
準備したテキストに従って喋るが、アマチュアの場合、言い間違いやテキストの修正で撮影を繰り返し、ファイナルカットができるまで時間を要す。

ここで最新のAI技法「Voice Cloning」を使うと、発言者のボイスを編集して言い間違いを修正できる。一回の撮影でプロ並みのビデオが完成する。
画像
出典: Descript

Voice Cloningとは

Voice Cloningとは、発言者の声のクローンを生成する技術で、本物と見分けのつかない偽の声が生成される。Voice Cloningは使い方を誤ると危険な技術であり、他人になりすまし、相手を欺き、金銭を奪う犯罪行為につながる。
AI時代の「
振り込め詐欺」で、米国で大きな社会問題となっている。

​一方、Voice Cloningは社会に貢献する技術でもあり、録音や録画の音声処理が格段に容易になり、新世代のビデオ編集技術として注目されている。

Desciptというスタートアップ

スタートアップが Voice Cloningを応用した編集技術を開発している。
サンフランシスコに拠点を置く新興企業Descriptは録音した音声をVoice Cloningで編集する技術を開発した。

この技術はポッドキャストやビデオの音声編集で使われる。録音した音声をDescriptに入力すると、AIがそれをテキストに変換する(Transcription)。
変換されたテキストをレビューし、言い間違いがあるとその部分を修正すると、同時に音声ファイルも変更される。

​​つまり、音声テキストを編集するだけで、修正されたナレーションを生成できる。

編集のプロセス

Descriptはこの一連の機能をクラウドとして提供している(下の写真)。

スマホカメラで撮影すると、映像と音声がDescriptに入力される。音声の部分はテキストに変換され、ウインドウに表示される(下の写真、中央部)。
​ここに表示されたテキストを編集すると、変更された通りの音声が生成される。
音声は発言者の声で生成され、何回も録音することなく、テキストの編集だけでこれを実現できる。

また、ビデオやイメージを編集する機能が追加され、テキストの中にイメージアイコンを挿入することで、ナレーションに合わせてビデオが再生される(下の写真、上段)。
画像
出典: Descript

Speech Synthesis

音声を生成する技術は「Speech Synthesis」と呼ばれ、発言者の声でテキストを音声に変換する。

上述の事例のように、利用者の声でテキストを音声に変換する。この他に、Descriptは音声サンプルを提供しており、テキストを好みの音声に変換することができる。
​
テキストを入力すると、Speech Synthesisは指定された音声(アメリカ英語を話す女性の声など)でナレーションを生成する(下の写真)。

他社の技術と比較すると

多くの企業がSpeech Synthesisを開発しているが、その中で「Amazon Polly」や「Google Text-to-Speech」が有名である。

Descriptの特徴は人間が喋るように自然なナレーションを生成することに特徴がある。
「Polly」が生成する音声はロボットが喋るようにぎこちなく、機械的に生成されたことが分かる。

​一方、「Text-to-Speech」はDescriptのよに人間の発言と区別がつかない。
画像
出典: Descript

LyerbirdのAI技術

Descriptの音声技術は、Lyrebirdが開発したAIをベースとしている。
Lyrebirdとはカナダ・モントリオールに拠点を置く新興企業で、テキストをリアルタイムで音声に変換する技術を開発した。

​特に、人の声を生成するVoice Cloningに特徴があり、AIは本人と見分けのつかないスピーチを生成する。Descriptは2019年9月、Lyrebirdを買収し、この技術をベースに前述の製品を開発した。

オバマ大統領の声を生成

Lyrebirdは当時のオバマ大統領のスピーチをAIで生成して注目を集めた。
​
オバマ大統領は、「Hi everybody.  This time I like to share with you a cool company…」と語り始めたが(右の写真)、これはオバマ大統領が喋っているのではなくLyrebirdが音声を生成したもので、本人の声と見分けがつかない。
画像
出典: Descript

様々な応用分野

Lyrebirdはこの技術を使って様々なソリューションを開発した。
映画製作で俳優の声を記録しておくと、年をとっても、また、亡くなっても声優として活躍できる。
AIスピーカーやオーディオブックで好みの声を選択できるようになる。

​また、映画俳優だけでなく個人が声を録音しておくと、亡くなった後もチャットボットとして家族と対話できる。(下の写真、Amazon Alexaのスキル「HereAfter」を使うと亡くなった両親や友人と会話できる。)
画像
出典: HereAfter

AI振り込め詐欺

また、声のクローンを簡単に制作できるようになり、新手の犯罪が社会問題となっている。
会社役員の声のクローンを生成し、AI版の振り込め詐欺が始まった。

会社役員になりすました犯罪者は企業の経理部に電話をかけ、役員の声で指定した口座に振り込みを指示する。電話の声は本人と区別がつかず、被害にあう企業が増えている。

​このため、不正行為を監視する連邦取引委員会(FTC)は企業や消費者に対し注意を呼び掛けている。

声のクローンを生成する

声の録音データがあれば簡単にそのクローンを生成できる。
企業幹部は会社紹介などでYouTubeにビデオを公開しているケースが多く、ハッカーはこれらビデオに記録されている音声データを使いクローンを生成する。

10分程度のデータで音声のクローンが生成でき、1時間分あれば本人と見分けのつかない高精度なクローンが生成できる。

使い方には注意を要す

AI技法の進化と共に市場にはテキストを音声に変換する製品が数多く登場している。
Photoshopでイメージを編集するように、Voice Cloningで本人と見分けのつかない音声クローンを生成する。

Voice Cloningは便利な技術であるとともに、犯罪と表裏一体の関係にあり、使い方には注意を要す。
​
​もはや、電話の声だけで相手を信用することは危険で、本人確認の手順を決めておく必要がある。
≪ 前の記事を見る
次の記事を見る ≫

コメントはクローズされています。

    著者

    Kaz Miyamoto
    ​
    VentureClef, LLC

    記事一覧(目次)で見る

    カテゴリ

    すべて
    AI(人工知能)技術
    AIセキュリティ
    AI規制
    GAFAM
    NFT
    ヘルスケア
    メタバース
    ロボット
    自動運転車

    アーカイブ

    3 月 2022
    2 月 2022
    1 月 2022
    12 月 2021
    11 月 2021
    10 月 2021
    9 月 2021
    8 月 2021
    7 月 2021
    6 月 2021
    5 月 2021
    4 月 2021

    RSS フィード

Picture
GDEPソリューションズ株式会社
東京都文京区本郷三丁目34番3号 本郷第一ビル8階
TEL:03-5802-7050
・NVIDIA認定 Elite Partner [最上位レベル]
・NVIDIA Advanced Technology Program 達成  [DGX 販売資格]
・東京都公安委員会 古物営業許可番号
 第305471905562号
≫ 新着情報
≫ GPU2021開催概要
​
GPU製品
​≫ 即納モデル
≫ NVIDIA GPU一覧
 ≫NVDIA RTX スペック比較

≫ GPUレンタル一覧
≫ GPU年定額プラン
≫ AI・データサイエンスおすすめ
≫ 数値計算・解析おすすめ一覧
≫ NVIDIA A100搭載 SM740GP


​ストレージ
​≫ Synology
≫ DDN STORAGE
≫ PURESTORAGE
​
HPC
≫ HPC Workstation
≫ HPCおすすめGPUサーバー
≫ AXXE-L by XTREME-D
≫ NVIDIA HPC SDK
≫ プログラム高速化サービス
クラウド製品
​≫ セキュリティ
≫ 仮想化
≫ リモートアクセス

≫ ハイブリッドクラウドNAS
≫ クラウドストレージ
​
​GPUコラム
≫ GPUプログラミング入門
≫ GPU Technology for CG/AI
≫ シリコンバレー発信 New Technology Repot
≫ ツブ子が聞く・見る・行く
​

導入事例
≫ DGX SYSTEMS
≫ GPU Computing
会社情報
≫ ごあいさつ
≫ 会社概要
≫ アクセスマップ
≫ 採用情報
​
≫ お問い合わせ
​
≫ 個人情報の取扱いについて
≫ 利用規約

​
≫ メルマガを購読する
グループ会社
Prometech Softwareサイト
©2021 GDEP Solutions,Inc.
  • Home
    • 新着情報一覧
    • NVIDIA NEWS
    • GPU2021 開催概要 >
      • Day1 AI & GPU セッション
      • Day2 イメージングAI
      • Day3 GPUスパコン
      • 講演レポート | Denso
      • 過去開催 >
        • GPU2020
        • GPU2019
  • GPU製品
    • 即納モデル
    • NVIDIA GPU 一覧 >
      • NVIDIA H100
      • NVIDIA A100
      • NVIDIA RTX スペック比較 >
        • NVIDIA RTX A6000
        • NVIDIA RTX A5000
        • NVIDIA RTX A4500
        • NVIDIA RTX A4000
        • NVIDIA RTX A2000
      • Quadro GV100
    • GPUレンタル一覧
    • GPU年定額プラン
    • AI・データサイエンスおすすめ一覧 >
      • NVIDIA DGX H100
      • NVIDIA DGX A100
      • DGX STATION A100
      • HP Z8 G4 Workstation
      • HP ZBook Fury17G7 Mobile Workstation
      • Dell Precision 7920 Tower
      • DeepLearning BOXⅡ
      • DeepLearning STATION
      • NVIDIA EGX サーバー
      • HITACHI SR24000
    • 数値計算・解析おすすめ一覧 >
      • HP Z4 G4 Workstation
      • HP Z8 G4 解析ソフトウェア動作確認済みモデル
      • Supermicro 7049GP
    • NVIDIA A100搭載 Supermicro 740GP
  • ストレージ
    • Synology
    • DDN STORAGE
    • PURESTORAGE
  • HPC
    • HPC Workstation
    • HPCおすすめGPUサーバー
    • HPC SIサービス
    • AXXE-L by XTREME-D
    • NVIDIA HPC SDK
    • プログラム高速化サービス
  • クラウド製品
    • セキュリティ >
      • KernelCare
    • 仮想化 >
      • Login VSI
      • Login PI
    • リモートアクセス >
      • FastX
      • NiceDCV
      • NoMachine
    • ハイブリッドクラウドNAS >
      • Morro Data
    • クラウドストレージ >
      • クラウドストレージ Wasabi
  • GPUコラム / 導入事例
    • GPUプログラミング >
      • 初級編
      • 中級編 >
        • 第4回:MPI+OpenACC実装における計算と通信のオーバーラップ
        • 第3回:拡散現象シミュレーションのおさらい
        • 第2回:簡単なOpenACC + MPI コードで考える
        • 第1回:複数のGPUを使う方法とは?
    • GPU Technology for CG/AI >
      • 深層学習を利用した画像処理・必要なGPU性能
      • トランスフォーマー 最近流行のニューラルネットワーク
      • GAN Inversion による写実的画像生成の制御
      • 深層学習におけるアノテーションコストを抑えるための取り組み Active Learning
      • 深層学習に基づく人物画像の再照明
      • GPUの起源と進化
      • AlphaGo とその後
      • CUDAを用いたシンプルなパストレーシング
      • 流体シミュレーションの応用
      • GPUを用いた高速レンダリング
      • GPUを基盤としたCG/AIの技術進化
    • シリコンバレー発信 New Technology Report >
      • 最新記事から
    • ツブ子が聞く・見る・行く! >
      • 見る!NVIDIA RTX A6000
      • 聞く!NVIDIA DGX A100
      • 見る!NVIDIA A100 Tensor Core GPU
    • 導入事例 >
      • DGX SYSTEMS >
        • NVIDIA DGX A100 | 金沢大学
      • GPU Computing
  • 会社情報
    • ごあいさつ
    • 会社概要
    • アクセスマップ
    • 採用情報
  • お問い合わせ