NVIDIAは、今週、開発者会議「GTC 2022」をオンラインで開催した。 基調講演でCEOのJensen HuangがNVIDIAのAI研究の最新成果を発表した。NVIDIAは科学技術向けメタバースである地球のデジタルツインを生成し、この3Dモデルで気候変動の研究を進めている(下の写真)。 NVIDIAは米国国立研究所と共同で、地球のデジタルツインで台風や集中豪雨の発生を予測するモデルを開発した。 数学モデルではなく、AIで気象の変化を予測することで、処理時間を劇的に短くすることに成功した。 現行の天気予報の仕組み天気予報は、海洋や陸地の状態を数値予報モデル(Numerical Weather Prediction)で表し、これをスパコンでシミュレーションする手法となる。 具体的には、数値予報モデルに、現在の気象データを入力し、将来の値を計算することで状態の変化を予測する。 様々な数値予測モデルが使われているが、ヨーロッパ中期予報センター(ECMWF)が開発した「Integrated Forecast System」がその代表となる。これは「欧州モデル(European Model)」とも呼ばれる。 米国のモデル一方、米国においては、アメリカ国立気象局(National Weather Service)が開発した「Global Forecast System」が使われる。 これは「米国モデル(American Model)」と呼ばれ、米国内の天気予報で使われている。一般に、欧州モデルのほうが高性能で正確な予測ができるとされる。 一方、米国モデルは長期レンジ(最長16日先まで)の予測ができる点に特長がある。両モデルともシステム規模が巨大で、これを実行するには世界でトップクラスのスパコンが必要になる。 AIで天気を予測するこれらに対して、NVIDIAなどが開発した予測モデルはAIを使って気象の状態を予測する。 この予測モデルは「Fourier ForeCasting Neural Network(FourCastNet)」と呼ばれ、短期から中期レンジで、台風(Typhoon)や集中豪雨(Atmospheric River)など、異常気象を予測することができる(下のグラフィックス、中段)。 FourCastNetは、短時間に高精度で天気を予測することができる。欧州モデルに比べ45,000倍高速で予測することができる。 AIで予測する仕組み現行の数値予報モデルは、数学モデルをスパコンで計算し、その解を求める手法であるが、FourCastNetはニューラルネットワークで気象を予測する。 ニューラルネットワークが過去の気象データを学習し、将来のイベントを高精度で予測する。 FourCastNetの教育では、ヨーロッパ中期予報センターの気象データ「ERA5」が使われ、10TBのデータでニューラルネットワークが教育された。 気象予測の事例FourCastNetを使うと台風の発生を正確に予想できる。 実際に、FourCastNetは「Typhoon Mangkhut(平成30年台風第22号)」の発生を正確に予測した(上のグラフィックス)。この台風は、フィリピンや中国、香港などに甚大な被害をもたらした。 FourCastNetが予測する範囲はグローバルで、地球全体をカバーする(中央部)。日本の南の海上でMangkhutが発生した(左側最下段)が、FourCastNetはこれを正確に予測した(左側中段)。 ModulusとOmiverseFourCastNetは地球のデジタルツインに構築され(下の写真)、気象モデルをインタラクティブに操作できる。 デジタルツイン生成では「NVIDIA Omniverse」が使われ、スパコン「Earth-2」で実行された。 また、AIモデルは「NVIDIA Modulus」が使われ、AIで物理問題を解析するためのツールが揃っている。 具体的には、変微分方程式(partial differential equations)を解くためのニューラルネットワークが使われた。 地球温暖化の研究地球のデジタルツインを生成し、FourCastNetというAIモデルで気象予測を実行するのは、日々の天気予報を求めるためではなく、地球温暖化問題を解明する研究の一環となる。
現行モデルで気象予測を実行すると、スパコンを使っても長時間かかる。 これに対し、FourCastNetをEarth-2で実行すると、45,000倍速く予測結果を得ることができる。つまり、数多くのモデルを並列して実行でき(下の写真)、地球温暖化対策の研究を効率的に進めることができる。 ウクライナ(Ukraine)政府はロシアがフェイクビデオを使って情報操作する危険性を表明し、国民に冷静な対応を呼びかけていた。実際に、ゼレンスキー(Zelensky)大統領のフェイクビデオがメディアに掲載された(下の写真)。 偽の大統領は国民に、武器を捨ててロシアに投降するよう呼びかけた。MetaはこのビデオはDeepfakesであると判定し、プラットフォームから削除した。 戦時下においてはAIを使った情報戦が展開されるが、今回はそのプロトタイプが登場し、デジタル兵器の攻防が始まった。 ゼレンスキー大統領の偽ビデオ3月16日、ゼレンスキー大統領がビデオメッセージで、国民に武器を捨ててロシアに投降するよう呼びかけた。 これはウクライナに対する情報戦で、ビデオはアルゴリズムにより生成されたDeepfakesで、本人の演説ではない。Metaはこれをフェイクビデオであると特定し、プラットフォームから記事を削除した(下の写真)。 ロシアがウクライナに侵攻した後、Metaは特別チーム「Special Operations Center」を形成し、24時間体制で情報操作をモニターしており、このフェイクビデオを即座に検知することができた。 ロシアでビデオが拡散このフェイクビデオはMetaのプラットフォームからは削除されたが、他のソーシャルネットワークで拡散している。 メッセージングアプリ「Telegram」にこのフェイクビデオが掲載され、ここには、「ハッカーがウクライナのサイトにこのビデオを掲載した」とのコメントが添えられている (先頭の写真)。また、ロシアのソーシャルネットワーク「VK」にも同じビデオが掲載され、クレムリンを指示するグループで拡散している。 テレビ局のハッキングこれに先立ち、ウクライナのテレビ局「Ukraine 24」がハッキングされ、テレビ画面に偽のテロップが表示された。 フェイク・テロップはニュース画面の下部に表示され、ゼレンスキー大統領からのメッセージと偽り、「戦闘を止め武器を捨てる」よう国民に訴えた(下の写真、最下部)。 また、「大統領は交渉に失敗し、キエフを去った」とも伝えている。 ゼレンスキー大統領の対応フェイクビデオに対し、ゼレンスキー大統領はショートビデオを公開し、偽情報を打ち消した(下の写真、Instagramから配信)。 ショートビデオで、拡散したビデオは偽情報で、つたない手法の攻撃であると非難した。大統領はオフィシャルサイトから、定常的に国民にメッセージをショートビデオで配信しており、今回も、このアカウントから真実の情報を伝えた。 フェイクビデオの完成度実際に、フェイクビデオを見ると、完成度は低く、これは本物ではないと感じる。 頭部が体に比べて大きく、不自然さを感じる。また、喋っている時に、頭部は動くが、体は不動のままで、強い違和感を覚える。 Deepfakesを生成する高度なGANが開発されているが、このビデオは技術的には未熟で、完成の域に達していないことが分かる。このフェイクビデオはプロトタイプと解釈することもでき、これから技術改良が進み、判別が困難になると予想される。 Metaの特別チームロシアはフェイクニュースなどを使って情報戦を展開しており、西側諸国が被害を受けている。
米国においては、2016年の大統領選挙で、ロシアは大規模な情報操作戦を展開し、これがトランプ大統領の当選に繋がったとされる。 Meta(当時はFacebook)は、ネットワークに掲載された偽情報を削除するなどの措置は取らず、米国社会から強い批判を受けた。これを教訓に、2020年の大統領選挙では、特別チームを形成し、偽情報をリアルタイムでモニターし、ロシアのデジタル攻撃を防いだ。ロシアのウクライナ侵攻では、再度、独別チームを形成し、デジタル戦を防衛している。 ロシア軍によるウクライナ(Ukraine)への軍事侵攻が新たな局面を迎えている。ロシア軍は首都キエフ(Kyiv)に迫っているが、ウクライナ軍の反撃が続き、侵攻は足踏み状態になっている。 ウクライナ軍は本土防衛のために、AIなどのハイテクを導入することを明らかにした。 高精度の顔認識システムを導入し、ロシア兵士のIDを特定し、デジタルな防衛網を構築する。(ウクライナ政府は民間施設が攻撃されていることを示し(下の写真)、防衛のための寄付を暗号通貨で募っている。) 顔認識システムウクライナ国防省は顔認識システムの利用を開始したことを明らかにした。これは米国新興企業Clearviewが開発したもので、通信社ロイターが報道した。 Clearviewは世界で最大規模の顔データベースを構築し、その判定精度は業界のトップである。Clearviewはこのシステムを無料でウクライナ軍に提供し、ロシア兵のIDを特定するために使われる。 ロシア兵のIDの特定顔認識システムはロシア兵士の身元を特定するために使われるが、具体的には、攻撃を行ったロシア兵士の氏名などを把握する。 また、死亡したロシア兵士の身元の特定のためにも使われる。戦士のIDを特定するためには指紋が使われるが、顔認識システムだと、その場で顔写真から身元を特定できる。 ロシア軍は工作員を市街地に送り込み、破壊作戦を展開している。このため、チェックポイントなどで顔写真から、ロシア兵士を特定するためにも使われる。 難民の身元の特定顔認識システムは難民の身元を特定するためにも使うことができる。多くの人が戦火を避け、ウクライナを離れ、ポーランドなど近隣諸国に避難している。 難民の多くは家族が離散し、再会が難しくなる。このため、顔認識システムで身元を特定し、家族の再会に役立てる。また、ソーシャルネットワークに掲載されている顔写真を解析することで、情報操作のための偽装工作を見破ることもできる。 ロシア人の顔写真データベースClearviewは世界の人物の顔写真100億枚を収集し、これを顔認識システムのデータベースとして使っている。 被験者の顔写真をこのデータベースで検索し、本人のIDを割り出す。ここには、ロシア人の顔写真20億枚が含まれており、ロシア人のIDを高精度で特定することができる。ロシアの人口は1.4億人で、単純計算で、一人当たり14枚の顔写真が格納されていることになる。 顔写真の収集方法Clearviewはソーシャルネットワークに公開されている顔写真をスクレ―ピングしてデータベースを構築した。 スクレ―ピングとは、顔写真やその属性などを、ウェブサイトからダウンロードする手法を指す。 Clearviewはロシアのソーシャルネットワーク「VK」(下の写真)から顔写真をスクレ―ピングした。VKはロシア・セントペテルスブルグ(Saint Petersburg)に拠点を置く企業で、会員数は5億人を超え、ロシアで一番人気のソーシャルネットワークである。 倫理的な使い方Clearviewのスクレ―ピングの手法は個人のプライバシー侵害にあたるとして問題視されている。 米国では、集団訴訟が起こり、Clearviewの手法が法廷で問われている。イギリス政府は、Clearviewは個人情報保護法に抵触するとして制裁金を科した。 カナダやオーストラリア政府は、Clearviewに対し、個人情報を削除することを求めている。多くの問題を抱えているが、戦時下においては国防に役立つとして、Clearviewの技術に期待が寄せられている。 ハイテクを導入顔認識システムとは別に、ウクライナのデジタル・トランスフォーメーション省は、米国のAI技術を導入することを計画している。既に、欧米企業はウクライナ政府にインターネット通信機器やサイバーセキュリティ・ツールを提供している。 SpaceXは衛星通信システム「Starlink」の受信装置(下の写真右側)を提供している。 ウクライナで地上の通信網が被害を受けているが、衛星通信でインターネットを再構築する。実際に、ウクライナ副首相は、Starlinkの受信装置 (左側)を受領したとツイートし、Elon Muskに謝意を示した。 サンフランシスコでの反戦集会世界各地でウクライナを支援する集会が開催されているが、サンフランシスコでは市庁舎の前で反戦集会が開かれた。
ベイエリアには多くのウクライナ人が暮らしており、数百人が反戦集会に参加し、プーチン大統領にウクライナから撤退するよう呼びかけた。 サンフランシスコ市はウクライナを支援する意思を表明するために、市庁舎を国旗の色にライティングしている(下の写真)。 顔認識AIを開発している新興企業Clearviewは、1000億枚の顔写真を収集する計画であることが明らかになった。写真は顔認識AIのデータベースに格納され、被験者を特定するためのインデックスとして使われる。世界の人口は約79億人で、一人につき12枚の写真が収集される勘定になる。このAIを使うと、世界の全ての人物の身元を特定することができる。 顔認識AIの開発 このAIを開発しているのはClearviewという新興企業で、世界最大規模の顔データベースの構築を計画している。投資家向けの資料がネットに流出したことで明らかになった。この資料によると、Clearviewは、現在、100億枚の顔写真を格納したデータベースを運営している。これを、1000億枚に拡充するために、資金の調達を進めている。 データベースの規模と判定精度 この規模のデータベースを使うと、AIは顔写真から、世界の殆どの人物の身元を正確に特定できる。具体的には、世界の人口の98%を、99.5%の精度で判定することができる。現在、Clearviewは100億枚の顔写真を格納したデータベースを運用しており、カバー範囲は75%となる。1000億枚の顔写真を使うと、世界の殆どの人を特定できる顔認識AIが生まれる。 利用目的 Clearviewは高精度な顔認識AIを開発し、米国政府を中心に、治安維持を目的に使われている。Clearviewの顔認識精度は、他の製品に比べひときわ高く、犯罪捜査で顔写真から容疑者の身元を特定するために使われる。昨年の米国連邦議会襲撃事件では、900超の顔写真をClearviewで解析し、350人の身元を特定することができた。このシステムは、FBI(連邦捜査局)や国土安全保障省などで使われている。 ベンチマーク結果 Clearviewは世界でトップレベルの性能を持っている。米国では、NIST(国立標準技術研究所)が顔認識AIのベンチマーク結果を公開しており、世界のベンダーの判定精度を知ることができる。これによると、中国Sensetimeがトップで、Clearviewは二位の判定精度となる。しかし、Clearviewは、Sensetimeより大きなデータベースを持ち、実効性能で上回るとしている。因みに、第三位はロシアVisionLabsで四位もロシアNTechLabとなる。 データベースの規模 世界でトップレベルの判定精度を持つClearviewであるが、その開発手法が社会問題となっている。AIが被疑者の写真から本人の身元を特定するためには、解析した写真と同一の人物を、データベースから見つけ出す。このため、データベースの規模が大きいほど、マッチングの確度が上がる。 データ収集の手法 Clearviewは世界のウェブから顔写真を収集する手法でデータベースを開発してきた。Facebookなどソーシャルネットワークに掲載されている顔写真を、本人の許可なくダウンロードし、これをデータベースに格納する。これは、スクレ―ピングという手法で、個人のプライバシーを侵害するとして、米国社会で問題視されている。実際に、全米各地で集団訴訟が起こり、Clearviewの手法は法廷で問われることになる。 ビジネスモデル Clearviewの顔認識AIは、治安当局による犯罪捜査で使われている。Clearviewは、データベースの規模を10倍に拡大するとともに、顔認識AIの新しいビジネスモデルを計画している。対象を政府官庁から企業に拡大し、顔認識AIで、セキュリティや顧客サービスなどのソリューションを開発する。特に、金融機関やギグ・エコノミー(Gig Economy)向けを重点分野とし、事業開発を進める。 金融機関向けソリューション Clearviewは顔認識AIを金融機関向けに提供することを計画している。これは、マネーロンダリングを検知するためのソリューションで、顔認識AIで利用者が犯罪者リストに登録されているかどうかを検知する。これは「One-to-Many Analysis」と呼ばれる手法で、利用者の顔写真でデータベースを検索し、身元を特定する。偽名を使った犯罪行為を検知できる。 ギグ・エコノミー向けソリューション Clearviewはギグ・エコノミー向け顔認識AIに対する需要が大きくなると予想している。ギグ・エコノミーとは、ネットを通じた雇用制度で、契約社員として単発で働く方式を指す。Uberなどのライドシェアがギグ・エコノミーの代表となる。企業側はギグ・ワーカーを採用する際に、顔写真を顔認識AIで解析し、過去の履歴を確認する。この他に、Walmartなど小売店舗は、万引き防止のために、顔認識AIで容疑者の身元を特定するなどの活用法が検討されている。 治安維持かプライバシー保護か 米国ではサンフランシスコなど主要都市が顔認識技術の使用を禁止したが、連邦政府レベルではこれを規制する法令は無い。顔認識技術の利用について、統一したガイドラインは無く、運用の可否は各政府機関に任されている。顔認識技術を提供するAmazon、IBM、Microsoft、Googleは、無用の混乱に巻き込まれるのを恐れ、自主的にビジネスを停止している。Clearviewは、独自の解釈で、顔認識AIを提供する方針を貫いている。高精度な顔認識AIが犯罪捜査に寄与し、社会の治安が保たれていることは事実である。一方、Clearviewは、個人の顔写真を無断で使っており、これがプライバシー侵害に該当するのか、法廷で審理が進んでいる。
Apple Siriが急に色あせてきた。AIにより生成されるボイスの品質が進化し、今では人間の表現力を上回る。 AIで生成される音声は「Synthetic Voice」と呼ばれ、人間のように流暢な喋りができるだけでなく、多彩な感情を表現できる。アニメやゲームの中でアバターが喋る言葉はAIで合成され、人間のように感情がこもった会話が交わされる。 感情豊かなAIボイス 多くの企業がAIボイスを開発しているが、英国に拠点を置く新興企業Sonanticは、感情豊かな合成音声を開発している。生成された音声は人間のものと区別がつかないだけでなく、声優のように、感情に富んだ会話ができる。AIボイスと言えば、Apple SiriやAmazon Alexaが普及しているが、声はモノトーンで機械的な会話となる。新興企業から新世代のAIボイスが登場し、Google Assistantなどの魅力が色あせてきた。 デモビデオ Sonanticが開発するAIボイスは聞き手を会話に引き込む魅力を持っている。Sonanticはデモビデオを公開しAIボイスの進化をアピールしている(https://www.youtube.com/watch?v=gS1m_TIxEW0)。ビデオで、女性が視聴者に語り掛けるが、これらはAIにより生成されたもので、言葉の端々に微妙な感情表現が窺える。また、言葉ではない、笑いや息遣いが混じり、人間らしさがひときわ際立つ。 微妙な感情表現 微妙な感情表現は「Subtle Emotions」と呼ばれ、人間らしさを演出する技術となる。その一つが、男女関係における駆け引きで、相手の気を引こうとして媚びた感情を表現する。現実社会の会話でも、これは高度なテクニックになるが、AIボイスはこれをマスターし、なまめかしく魅力的な声で男性を誘惑する。また、目立たないようにする控えめな表現や、相手の好奇心をくすぐる表現もできるようになった。 言葉にならない表現 AIボイスを人間らしいと感じるのは、言葉以外の発声が混じるためである。これらは、「Non-Speech Sounds」といわれ、息遣いや、咳払いや、笑いなどを指す。また、「あー」とか「えー」など、無駄な発声もこの区分となる。人間は、スピーチするときには、これらの口癖を矯正するように教えられるが、AIボイスはあえてこれらを取り込み、人間臭さを演出する。(下の写真、発声の最後に咳ばらいを挿入する操作。) AIボイスの生成方法 AIボイスはダッシュボードでインタラクティブに生成する(下の写真)。アバターが発声するテキストを入力し、それに感情を付加するプロセスとなる。例えば、「The enemy fleet is attacking」というテキストを入力すると、音声が合成される。その際に、シーンに応じて、言葉に感情を与える。ここでは、「怒り」、「恐怖」、「幸せ」、「悲しみ」、「絶叫」などの要素を注入できる。また、声のピッチやタイミングなどを設定できる。 ゲームで使われている ゲーム開発会社Obsidianはアバターが喋る言葉をSonanticで合成している(下の写真)。今までは、声優がシーンに合わせて音声を吹き込んでいたが、今では、Sonanticの技術を使っている。AIボイスは声優のレベルに達し、人間がマニュアルで声を吹き込む必要がなくなった。また、AIボイスはゲーム開発の進行に応じて、シーンの変更があれば、何度も作り直すことができ、コンテンツ開発が効率化された。 ニューラルネットワーク Sonanticはニューラルネットワークを人間の声で教育し、AIボイスを生成する手法を取る。人間らしいAIボイスを生成するためには、教育データの品質がカギとなる。このため、声優に様々な感情を含む声を録音してもらい(下の写真)、それを教育データとして使った。しかし、「Non-Speech Sounds」については、この方法では高品質なAIボイスを生成できなかった。このため、SonanticはNon-Speech Sounds向けに独自のニューラルネットワーク開発し、AIボイスが息遣いをマスターした。 声優の役割 声優はゲームやアニメや映画で欠かせない存在であるが、いまその役割がAIボイスで置き換えられている。声優は、声の吹込みから、AI開発のための教育データの生成に、その役割が変わってきた。長年、エンタメ業界を支えてきた声優の職をどう守るかが問われている。 会話の表現方法 会話はその内容より話し方など表現方法が意思伝達で重要な役割を担う。会話の中で伝達された情報より、それがどのような形で伝わったかが、発言者の意図を把握する手段となる。このため、高度なコミュニケーションを構築するには、AIボイスが感情を表現できることが必須の技術となる。 倫理的な使い方 AIボイスは聞き手の感情を操作する能力を持ち、その使い方には注意を要す。メタバースでは、自身のデジタルツインを介してコミュニケーションするが、会話の相手は人間だけでなく、AIとの対話が始まる。AIが多彩な表現力を駆使して、消費者に高額な商品を販売し、危険な契約を結ばせる。AIボイスを使ったヘイトスピーチや虐めが始まると、今以上にダメージが深くなる。高度なAIボイスが悪用されると、その被害は甚大で、倫理的な使い方のガイドラインの制定が必須となる。
先週、NVIDIAは開発者会議「NVIDIA GTC 2021」で、地球温暖化対策に寄与する新技術を発表した。 これは、地球をメタバースで構築し、ここで気候モデルをシミュレーションし、温暖化対策に役立てるという構想である。 気候モデルは巨大で、新たにスパコンを開発して、これを実行する。しかし、高精度なモデルを実行するにはスパコンでも性能が十分でなく、AIで物理法則を解く技法を導入した。スパコンとAIを組み合わせ、数十年先の地球の気候を正確に予想する。 地球温暖化問題イギリス・グラスゴーで開催されたCOP26は、世界の平均気温の上昇を、産業革命前に比べ、1.5度に抑える努力をすることを再確認した。 同時に、世界の平均気温は1.1度上昇しており、その影響が各地で広がっていることに警鐘を鳴らした。 今年は、記録的な熱波や豪雨など、気象災害が世界各地で発生している。カリフォルニア州は記録的な干ばつで、大規模な森林火災が続き、気候変動がこれらの災害を加速している(下の写真)。 メタバースでシミュレーションGTC 2021で、CEOであるJensen Huangが、NVIDIAのプロセッサとAIを気候モデルに適用し、地球温暖化対策に寄与する手法を発表した。 これはOmniverseで地球のデジタルツインを生成し、このモデルで地球の気候変動を解析する手法となる。 具体的には、地球の気候モデル(Climate Model)を生成し、これをスパコンとAIでシミュレーションするアプローチを取る(下の写真、イメージ)。 NVIDIAはメタバースの開発環境をOmniverseとして提供している。 気候モデルを生成地球規模の気候モデルを生成することで、世界各地の気候を数十年先のレンジで予測する。 将来の気候を正確に予想することで、危険性を正確に可視化でき、温暖化対策やインフラ整備のための基礎データとなる。 天気予報は短期間の大気の物理現象を予測するが、気候モデルは数十年単位の気候シミュレーションで、物理学、化学、生物学などが関与し、巨大なモデルとなる。 豪雨や干ばつを予測気候モデルを高精度で解析するには、地球規模の水の循環をシミュレーションする必要がある。 これは「Stratocumulus Resolving」と呼ばれ、海水や地表面の水が、大気や雲を通して移動するモデルとなる(下の写真)。この循環が変わると、豪雨や干ばつによる被害が甚大となり、社会生活に大きな影響を及ぼす。 専用スパコンと最新のAI技法しかし、このモデルをシミュレーションするためには、地表面をメートル単位の精度で計算する必要がある。 現行の気候モデルのメッシュはキロメートルで、これをメートルにすると、演算量は1000億倍となり、世界最速のスパコンを使っても処理できない。このため、NVIDIAは気候モデル専用のスパコン「Earth-2」を開発するとともに、物理モデルをAIで解く技術の研究を始めた。下の写真は気候モデルの計算量の増加を示している。 水循環モデル(Stratocumulus Resolving)をスパコンだけで計算するには、2060年まで待つ必要がある。 物理法則をAIで解くこのため、AIで物理法則を解く技法の研究が進んでいる。 気候モデルのシミュレーションとは、物理法則に沿った挙動を可視化することを意味する。 自然界の動きは物理法則に従い、古典力学、流体力学、電磁気学、量子力学などがその代表となる。気候モデルでは流体力学が重要な役割を果たし、流体の動きはナビエ–ストークス方程式(Navier-Stokes Equations)などで記述される。 ニューラルネットワークでこの方程式を解く技法の開発が進んでいる。(下の写真、AIでハリケーンなどの異常気象を予想したケース。) 物理法則をAIで解くフレームワークNVIDIAは物理法則をニューラルネットワークで解くためのフレームワーク「Modulus」を提供している(下の写真)。 Modulusを気候モデルに適用することで、AIでナビエ–ストークス方程式の解法を求めることができる。従来方式に比べ処理時間が大幅に短縮され、AIの新しい技法として注目されている。 このプロセスを専用のスパコン「Earth-2」で実行することで、高精度な気候モデルのシミュレーションが実現する。 気候変動に備える気候モデルのシミュレーションで、数十年先の気候を正確に予測する。
世界の主要都市は、数十年先に起こる気候条件に応じて、インフラ整備を進める。 また、温暖化防止対策を策定する際に、どの方式が一番有効であるかを検証できる。 地球のデジタルツインは、計測されるデータでアップデートされ、異常気象を高精度で予測し、地球温暖化対策の重要なツールとなる。 今週、NVIDIAは開発者会議「NVIDIA GTC 2021」で、メタバースの最新技術を公表した。 NVIDIAはメタバースの開発環境を「Omniverse」という名称で製品化しており、企業はこのプラットフォームで3D仮想空間を生成し、ソリューションを構築する。 基調講演で、人間のデジタルツインであるアバターの新技術が公開された。 高度な言語モデルを組み込んだAIアバターが人間と会話するデモが実演された。(下の写真、CEOであるJensen Huangのフィギュア「Toy Jensen」が身振りを交えて人間と対話する。) OmniverseとはNVIDIAは、3D仮想空間を開発するプラットフォームを「Omniverse」として提供している。 企業は、Omniverseで3D仮想空間を生成し、ここで様々なシミュレーションを実行し、製造プロセスを最適化する。 Omniverseは、既に多くの企業で導入されている。 自動車メーカーBMWは、Omniverseで製造工場のデジタルツインを生成し、生産工程を最適化している。(下の写真、BMWは製造施設の高精度なコピーを3D仮想空間に生成し、ここで生産工程をシミュレーションし、効率などを検証した。) 人間のデジタルツイン開発者会議では、Omniverseで人間のデジタルツインを生成する技法と応用事例が紹介された。 この技法は「Omniverse Avatar」と呼ばれ、高度なAIを統合したデジタルヒューマンとなる。 AIアバターは視覚を備えており、相手を見ながら人間と会話する。また、相手の話し言葉を理解し、AIアシスタントとして人間に助言する。 AIアバターは3Dフィギュアとして生成され、レイトレーシング(Ray Tracing)を使って作画され、本物の人形が動いているように見える。 顧客サービスアバター:Project TokkioAIアバターが人間に代わり顧客に応対する。 このプロジェクトは「Project Tokkio」と呼ばれ、AIアバターは顧客をビジュアルに認識し、対話を通して顧客をサポートする。その一つが上述の「Toy Jensen」で、3Dフィギュア形状のAIアバターが、身振りや手ぶりを交えて、顧客と対話する。 また、AIアバターが、レストランのキオスクで店員に代わり、顧客の注文を取る。 AIアバターが顧客と会話しながら、料理の内容を説明し、好みを聞き、最適なメニューを推奨する(下の写真)。 AIアバターは高度な会話能力を備えているが、この背後では世界最大規模の言語モデル「Megatron 530B」が稼働している。 自動運転車のアシスタント:Drive Conciergeクルマが自動運転車となると、AIアバター「Drive Concierge」が運転のアシスタントとなる。 AIアバターは、クルマのディスプレイに表示され、ドライバーとのインターフェイスとなる(下の写真)。 AIアバターがドライバーとの対話を通して、目的地と到着時間を理解し、時間通りに到着するために、最適な運転モードを選択する。 ビデオ会議のアシスタント:Project MaxineNVIDIAは、コラボレーション空間を生成するための開発環境「Project Maxine」を提供している。 企業はこのプラットフォームを使って、遠隔勤務のためのビデオ会議空間(仮想オフィスなど)を構築する。開発者会議では、これを拡張した機能が紹介された。 AIアバターをビデオ会議に組み込むもので、発言者の言葉をリアルタイムに翻訳する。(下の写真、英語で発言した内容がフランス語に翻訳される。フランス語で発声するだけでなく、口の動きもフランス語となる。) また、発言内容はテキストに変換して表示される。 AIアバターを支える技術AIアバターであるOmniverse Avatarは、多種類のAI技法を組み合わせて生成される。 主なAI技法は次の通り:
メタバースの標準プラットフォームNVIDIAは、メタバース開発のためのプラットフォーム「Omniverse」を提供しており、企業はこの環境で3D仮想空間を生成する。
メタバース開発のために、多くのエンジニアやクリエーターが異なるツールを使ってアプリケーションを開発する。 Omniverseは、異なるツールを連携し、共同開発のプラットフォームとなる(下のグラフィックス)。 いま、世界各国でメタバースの開発が進んでいるが、これらは独自手法で構築され、固有のメタバースが数多く生成されている。 NVIDIAは、Omniverseをオープンなメタバース開発環境と位置付け、業界標準となるプラットフォームを目指している。 スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。 GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。 しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。 GPT-3とはGPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。 シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。 更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。 これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。 自然な文章を生成GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。 ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 言語モデルの限界1:常識が無いこれほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。 例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。 更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。 言語モデルの限界2:人種差別GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。 具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。 つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。 バイアスの原因GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。 GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。 この他にデジタル化された書籍やウィキペディアも使われた。 GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。 GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。 アルゴリズムの機能が未知GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。 また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。 GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。 つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。 ビジネスモデルこのように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。 OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。 具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。 例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。 Googleの大規模言語モデル開発Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。 BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。 Microsoftの大規模言語モデル戦略Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。
更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。 MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。 GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。 MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。 AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。 AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。 AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。 WellSaid Labsこの技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。 同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。 AIボイスが声優を置き換える生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。 また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。 製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。 個性的なAIボイスVoice Avatarsが声優と同品質のボイスを生成できるようになった。 Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。 人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。 実際使ってみると実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。 ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。 操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。 アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。 ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。 アバターの種類と特徴Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。 「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。 また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。 「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。 複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。) 音声合成技術WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。 声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。 具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。 また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。 技術の限界と課題Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。 また、企業が社内教育の教材を生成する際にもこの技術が使われている。 一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。 この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。 声優とAIの関係WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。 AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。 ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。) 合成音声技術の進化いま、スタートアップから高品質なAIボイスが続々と生まれている。
AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。 AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。 更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。 合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。 Microsoftは2021年5月、話し言葉でプログラミングできる技術を公開した。 エンジニアが言葉で指示すると、AIはこれをプログラム言語に変換する。このAIは「GPT-3」と呼ばれ、言葉を理解する言語モデルで、OpenAIにより開発された。 OpenAIはGPT-3をMicrosoftに独占的にライセンスしており、これが最初の商用モデルとなる。 自然言語でプログラミングMicrosoftは開発環境「Power Apps」に言語モデル「GPT-3」を組み込み、話し言葉でプログラミングできる技術を開発した。 アプリケーション開発ではプログラム言語を使ってコーディングするが、このシステムは自然言語でプログラミングできる(上のグラフィックス)。 例えば、「Show me the Customers from U.S whose subscription is expired(サブスクリプションが切れた顧客を表示)」と指示すると(右上の枠)、システムはこれをプログラムに変換する(右下の部分)。 プログラム言語は「Power Fx」で、ここでは二つのモデルが示され、開発者はこれをクリックするだけでコーディングが終了する。 ノーコード開発プラットフォームこのシステムを使うと、プログラミングの知識がなくても誰でもアプリをコーディングできる。 Microsoftはこの開発モデルを「Citizen Developers」と呼び、誰もがコーディングできるようになり、プログラム開発者の数が増えると期待している。 一般に、コマンドではなくグラフィカル・ユーザインターフェイスでプログラミングする方式は「No-Code Development」と呼ばれているが、MicrosoftはこれをAIによる自然言語の変換で実現した。 Microsoft Power AppとはMicrosoftはNo Code方式をPower Appsに実装した。 Power Appsは簡単にアプリ開発できるフレームワークで、最小限のプログラミング技術でコーディングが可能となる。 Visual Studioはプロ開発者向けの開発環境であるが、Power Appsは万人が使えるシステムとなる。 開発方式の進化Power Appsの投入で開発方式が大きく変わっている。 従来は、アプリを設計・開発・試験・運用の順序で行う方式「Waterfall Development」が主流であったが、今ではアジャイル方式「Agile Development」(下のグラフィックス)に移っている。 この方式は、短期間でこのサイクルを繰り返し、プロトタイプ(minimum viable product)を開発する。 新型アジャイル方式これに対して、MicrosoftはPower Appsを使い、プログラミングと同時にユーザインターフェイスを開発できる「WYSIWYG (what you see is what you get)」方式を提唱した。 この方式では、即座にプロトタイプが完成し、これをベースに新機能を追加しバージョンアップを繰り返す(下のグラフィックス)。Microsoftはこの方式を新型アジャイル方式「Agile V2 Development」と呼んでいる。 Low CodeからNo CodeへPower Appsのプログラミング技法は前述の通り「Low-Code Development」と呼ばれ、最小のコーディングでプログラムできる。 Power Appsのプログラム言語は「Power Fx」と呼ばれ、Microsoft Excelでマクロを書くように最小限のコーディングでアプリを開発する。(下のグラフィックス)。 更に、Power AppsにGPT-3が統合され、今度は、コーディングすることなくアプリを開発できるようになった。 言葉で指示すると(下のグラフィックス)上述のPower Fxコードが生成される。この方式は「No-Code Development」と呼ばれ、幅広い普及が期待されている。 MicrosoftとOpenAIとの提携MicrosoftはOpenAIと共同開発を進めてきたが、2020年9月、GPT-3を独占的にライセンスを受けることで合意した。 その対価として、MicrosoftはOpenAIにGPT-3開発のためのAIスパコン環境を提供する。 MicrosoftのAIスパコンは世界ランキング5位の性能を持つ。GPT-3のニューラルネットワークは巨大で、大規模AIを開発するためにはスパコンが必要となる。 GPT-3とはGPT-3は言語モデル「Autoregressive Language Model」で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成や言語の翻訳や文章の要約ができる。
MicrosoftはGPT-3で言葉をプログラム言語に翻訳する技術を開発した。 GPT-3は世界最大規模のニューラルネットワークで構成されたAIで、けた違いに高度な言語能力を示す。 |