コロナの感染が下火になり、エンデミックに移行する中、シリコンバレーのIT企業はハイブリッド勤務に移行する。 Googleはリモートワークを終え、4月4日からハイブリッド勤務を始める。社員は週三日、オフィスに出勤する勤務形態となる。Appleも4月11日にオフィスを再開し、5月23日からは、社員は週三日出社のハイブリッド勤務となる。 Google Googleは社員に対し、4月4日までに在宅勤務を終えてオフィスに戻るよう通達を出し、週三日出社のハイブリッド勤務に移行する。今月はトライアル期間で、在宅勤務に慣れたワークスタイルをオフィス勤務に戻すためのプログラムが用意されている。オフィス内では、ワクチン接種を済ませた社員は、マスク着用や定期検査は不要となる。食堂やカフェが再開し、シャトルバスの運行が始まる。Googleはハイブリッド勤務向けに、オフィスレイアウトを大幅に変更している(上の写真、ハイブリッド勤務向け会議室)。来月からハイブリッド勤務が始まるが、その効果を検証しながらワークスタイルを調整するとしている。 Apple Appleも4月11に、リモートワークを終了しハイブリッド勤務に移行する。移行期間中は週1日から2日のオフィス勤務となるが、5月23日からは週3日の出社となる。Appleの場合は出社日が決まっていて、月曜、火曜、木曜がコアの出勤日となる。また、週三日以上勤務することも可能で、社員はライフスタイルに応じて勤務パターンを選択できる。(下の写真、Apple Park) Twitter Twitterは3月15日にオフィスを再開するものの、社員はリモートワークを継続することができる(下の写真、本社ビル)。CEOのParag Agrawalは、社員は最も生産性が上がるワークスタイルを選択すべきと述べている。このために、社員は在宅勤務やオフィス勤務やハイブリッド勤務の中から、自分に最適なスタイルを選択する。同時にAgrawalは、在宅勤務とオフィス勤務が混在することで、仕事の進行が難しくなると予想しており、ハイブリッド勤務を続けながら最適な解を見出すとしている。 Block(旧Square) モバイルペイメント企業Block(旧Square)は、社員が遠隔勤務を続けることを認めている。社員は好みの場所からリモートで勤務することができる。既に、社員は各地に移住しており、会社組織は分散型となっている。管理職は同じ場所の社員だけでなく、遠隔地の社員を管轄することになり、管理職の40%は同じオフィスに部下は誰もいないとしている(下の写真)。管理職はリモートで社員をマネージする技量が必要になる。 Slack Slackはハイブリッド勤務を導入しており、仕事の進行は「非同期型業務(Asynchronous Work)」を推奨している。非同期型業務とは、他の社員とリアルタイムでコラボレーションするのではなく、自分のワークスタイルに合わせて非同期で共同作業を進める方式を指す。社員は仕事に没頭できる時間「コアタイム(Core Time)」を設定し生産性を上げる。コアタイム以外の時間帯に他の社員と共同作業を進める。 SalesforceSlackの親会社であるSalesforceは、オフィス勤務の意義を問い直している(下の写真左側、本社ビル)。ハイブリッド勤務になると、オフィスは他の社員とコラボレーションする場所として利用する。オフィスは個人の仕事場という役割が小さくなる。Salesforceは社員間の交流を重視しており、社外で交流イベントを開催している。Salesforceはサンフランシスコ郊外に山荘「Trailblazer Ranch」を開設し、社員教育や社員の交流の場として使ってる(下の写真右側)。 ポストコロナのワークスタイル シリコンバレーのIT企業はオフィスを再開するが、社員の勤務形態については大きな自由度を持たせている。社員にオフィス勤務を強いると、生産性が上がらないだけでなく、多くの社員が辞めていくという現実がある。一方、完全在宅勤務では社員間のコラボレーションや人間関係の構築が難しい。このため、多くの企業はこれらのバランスを考慮し、ハイブリッド勤務を選択し、ポストコロナのワークスタイルを模索している。
Meta(Facebook)は、今週、スパコンを開発していることを明らかにした。 最大性能は5 Exaflopsで世界最速のマシンとなる。 Metaが独自でスパコンを開発するのは、AIとメタバースの開発で、大量の演算処理が必要になるため。 AI開発ではアルゴリズムの規模が巨大化し、その教育には高速プロセッサが必須となる。 メタバースはAIと密接に関連し、3D仮想社会を生成するには、高精度なコンピュータビジョンが求められる。 スパコンの概要Metaは、スパコンを「AI Research SuperCluster(RSC)」(上の写真)と呼び、AI研究のための高速計算機と位置付ける。 今年中旬の完成を予定しており、演算性能はExaflopsを超える。(Exaflopsとは1秒間に10の18乗(10^18)の演算を実行する性能。) 現在、最速のマシンは442 Petaflops (0.442 Exaflops)で、ついにスパコンがExaの領域に入ることになる。 研究テーマ スパコンは、名前が示しているように、AI研究で使われる。 Metaは、自然言語解析(Natural Language Processing)やコンピュータビジョン(Computer Vision)の開発をスパコンで実行する。 これらAIモデルはアルゴリズムが巨大化し、その教育で大規模な演算が発生する。パラメータの数が1兆個を超え、もはや、スパコン無しにはAIを開発することができない。 自然言語解析:有害コンテンツを検知 自然言語解析はソーシャルネットワークの有害情報(Harmful Contents)を検知するために使われる。 FacebookやInstagramで、フェイクニュースやヘイトスピーチが拡散し、社会問題となっている。 今では、ワクチンに関する偽情報が拡散し(下の写真)、ワクチン忌避者が増えている要因とされる。 これら有害情報をAIで正確に検知する技術は確立されておらず、ソーシャルネットワークの責任が厳しく問われている。 Few-Shot Learning AIが有害情報を正確に検知できない理由は、教育データが不足しているため。アルゴリズムを教育するには、大量のデータを必要とするが、有害情報に関するデータは少ない。 例えば、ワクチンに関する偽情報は、少ないだけでなく、その内容は短期間で移り変わる。 このため、Metaは少ない事例でAIを教育する「Few-Shot Learning」という技法を開発している。 このモデルで判定精度を上げるためには、アルゴリズムのサイズを大きくする必要があり、AIが巨大になる。 大規模なモデルを教育するためにスパコンが必須のインフラとなる。 コンピュータビジョン:メタバースの開発 次世代プラットフォームであるメタバースを開発するために、スパコンが必要となる。 メタバースは3D仮想社会で、利用者はアバターを介し、オブジェクトとインタラクションする(下の写真)。 メタバースにアクセスするためにAR・VR・MRグラスが使われ、デバイスに仮想社会が生成される。 高品質な仮想社会を生成するためにコンピュータビジョンが重要な役割を果たし、この開発でスパコンが必須となる。 システム構成 スパコンのプロセッサにはNVIDIAのAIシステム「NVIDIA DGX A100」(下の写真)が使われる。 このシステムはNVIDIAの最新プロセッサ「A100」を8台搭載した構成で(①の部分)、高速ネットワーク「InfiniBand」で通信する。 スパコンは16,000台のA100を搭載し、最大性能は5 exaflopsとなる。 スパコンはDGXを連結したクラスタ構成で、AI Research SuperClusterと呼ばれる。 巨大テックがAIスパコンを開発 アルゴリズムが巨大化の道をたどり、AI開発ではスパコンが必須の計算環境となる。
Googleは大規模アルゴリズムの開発でAIクラスター「Cloud TPU」を使っている。 Microsoftは独自でAIスパコンを開発し、大規模言語モデルを開発している。 これからは、メタバースの開発で高速プロセッサが必須となり、スパコンの用途が拡大することになる。 Microsoftはメタバースの技術開発を進め、3D仮想空間におけるビデオ会議システム「Mesh for Teams」を発表した。 このシステムはメタバースに構築されるコラボレーション基盤で、アバターを介してコミュニケーションする(下の写真)。Microsoftは「Mesh」という名称でメタバース技術を開発しており、これをビデオ会議「Teams」に適用した。 Microsoftが考えるメタバースMicrosoftは2021年3月、メタバースを構成する技術として「Mesh」を発表した。 Microsoftは、メタバースをインターネットの新しいモデルと捉えている。メタバースは仮想空間で、ここに人々が集い、交流する場となる。 また、メタバースに、人や物のデジタルツインが生成され、これらを介して、現実空間と仮想空間が連結される。 Microsoftは現実空間と仮想空間の融合をMR(Mixed Reality)と呼び、Meshがこの技術を支えている。更に、MicrosoftはMRヘッドセットとして「HoloLens」を開発し、企業向けに提供している。 Mesh for Teamsとはメタバース上に展開するビデオ会議システムは「Mesh for Teams」と呼ばれ、コラボレーションツール「Teams」をMR空間「Mesh」で運用する構成となる。 Teamsは在宅勤務におけるコラボレーションツールとして、幅広く利用されている。 Mesh for Teamsは、その新機能で、自分のアバターを介してテレビ会議に参加する(下の写真、右側)。 また、企業はMesh for Teamsを使って、会議室やロビーなど、仮想空間を生成することができる。ここに3D仮想オフィスが生成され、社員はアバターを介してここでデジタルに勤務する。 Accentureの仮想オフィスAccentureは既に、メタバース上にオフィス空間を生成し、社員のコラボレーションの場として活用している。 仮想のキャンパスは「Accenture Nth Floor」と呼ばれ、ここに社員が集い、オフィス勤務をする(下の写真、イメージ)。 社員は、オフィスでコーヒーを飲みながら会話を交わすこともできる。 会議室ではプレゼンテーションを行い、また、パーティーを開催することもできる。 仮想キャンパスは、テレビ会議とは異なり、社員同士が出会い交流する場となる。物理オフィスで雑談するなかで、アイディアが生まれるように、メタバースは社員が出合い言葉を交わす場となる。 メタバース・アプリケーションMicrosoft はMeshとHoloLens を使ったメタバース・アプリケーションの開発を進めている。 メタバース・アプリケーションは、場所を超えて共同作業をする空間を構築する。例えば、オフィス内に3D 仮想スペースを構築し、共同作業を進めることができる(下の写真)。 複数の社員がHoloLens 2を着装し、会議室やオフィスに集合し、そこで実物を見ながら製品開発を進めることが可能となる。このアプリケーションはMeshで生成され、HoloLens 2からアクセスする。 メタバースへのアクセス技術Microsoft は、メタバースへのアクセス技術としてMR グラス「HoloLens」を開発した。 現在は、第二世代の製品「HoloLens 2」を出荷しており、これを着装し、現実空間に構築された仮想オブジェクトを操作する(下の写真)。 企業向けのデバイスで、メタバース・アプリケーションと組み合わせて利用する。Microsoft はVR(仮想現実) とAR(拡張現実) を統合した技術をMR(複合現実)と呼び、メタバースにアクセスする基礎技術と位置付けている。 Mesh for Teamsを開発した理由Microsoftは、ポストコロナのワークスタイルはハイブリッドとなり、遠隔勤務が重要な役割を担うと分析している。 遠隔勤務では、管理職が考えるより、仕事を効率的に進めることができるとしている。 一方、社員は、遠隔勤務では、会社の同僚と会えないことが最大の課題だと指摘する。オフィス勤務では、同僚と立ち話ができ、人間関係が深まる。 また、会議では、同僚の素振りから、その場の空気を読むことができた。遠隔勤務では、これら人間関係のウェットな部分が欠落し、社員同士が疎遠になる。 Mesh for Teamsはこれらの問題点を補完するために開発された。 社員はデジタルツインであるアバターを生成し、これらを介して、表情や感情を表し、他の社員と交流する(下の写真)。 メタバースのロードマップMeta(Facebook)はメタバースにソーシャルネットを構築する構想を描いているが、Microsoftはメタバースで企業向けのソリューションを提供する戦略を取る。
その最初のステップがコラボレーションで、社員は3D仮想空間で共同作業を実行する。航空機のエンジンの設計を遠隔地と社員と共同で進めるソリューションを提供している(下の写真)。 Microsoftの強みはAIやクラウドで、Mesh for Teamsでメタバース開発レースに参戦した。 Facebookは開発者会議Connect 2021で、メタバース(Metaverse)構想を明らかにした。 メタバースとはインターネットに構築される3D空間で、次世代ソーシャルネットワークはここに構築される。 メタバースは現実空間と仮想空間が融合したもので、ここで人々が交流しビジネスが営まれる。(下の写真、メタバースに構築されたオフィス) メタバースを構成する技術メタバースを構築する基礎技術はAR(拡張現実)とVR(仮想現実)で、これらを融合しMR(複合現実)を生成する。 これらがメタバース研究所「Facebook Reality Labs」で開発されている。 現在のAR・VRを飛躍的に進化させ、リアルとバーチャルを融合したMR空間を生成する。 Metaはメタバースをモバイルの次のプラットフォームと位置付け、AppleやGoogleに依存しないインターネットを生成する。(下の写真、現実空間に仮想オブジェクトを融合したMR空間。) メタバースを生み出す技術:Presence PlatformMetaが開発しているメタバースは、リアル社会とバーチャル社会を滑らかに融合するもので、これを生み出す技術は「Presence Platform」と呼ばれる。 このプラットフォームは、コンピュータビジョンとAIが核となり、仮想オブジェクトを現実空間に組み込むためのモジュールから構成される。具体的には、MR(Mixed Reality)、オブジェクトのインタラクション、ボイスのインタラクションを生成する機能を提供する。MRとは、上述の通り、複合現実で、現実空間と仮想空間を融合し、メタバースの中心機能となる。 Presence Platformは三つのSDK(Software Development Kit)から構成される:
MR空間を生成する技術:Insight SDK Insight SDKはメタバースの中心技術で、高品質なMR空間を生成する。Insight SDKは「Passthrough」と「Spatial Anchors」の二つの機能から成る。 Passthrough機能 PassthroughはVRヘッドセットを介してMR空間を生成する技術で、現実空間に仮想オブジェクトを描写する。 下の写真はOculus Quest 2を介してピアノのレッスンを受けている様子。 ピアノの鍵盤に円形の仮想オブジェクトを表示し、これを指で叩くと音楽を演奏できる。Oculus Quest 2はカメラを搭載しており、前方のイメージを白黒で見ることができる。 Oculus Quest 2はVRだけでなく、MRグラスとしての機能がある。 Spatial Anchors機能Spatial Anchorsはハンドセットで現実空間をマッピングする機能。 下の写真はOculusのハンドセットを置かれた家具に沿って動かし、部屋の中をマッピングしている様子。 システムは現実空間の構造を理解して、それに応じて仮想オブジェクトを表示するために使われる。 Scene Understanding機能Scene Understandingはユーザ空間を理解する機能で、空間の位置関係やその意味などを理解する。 この中のScene Modelを使って部屋の中にMR空間を生成する。下の写真は部屋の空間に仮想オブジェクト(暖炉や窓の外の景色)を挿入しMR空間を生成したもの。 このようにPassthrough、Spatial Anchors、Scene Understandingを使って、複雑で、かつ、物理空間の意味を理解したメタバースを開発できる。 手の動きを表現する技術:Interaction SDKInteraction SDKは手やハンドセットの動きを仮想空間の中で表現するために使われる。 手で仮想オブジェクトを掴んだり、触ったり、ポイントするなどの動作を司る。 下の写真は、手で仮想のコーヒーマグの取ってを掴んでいる様子。 Interaction SDKは、コンピュータビジョン使い、AIが手の動きをトラックし、オブジェクトとのインタラクションを把握する。 話し言葉を理解する技術:Voice SDKVoice SDKは自然言語解析の機能で、話し言葉により、ハンズフリーのオペレーションができる。 これをゲームに適用すると、音声でプレーするゲームを開発できる。 Voice SDKは、音声でのナビゲーションの他に、音声での検索や、音声でのQ&A機能を提供する。 下の写真は、仮想のキャラクター「Oppy」の名前を呼ぶと、言葉の意味を理解して近づいてくる。 次世代VRヘッドセット:Project CambriaMetaは次世代のVRヘッドセットを開発している。このプロジェクトは「Project Cambria」と呼ばれ、ハイエンドのVRヘッドセットとなる。 Project Cambriaは、Social Presence機能やカラーのPassthrough機能を備えている。 現在、Metaは消費者向けにVRヘッドセットOculus Quest 2を販売しているが、Project Cambriaはこの後継モデルではなく、ハイエンドの製品ラインとなる。 モバイル向けAR:Spark AR「Spark AR」はモバイル向けのAR開発環境で、既に多くのコンテンツが開発されている。 これはMobile ARと呼ばれ、スマホのアプリに組み込んで利用する。例えば、顔に特殊効果を挿入する際にSpark ARが使われる。 下の写真は、Spark ARで顔に特殊メイクを施し、妖怪に変身する事例。Metaは、このSpark ARを拡張し、メタバース向けに高度なARを開発している。 ARグラス:Project AriaMetaはARグラス「Project Aria」を開発している(下の写真右側)。 これは、グラスにカメラとディスプレイを搭載した構造で、目の前の現実空間に仮想オブジェクトをインポーズする。 ARグラスはDigital Assistantとなり、AIが周囲のオブジェクトの種別や意味を理解する(下の写真左側、ソファーやテーブルを認識する)。 更に、AIは利用者の意図を把握して、次の行動をアシストする。利用者が電灯に視線を向けると、スイッチががオンになるなどの機能がある。 ARグラスへの入力:ElectromyographyARグラスにデータを入力する方法が課題になるが、MetaはElectromyography(筋電図)という技法を開発している。 これは筋肉で発生する微弱な電場をAIで解析することで、その意図を推定するもの。 手首にデバイスを装着しElectromyographyを計測する。 指でアルファベットを書くと、このデバイスがテキストに変換する(下の写真、テキストメッセージを入力している様子)。 コンセプトの段階Metaはメタバースの概要を始めて公開したが、これらはまだ製品ではなく、コンセプトの段階である。
今回の発表はProof of Conceptを示し、メタバースが完成した時の製品イメージを提示することを目的とした。 これによると、AR・VR・MR技術が大きく進化し、メタバースは現実空間と仮想空間が滑らかに融合した社会であることが分かった。 一方、メタバースはより深い個人データを使うことも分かり、個人情報の保護がより厳しく求められる。 Facebookは、開発者会議「Connect 2021」で、ソーシャルメディア企業からメタバース(Metaverse)企業になることを発表した。 CEOのMark Zuckerbergがメタバース空間で明らかにしたもので(下の写真)、これに伴い、社名も「Facebook」から「Meta」に変更する。 Facebookは創設以来最大の危機に直面しており、社名を変えることで、新生企業として再出発する。 一方、Metaが開発しているメタバースは、従来の技法から大きく進化したもので、スマホの次のプラットフォームになる可能性を秘めている。 メタバースとはメタバースとは、インターネットに構築された3D仮想社会で、ここに人々が集い交流する。 従来のVR空間とは異なり、メタバースでは利用者が仮想社会と連動し、そこに存在している感覚「Social Presence」を覚える。次世代のソーシャルネットワークはメタバースに構築される。 Facebookは、メタバースをモバイル・インターネットの次のプラットフォームとして位置付け、技術的に大きな飛躍となる。但し、メタバースは今すぐに使えるサービスではなく、完成までに時間を要すことも明らかにした。 Facebookはそのビジョンを示したもので、これに向かって技術開発が進んでいる。 (下の写真、メタバースの事例、無重力空間で友人同士がアバターを介して交流している様子。) 家庭向けのメタバースZuckerbergは基調講演で、メタバースの様々な利用方法を紹介した。 その一つが家庭向けのメタバースで、「Horizon Home」と呼ばれる。 これはVRヘッドセット「Oculus」を着装して利用するサービスで、複数の友人がメタバースに集い、それぞれのアバターを介して交流する(下の写真)。 お互いに会話するだけでなく、グループでゲームをプレーするなど、アバター同士がインタラクションできることに特徴がある。 企業向けのメタバース今回の発表に先立ち、Facebookは企業向けのメタバースを発表している。 これは、「Horizon Workrooms」と呼ばれ、遠隔勤務向けのコラボレーションシステムとなる。 社員はアバターを介してビデオ会議に出席し、他の社員とインタラクションしながら、会議を進める(下の写真)。ホワイトボードに説明資料を表示するなど、リアルのオフィスを仮想空間に構築する。 メタバースでゲームをプレーゲームはメタバースの重要なアプリケーションで、既に数多くのコンテンツが開発されている。 ARグラスを着装すると、海外に住む友人とチェスを対戦することができる(下の写真)。 また、VRヘッドセットを着装すると、没入型のゲームを体験できる。OculusはVRゲームを数多く開発しおり、ヒット商品は「Beat Saber」で、飛んでくる物体を刀で切り落とす。 メタバースでフィットネス近年は、ジムでエクササイズをする代わりに、自宅でVRヘッドセットを着装してトレーニングする人が増えた。 フィットネスバイクは、仮想のスタジオで、インストラクターの指示に従ってペダルを漕ぐ(下の写真)。また、「Supernatural Boxing」シリーズは、VRボクシングを通したエクササイズで、巨大なモンスターと対戦する。 仮想空間で教育メタバースは教育プラットフォームとして使われる。ARグラスを着装して土星を見ると、目の前にその構造が描写される。土星の環の中に入ると、無数の氷の塊で構成されていることが分かる。 また、VRヘッドセットを着装すると、古代ローマの都市に降り立つことができる(下の写真)。市場で売られている魚や果物を見て、街の賑わいを感じる。また、建造物のアーキテクチャや建設方法を学ぶことができる。 社名の変更Zuckerbergは、社名を「Facebook」から「Meta」に変更したことを明らかにし、その理由をメタバース企業に転身するためと説明した。 Metaはギリシャ語で「Beyond」という意味で、ソーシャルネット―ワークの次の章が始まることを示している。既存サービスの名称はそのままで、Metaの配下でFacebook、Instagram、WhatsAppがビジネスユニットとして事業を継続する。(下の写真、本社の前のパネルは新しいロゴに置き換わっている。) Facebook Papersいま、Facebookは創業以来最大の危機に直面している。Facebookの元社員が、社内資料を公開し、会社は利用者の安全を犠牲に利益を上げていると告発した。
持ち出された大量の社内資料は「Facebook Papers」と呼ばれ、Facebookのアルゴリズムやビジネス慣行が記載されている。 Zuckerbergはこの危機を乗り越えるため、社名をMetaとし、新生企業として出直しを図り、社会からの批判を避ける思惑もある。 Facebookは人間の視線で周囲の状況を把握するAIの研究を開始した。 このプロジェクトは「Ego4D」と呼ばれ、人間の視線で捉えたデータ(下の写真)でアルゴリズム教育することで、AIは実社会でインテリジェントな能力を発揮する。 これをARグラスやVRヘッドセットに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。また、これをロボットに搭載すると、実社会で自律的に稼働する機能を得ることができる。 当事者の視点で環境を理解コンピュータビジョンの進化でAIはオブジェクトを認識しその種別を正確に判定する。しかし、これらのAIは第三者視点(third-person perspective、下の写真左側)で開発されたもので、傍観者としてオブジェクトを判定する。 これに対し、Facebookは第一者視点(first-person perspective、右側)でアルゴリズムを教育する研究を開始した。 この技法は「Egocentric Perception」と呼ばれ、開発されたAIは当事者の視点でオブジェクトを判定できるようになる。これをARグラスやVRヘッドセットに搭載すると、AIがアシスタントとして周囲の状況を把握し最適な助言を行う。 また、ロボットへ適用すると、AIが視覚となり実社会の中を自律的に稼働するシステムにつながる。(下の写真はサイクリングに関する画像認識の判定結果。第三者視点で開発されたAIの判定精度は高いが(左側)、第一者視点で開発されたAIの判定精度はまだ低い(右側)。) 開発したAIの利用方法FacebookはARグラスの開発を進めており、その第一弾としてスマートグラス「Ray-Ban Stories」を発表した。 これから製品化されるARグラスには第一者視点のAIが搭載され、インテリジェントなアシスタントとして使われる。AIが周囲のオブジェクトを見てその種別などを把握する。 例えば、ARグラスで日常生活を録画しておくと、AIはこれを解析して利用者の質問に回答する。「祖母の腕時計をどこに片づけた」と質問すると、AIは過去のビデオを解析し、ARグラスにその場所を表示する(下の写真)。 大学との共同開発利用者の視点でオブジェクトを判定するAIを開発するためには、アルゴリズムを教育するための大量のデータが必要になる。 このため、Facebookは各国の大学と共同研究をすすめ、利用者視点のデータを集約して教育のためのデータセットを開発している(下の写真)。世界から13の大学が参加しているが、日本からは東京大学がこのプロジェクトに加わっている。 データセットの構成開発者はスマートグラスなどを着装してカメラで日常生活を録画する。これら録画されたビデオにその意味を付加して、生活の中での動きとその説明文のペアを作る。 これらのビデオを集約したデータセットを構築し、これらのデータを使ってAIを教育するプロセスとなる。 日常生活の様式は国により異なり、Facebookは主要国の大学と共同でこれを進めている。(下の写真;皿洗いを撮影したビデオで、左からサウジアラビア、イタリア、ルワンダの事例となる。) アルゴリズム教育次は、生成したデータセットを使ってアルゴリズムを教育するステップとなる。ここがAI開発のコアで、Facebookはこれを研究課題として提示し、大学や研究機関の研究者がこれに挑戦する形式をとる。チャレンジは五つのテーマから構成される。
AIビジョンの進化AI開発でオブジェクトの形状を把握するコンピュータビジョンが急成長しているが、アルゴリズムを教育するためのデータセットが技術進化を支えている(下の写真)。
AI開発の初期には手書き文字を判読するためのデータセット「MNIST」が開発された。コンピュータビジョンが急速に進化したのは、イメージのデータセット「ImageNet」の存在が大きい。ここには大量の写真とタグが格納され、これによりAIが人間の視覚を上回った。これらはすべて第三者視点のデータセットで、Ego4Dが第一者視点の最初のデータセットとなる。 Microsoftは合成メディア(Synthetic Media)の手法で3Dフェイスを生成した(下の写真)。 これは顔認識AIを教育するためのモデルで、実物と見分けのつかない超リアルな3Dフェイスが生成された。 今まではセレブなど実在の人物の顔写真を使って顔認識AIを教育してきた。しかし、これらの写真は本人の了解を取らないで無断で使われ、個人のプライバシーを侵害するとして社会問題となっている。 このため、Microsoftは、これらのデータセットを消去し、合成メディアの手法で3Dフェイスを作成し、これをアルゴリズム教育に活用できることを実証した。 研究の意義倫理的に顔認識AIを教育するために、人工的に3Dフェイスを生成し、これでアルゴリズムを教育する手法が取られてきた。しかし、合成データで教育するとアルゴリズムの判定精度が落ちるという問題が発生する。 しかし、Microsoftは高品質の合成データを生成し、教育したアルゴリズムは写真データで教育したものと精度が変わらないことを示した。つまり、顔認識AIを教育するために、ネット上の顔写真をスクレイピングすることは不要で、合成データで倫理的に開発できる道筋をつけた。 顔認識AIの精度合成データで顔認識アルゴリズムを教育すると、判定精度は写真で教育した場合と同等であることが示された。 顔認識アルゴリズムは顔のパーツを判定する機能(Face Pursing)があり、鼻や口や目やまつ毛などを識別して色で示す(下の写真左側)。 実際にベンチマークすると、写真で教育したものとほぼ同等の精度となることが証明された。 また、顔認識アルゴリズムは顔の特徴量(Landmarks)を特定する機能があり、合成データで教育すると10倍精密なランドマークを生成できる(右側)。 3DフェイスモデルMicrosoftはAIの手法(Generative 3D Face Model)で人物の頭部を三次元で生成する。 これは3Dフェイスモデルと呼ばれ、生成されたモデルは実在しない人物の顔を超リアルに生成する。 この手法はハリウッドの映画スタジオで使われる特撮技術(Visual Effects (VFX))で、映画スターがデジタルに生成されている。しかし、Microsoftの場合は教育データを大量に生成する必要があり、超リアルな3Dフェイスモデルを数多く生成する技法を開発した。 モデル生成のプロセスこのため、Microsoftはテンプレートを基準にして、それを変形する手法で多数の3Dフェイスモデルを生成した。 まず、AIはテンプレートとなる3Dフェイスモデル(下の写真左端)を生成する。 これをベースに、このモデルに個性(左から二番目)、表情(三番目)、スキン(四番目)、頭髪(五番目)、衣服(六番目)、背景(右端)を付加する。これにより、リアルで多様性のある3Dフェイスモデルを生成することができた。 3Dフェイスモデルの多様性3Dフェイスモデルで教育された顔認識AIは特定の人種にバイアスすることなく公平に判定できることも示された。Microsoftは3Dフェイスモデルで教育した顔認識AIを多様性データセット「The MUCT Face Database」を使ってその判定精度を検証した(下の写真)。このデータセットは異なる性別や多様な人種で構成されており、多様性を検証するために使われる。 また、光の状態も様々で、現実社会に近い環境で顔認識AIの精度を検証できる。教育した顔認識AIはこのデータセットで正しく判定し、多様性のある実社会で利用できることが示された。 データセットを公開Microsoftは生成した3DフェイスモデルをGitHubに公開しており、研究開発の目的で自由に利用することができる。 公開されているモデルの数は10万で、それぞれのモデルには70のアノテーションが付加されている(下の写真、フェイスモデルとアノテーション)。 研究者はこのモデルを使うことで、倫理的に顔認識AIを開発できる。 顔写真データセットを消去これに先立ち、Microsoftは著名人の顔写真データセット「Microsoft Celeb (MS-Celeb-1M)」を開発し、これを公開していた。これは著名人の顔写真100万枚を格納したデータセットで、顔認識AIの教育で利用されてきた。 しかし、Microsoftはデータセットに格納している顔写真について、本人の同意を得ていないとして、全てのデータを消去し公開サイト「MS Celeb 」を閉鎖することを決定した。 顔写真収集に関する議論が広がる中、Microsoftは他社に先駆けてこれらを利用しない方針を打ち出した。 顔写真をスクレイピングこれとは対照的に、新興企業「Clearview」は顔認識AI開発するために、ソーシャルネットワークに掲載されている顔写真をスクレイピングしてアルゴリズムを教育した。 写真の数は30億枚を超え、世界最大規模の顔写真データセットを構築した。Clearviewが開発した顔認識アルゴリズムは判定精度が高く、全米の警察で犯罪捜査に利用されている。 これに対し、市民団体は、個人の顔写真を許可無く使用することは違法であるとして、Clearviewに対し集団訴訟を起こした。 合成メディアの手法で生成フェイスブックなどに掲載している顔写真を収集し、これを顔認識AIの教育で使うことが社会問題となっているなか、倫理的な開発手法の模索が続いている。
消費者の了解を得て顔写真を収集するのでは大量のデータを準備できない。Microsoftは高品質な3Dフェイスモデルを大量に生成することに成功し、教育データを合成メディアの手法で生成する方式に注目が集まっている。 Facebookは創業以来最大の危機に直面している。 Facebookの内部告発者がアメリカ連邦議会公聴会で証言し、アルゴリズムの危険性を訴えた。 Facebookは有害情報を発信すると閲覧回数が増えることを理解しており、利用者の安全を犠牲に利益を上げる手法を選択したと証言。 一方、Facebookは、この解釈は正しくなく、アルゴリズムの改良で有害記事が減り、友人や家族からの記事が増えたと反論。 連邦政府は、アルゴリズムの公開も含め、ソーシャルメディアに関するルールを制定する方向に動き始めた。 アメリカ連邦議会公聴会10月5日、アメリカ連邦議会上院の公聴会「Senate Commerce Subcommittee on Consumer Protection」で元Facebook社員であるFrances HaugenがFacebookのビジネス手法について証言した(上の写真)。 公聴会はインターネットから子供を守ることを目的に開催され、Haugenは、FacebookはInstagramが子供の健康を害していることを把握しているが、企業の利益を優先して有害なコンテンツを送り続けていると証言。 このビジネス慣行は容認できるものではなく、ソーシャルネットワークを規制する法令の制定を訴えた。 Haugenは議員からの質問に答える形で、Facebookの技術内容を説明し、子供をターゲットとする手法やアルゴリズムの概要などが明らかになった。 内部告発の背景HaugenはFacebookでProduct Managerとしてアルゴリズムの開発に従事してきた。 Haugenは退社する前に、大量の内部資料をコピーして報道機関Wall Street Journalに提供し、同紙がこれをベースに告発記事を書き、Facebookの問題が表面化した。 更に、これら内部資料は米国証券取引委員会と米国連邦議会に提出されている。Haugenの証言はこれら大量の社内データに基づき、Facebookのビジネス慣行の詳細が明らかになった。 Instagramは少女に有害HaugenはInstagramが若い女性に有害である点を中心に証言した。 Facebookは内部調査でInstagramが子供の健康を害することを把握しているが、この事実を隠匿し、有害なコンテンツの配信を続けていると指摘した。 具体的には、英国における調査で、女性ティーンエイジャーの13.5%はInstagramを使い始めてから自殺を考えるようになった、という問題が明らかになった。 また、別の調査で、女性ティーンエイジャーの17%はInstagramを使い始めてから摂食障害を引き起こしたことも判明。更に、身体の容姿にコンプレックスがある少女の32%は、Instagramを見ると精神状態が悪化したことも報告されている。 アルゴリズムの危険性これらの問題はコンテンツを配信するロジックを規定するアルゴリズムにある。 Facebookはアルゴリズムを使って読者に最適なコンテンツを配信する方式を取る。 このアルゴリズムは「Engagement Based Ranking」と呼ばれ、どのような内容のコンテンツを配信するかを決定する。 Facebookは友人や家族間でコミュニケーションが増進するコンテンツを配信する方式を採用している。 これは「Meaningful Social Interactions(MSI)」と呼ばれ、読者がコンテンツに対してリアクションするものを優先して配信する。 具体的には、読者がクリックしたり、いいねボタンを押したり、他者と共有するコンテンツを配信する。アルゴリズムは読者がどんどんシェアしてくれるコンテンツを中心に配信する。 アルゴリズムの評価つまり、アルゴリズムはMeaningful Social Interactions(MSI指標)が向上するよう設定されている。 実際には、Facebookでは多数のアルゴリズムが稼働しており、それぞれのアルゴリズムの設定を変更して、コンテンツがシェアされる回数が増えるように調整される。 アルゴリズムでMSI指標を上げると、より多くのコンテンツがシェアされ、ページビューが向上し、収益が上がる構造となる。つまり、FacebookとしてはMSI指標を向上することが究極のゴールで、これにより事業が拡大し収益があがる。 ヘイトスピーチが増える しかし、Facebookは内部調査で、MSI指標を上げると、その副作用として、ヘイトスピーチや偽情報や暴力を扇動するコンテンツが増えるという事実を把握した。 アルゴリズムがこれら有害なコンテンツを配信すると、利用者のインタラクションが増え、その結果MSI指標が向上する。 利用者の観点からは、有害なコンテンツに惹きつけられ、これらをシェアする回数が増え、ソーシャルネットワークで拡散することになる。アルゴリズムが有害コンテンツの拡散機となることを意味する。 安全より利益を選択 Facebookはこれらの事実を把握していたにも拘わらず、これを隠匿してMSI指標を高めてきた。 MSI指標を上げると利用者に有害なコンテンツが配信され危険であるが、企業としてはページビューが増え広告収入が増える。 つまり、Facebookは危険性を隠匿し、利用者の安全より企業の収益を優先させることを選択した。 AIが未熟同時に、Facebookはヘイトスピーチなど有害なコンテンツをAIで検知し、これらを削除する研究を進めているが、技術は未熟でこれらを正確に検知することができない。 2021年の夏に、Facebookはコロナウイルスに関する偽情報をAIでフィルタリングする試験を実施した。 その結果、検知精度は80%から90%で、多くのコンテンツがフィルターをすり抜けた。このAIは英語のコンテンツを対象とし、他の言語には対応できていない。 Facebookの反論公聴会での証言を受けて、Mark Zuckerbergはメッセージを発信し、Haugenの主張は間違っていると反論した。 議論の核心はFacebookが安全より利益を優先しているとの主張で、これは完全に間違いだと述べている。具体的には、FacebookはMSI指標を導入したが、その結果有害ビデオ(Viral Videos)が減り、友人や家族からのコンテンツが増えたと説明。 また、Facebookは意図的に有害コンテンツを拡散しているとの主張に対し、Facebookは広告でビジネスを構築しており、企業は有害コンテンツには広告を掲載しないと反論した。 Instagramに関しては、子供たちにスマホが普及しており、これを制限するのではなく、子供たちのニーズに沿って安全な機能を提供することがFacebookの役割と説明した。 ルールの制定Haugenは公聴会で証言した目的は議会にソーシャルメディアに関するルールの設定を促すためと述べている。 同様に、ZuckerbergはFacebookのような企業がコンテンツ選別に関す決定を下すのではなく、政府が法令を改定して新しい時代に沿ったルールを制定すべきと発言している。 HaugenもZuckerbergも政府がソーシャルネットワークを規制する法令を制定すべきという点では共通の理解を持っている。 Facebookの転機早くからソーシャルネットワークの危険性が指摘されてきたが、Haugenによる証言でアルゴリズムなどシステムの詳細が明らかになり、Facebookの問題の本質が見えてきた。
Facebookはソーシャルネットワークでトップのシェアを持つが、利用者数は伸び悩み事業拡大が難しくなっている。Facebookは有害コンテンツの拡散を押さえ、事業を拡大するという難しいかじ取りを迫られる。 今週、Amazonは発表イベントで家庭向けのロボット「Astro」を公開した(下の写真)。 ロボットは子犬ほどの大きさで、頭部にディスプレイが搭載され表情を表し情報を表示する。 ロボットはカメラの映像をAIで解析し、家の中で障害物を避けて自動で走行する。 ベーシックな機能だけを搭載したロボットで、Amazonはこれを「Day 1 Editions」と呼ぶ。完結した製品になるまでには5年程度の時間が必要で、Amazonはロボットの普及に向け第一歩を踏み出した。 Astroの利用方法ロボットはエンターテイメントとセキュリティを目的に開発された。 ロボットは”移動式AIスピーカー”という構成で、人間の言葉を理解してタスクを実行する。 ロボットに指示するときは、「Astro」と呼びかける。 「Astro, call Mom」と指示すると、ロボットはお母さんに電話してビデオで通話する(下の写真、左側)。 ロボットは利用者をフォローする機能があり、家の中で移動しながら通話できる。 また、「Astro, Take this to Alicia」と言えば、飲み物を指示した人物に届ける(中央)。 ロボットは顔認識機能があり、人物を見分けることができる。更に、「Astro, remind Lucas…」と言えば、指示した人物にリマインダーを送信する(右側)。 セキュリティ機能一方、住人が不在の時はロボットが警備員となり家の中をパトロールして安全を確認する。 ロボットは潜望鏡を搭載しており、これを伸ばして先端のカメラで家の中を監視する(下の写真)。 高い視点でモニターでき、キッチンのガスコンロがオフになっていることなどをモニターする。 カメラが捉えた映像は利用者のスマホアプリに送信される。因みに、利用者はスマホアプリからロボットに監視する場所の指示を出す。 シニアの健康管理ロボットの利用法で期待されているのがシニアの健康管理である。 これは「Alexa Together」というサービスをロボットに適用したもので、離れて暮らす年老いた両親の健康状態をモニターする(下の写真)。 異常があればロボットは遠隔地にいる管理者にアラートを送信する。また、本人にかわりショッピングリストを生成し、リマインダーを送信するなどの機能もある。ロボットが介護士となり家の中でシニアの健康状態をモニターする。 ナビゲーションシステムロボットは高度なAIを搭載しセンサーの情報を解析し部屋の中を自動で走行する。 これは「Intelligent Motion」と呼ばれ、ロボットのナビゲーションシステムとなる。 ロボットは三セットのセンサー「Navigation Sensors」、「Obstacle Sensors」、「Depth Sensors」を搭載し、これをAIで解析して移動ルートを算出する。 また、ロボットはSimultaneous localization and mapping (SLAM)という技法で、家の中のマップを生成し、現在の位置を把握する。(下の写真、SLAMの手法で生成された3Dマップでロボットはこれをベースに走行ルートを決定する。) 多種類のセンサーロボットは三種類のセンサーを使い家の中を自律走行する。 マップ生成においては「Navigation Sensors」が使われる。このセンサーは家の中のランドマーク(テーブルの角やドアのフレームなど)を把握し、マップにこの情報を組み込む。 ロボットが家の中を移動する際の目印として利用する。 一方、「Obstacle Sensors」はロボットの目の前のオブジェクトを把握し、近傍のマップを高精度で生成する。 このほかに「Depth Sensors」は人物を把握するために使われる。(下の写真、Navigation SensorsとObstacle Sensorsはロボット本体正面に搭載されている。Depth Sensorsはディスプレイ上部に搭載されている。) 自動走行の仕組み生成されたマップでロボットは目的地に移動するための最適なルールを算出する。 アルゴリズムは数百のルートを検証し、そこから最適なものを選ぶ(下の写真)。 AIは長期的な経路(下の写真、青色の線)と短期的な(2-3秒先の)経路(緑色の線)を算出する。更に、自動運転車とは異なり、家の中では決められたレーンは無く、また、床に物が置かれるなどして経路が塞がれる事象が発生する。 周囲の状況は頻繁に変わり、その都度、アルゴリズムがルートを再計算し、新しい環境に適応する。 人間とのインタラクションロボットは人間とモノを見分けることができ、人間に対しては礼儀正しい対応をする。 ロボットは人間に合わせた速度になり、また、社会的に適切なインタラクションを行う。 具体的には、ロボットは人間に接するときは、正面からアプローチし、最適な距離を取って停止する。 また、ソファに腰かけている時は、隣に停止するなどのアクションを取る(下の写真)。 人間に接するときは、「Navigation Sensors」と「Depth Sensors」が使われ、優雅な動作で対応する。 Amazonがロボットを開発する理由高度なAIで構成されるAstroであるが、その利用形態はエンターテイメントやセキュリティに限られる。
ロボットはアームを搭載しておらず、冷蔵庫を開けてビールを届けるなどのタスクはできない。また、洗濯物をたたみ、部屋を掃除するなどの家事が出来るわけでもない。 Astroはロボットとしての最小限の機能だけで、利用方法は限られる。 Amazonはこれを認識したうえでAstroを投入し、これをDay 1 Editionsと呼び、ベータ版であることを強調している。 Astroの販売価格は999.99ドル(導入価格)で年末から出荷が始まる。 Amazonは5年から10年後には家庭にロボットが普及する時代になると予測しており、Astroの開発はこれに向けた第一歩となる。 スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。 GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。 しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。 GPT-3とはGPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。 シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。 更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。 これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。 自然な文章を生成GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。 ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 言語モデルの限界1:常識が無いこれほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。 例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。 更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。 言語モデルの限界2:人種差別GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。 具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。 つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。 バイアスの原因GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。 GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。 この他にデジタル化された書籍やウィキペディアも使われた。 GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。 GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。 アルゴリズムの機能が未知GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。 また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。 GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。 つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。 ビジネスモデルこのように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。 OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。 具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。 例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。 Googleの大規模言語モデル開発Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。 BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。 Microsoftの大規模言語モデル戦略Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。
更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。 MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。 GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。 MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。 |