Facebookは人間の視線で周囲の状況を把握するAIの研究を開始した。 このプロジェクトは「Ego4D」と呼ばれ、人間の視線で捉えたデータ(下の写真)でアルゴリズム教育することで、AIは実社会でインテリジェントな能力を発揮する。 これをARグラスやVRヘッドセットに搭載することで、AIがアシスタントとなり利用者の視覚や聴覚をエンハンスする。また、これをロボットに搭載すると、実社会で自律的に稼働する機能を得ることができる。 当事者の視点で環境を理解コンピュータビジョンの進化でAIはオブジェクトを認識しその種別を正確に判定する。しかし、これらのAIは第三者視点(third-person perspective、下の写真左側)で開発されたもので、傍観者としてオブジェクトを判定する。 これに対し、Facebookは第一者視点(first-person perspective、右側)でアルゴリズムを教育する研究を開始した。 この技法は「Egocentric Perception」と呼ばれ、開発されたAIは当事者の視点でオブジェクトを判定できるようになる。これをARグラスやVRヘッドセットに搭載すると、AIがアシスタントとして周囲の状況を把握し最適な助言を行う。 また、ロボットへ適用すると、AIが視覚となり実社会の中を自律的に稼働するシステムにつながる。(下の写真はサイクリングに関する画像認識の判定結果。第三者視点で開発されたAIの判定精度は高いが(左側)、第一者視点で開発されたAIの判定精度はまだ低い(右側)。) 開発したAIの利用方法FacebookはARグラスの開発を進めており、その第一弾としてスマートグラス「Ray-Ban Stories」を発表した。 これから製品化されるARグラスには第一者視点のAIが搭載され、インテリジェントなアシスタントとして使われる。AIが周囲のオブジェクトを見てその種別などを把握する。 例えば、ARグラスで日常生活を録画しておくと、AIはこれを解析して利用者の質問に回答する。「祖母の腕時計をどこに片づけた」と質問すると、AIは過去のビデオを解析し、ARグラスにその場所を表示する(下の写真)。 大学との共同開発利用者の視点でオブジェクトを判定するAIを開発するためには、アルゴリズムを教育するための大量のデータが必要になる。 このため、Facebookは各国の大学と共同研究をすすめ、利用者視点のデータを集約して教育のためのデータセットを開発している(下の写真)。世界から13の大学が参加しているが、日本からは東京大学がこのプロジェクトに加わっている。 データセットの構成開発者はスマートグラスなどを着装してカメラで日常生活を録画する。これら録画されたビデオにその意味を付加して、生活の中での動きとその説明文のペアを作る。 これらのビデオを集約したデータセットを構築し、これらのデータを使ってAIを教育するプロセスとなる。 日常生活の様式は国により異なり、Facebookは主要国の大学と共同でこれを進めている。(下の写真;皿洗いを撮影したビデオで、左からサウジアラビア、イタリア、ルワンダの事例となる。) アルゴリズム教育次は、生成したデータセットを使ってアルゴリズムを教育するステップとなる。ここがAI開発のコアで、Facebookはこれを研究課題として提示し、大学や研究機関の研究者がこれに挑戦する形式をとる。チャレンジは五つのテーマから構成される。
AIビジョンの進化AI開発でオブジェクトの形状を把握するコンピュータビジョンが急成長しているが、アルゴリズムを教育するためのデータセットが技術進化を支えている(下の写真)。
AI開発の初期には手書き文字を判読するためのデータセット「MNIST」が開発された。コンピュータビジョンが急速に進化したのは、イメージのデータセット「ImageNet」の存在が大きい。ここには大量の写真とタグが格納され、これによりAIが人間の視覚を上回った。これらはすべて第三者視点のデータセットで、Ego4Dが第一者視点の最初のデータセットとなる。 Microsoftは合成メディア(Synthetic Media)の手法で3Dフェイスを生成した(下の写真)。 これは顔認識AIを教育するためのモデルで、実物と見分けのつかない超リアルな3Dフェイスが生成された。 今まではセレブなど実在の人物の顔写真を使って顔認識AIを教育してきた。しかし、これらの写真は本人の了解を取らないで無断で使われ、個人のプライバシーを侵害するとして社会問題となっている。 このため、Microsoftは、これらのデータセットを消去し、合成メディアの手法で3Dフェイスを作成し、これをアルゴリズム教育に活用できることを実証した。 研究の意義倫理的に顔認識AIを教育するために、人工的に3Dフェイスを生成し、これでアルゴリズムを教育する手法が取られてきた。しかし、合成データで教育するとアルゴリズムの判定精度が落ちるという問題が発生する。 しかし、Microsoftは高品質の合成データを生成し、教育したアルゴリズムは写真データで教育したものと精度が変わらないことを示した。つまり、顔認識AIを教育するために、ネット上の顔写真をスクレイピングすることは不要で、合成データで倫理的に開発できる道筋をつけた。 顔認識AIの精度合成データで顔認識アルゴリズムを教育すると、判定精度は写真で教育した場合と同等であることが示された。 顔認識アルゴリズムは顔のパーツを判定する機能(Face Pursing)があり、鼻や口や目やまつ毛などを識別して色で示す(下の写真左側)。 実際にベンチマークすると、写真で教育したものとほぼ同等の精度となることが証明された。 また、顔認識アルゴリズムは顔の特徴量(Landmarks)を特定する機能があり、合成データで教育すると10倍精密なランドマークを生成できる(右側)。 3DフェイスモデルMicrosoftはAIの手法(Generative 3D Face Model)で人物の頭部を三次元で生成する。 これは3Dフェイスモデルと呼ばれ、生成されたモデルは実在しない人物の顔を超リアルに生成する。 この手法はハリウッドの映画スタジオで使われる特撮技術(Visual Effects (VFX))で、映画スターがデジタルに生成されている。しかし、Microsoftの場合は教育データを大量に生成する必要があり、超リアルな3Dフェイスモデルを数多く生成する技法を開発した。 モデル生成のプロセスこのため、Microsoftはテンプレートを基準にして、それを変形する手法で多数の3Dフェイスモデルを生成した。 まず、AIはテンプレートとなる3Dフェイスモデル(下の写真左端)を生成する。 これをベースに、このモデルに個性(左から二番目)、表情(三番目)、スキン(四番目)、頭髪(五番目)、衣服(六番目)、背景(右端)を付加する。これにより、リアルで多様性のある3Dフェイスモデルを生成することができた。 3Dフェイスモデルの多様性3Dフェイスモデルで教育された顔認識AIは特定の人種にバイアスすることなく公平に判定できることも示された。Microsoftは3Dフェイスモデルで教育した顔認識AIを多様性データセット「The MUCT Face Database」を使ってその判定精度を検証した(下の写真)。このデータセットは異なる性別や多様な人種で構成されており、多様性を検証するために使われる。 また、光の状態も様々で、現実社会に近い環境で顔認識AIの精度を検証できる。教育した顔認識AIはこのデータセットで正しく判定し、多様性のある実社会で利用できることが示された。 データセットを公開Microsoftは生成した3DフェイスモデルをGitHubに公開しており、研究開発の目的で自由に利用することができる。 公開されているモデルの数は10万で、それぞれのモデルには70のアノテーションが付加されている(下の写真、フェイスモデルとアノテーション)。 研究者はこのモデルを使うことで、倫理的に顔認識AIを開発できる。 顔写真データセットを消去これに先立ち、Microsoftは著名人の顔写真データセット「Microsoft Celeb (MS-Celeb-1M)」を開発し、これを公開していた。これは著名人の顔写真100万枚を格納したデータセットで、顔認識AIの教育で利用されてきた。 しかし、Microsoftはデータセットに格納している顔写真について、本人の同意を得ていないとして、全てのデータを消去し公開サイト「MS Celeb 」を閉鎖することを決定した。 顔写真収集に関する議論が広がる中、Microsoftは他社に先駆けてこれらを利用しない方針を打ち出した。 顔写真をスクレイピングこれとは対照的に、新興企業「Clearview」は顔認識AI開発するために、ソーシャルネットワークに掲載されている顔写真をスクレイピングしてアルゴリズムを教育した。 写真の数は30億枚を超え、世界最大規模の顔写真データセットを構築した。Clearviewが開発した顔認識アルゴリズムは判定精度が高く、全米の警察で犯罪捜査に利用されている。 これに対し、市民団体は、個人の顔写真を許可無く使用することは違法であるとして、Clearviewに対し集団訴訟を起こした。 合成メディアの手法で生成フェイスブックなどに掲載している顔写真を収集し、これを顔認識AIの教育で使うことが社会問題となっているなか、倫理的な開発手法の模索が続いている。
消費者の了解を得て顔写真を収集するのでは大量のデータを準備できない。Microsoftは高品質な3Dフェイスモデルを大量に生成することに成功し、教育データを合成メディアの手法で生成する方式に注目が集まっている。 Facebookは創業以来最大の危機に直面している。 Facebookの内部告発者がアメリカ連邦議会公聴会で証言し、アルゴリズムの危険性を訴えた。 Facebookは有害情報を発信すると閲覧回数が増えることを理解しており、利用者の安全を犠牲に利益を上げる手法を選択したと証言。 一方、Facebookは、この解釈は正しくなく、アルゴリズムの改良で有害記事が減り、友人や家族からの記事が増えたと反論。 連邦政府は、アルゴリズムの公開も含め、ソーシャルメディアに関するルールを制定する方向に動き始めた。 アメリカ連邦議会公聴会10月5日、アメリカ連邦議会上院の公聴会「Senate Commerce Subcommittee on Consumer Protection」で元Facebook社員であるFrances HaugenがFacebookのビジネス手法について証言した(上の写真)。 公聴会はインターネットから子供を守ることを目的に開催され、Haugenは、FacebookはInstagramが子供の健康を害していることを把握しているが、企業の利益を優先して有害なコンテンツを送り続けていると証言。 このビジネス慣行は容認できるものではなく、ソーシャルネットワークを規制する法令の制定を訴えた。 Haugenは議員からの質問に答える形で、Facebookの技術内容を説明し、子供をターゲットとする手法やアルゴリズムの概要などが明らかになった。 内部告発の背景HaugenはFacebookでProduct Managerとしてアルゴリズムの開発に従事してきた。 Haugenは退社する前に、大量の内部資料をコピーして報道機関Wall Street Journalに提供し、同紙がこれをベースに告発記事を書き、Facebookの問題が表面化した。 更に、これら内部資料は米国証券取引委員会と米国連邦議会に提出されている。Haugenの証言はこれら大量の社内データに基づき、Facebookのビジネス慣行の詳細が明らかになった。 Instagramは少女に有害HaugenはInstagramが若い女性に有害である点を中心に証言した。 Facebookは内部調査でInstagramが子供の健康を害することを把握しているが、この事実を隠匿し、有害なコンテンツの配信を続けていると指摘した。 具体的には、英国における調査で、女性ティーンエイジャーの13.5%はInstagramを使い始めてから自殺を考えるようになった、という問題が明らかになった。 また、別の調査で、女性ティーンエイジャーの17%はInstagramを使い始めてから摂食障害を引き起こしたことも判明。更に、身体の容姿にコンプレックスがある少女の32%は、Instagramを見ると精神状態が悪化したことも報告されている。 アルゴリズムの危険性これらの問題はコンテンツを配信するロジックを規定するアルゴリズムにある。 Facebookはアルゴリズムを使って読者に最適なコンテンツを配信する方式を取る。 このアルゴリズムは「Engagement Based Ranking」と呼ばれ、どのような内容のコンテンツを配信するかを決定する。 Facebookは友人や家族間でコミュニケーションが増進するコンテンツを配信する方式を採用している。 これは「Meaningful Social Interactions(MSI)」と呼ばれ、読者がコンテンツに対してリアクションするものを優先して配信する。 具体的には、読者がクリックしたり、いいねボタンを押したり、他者と共有するコンテンツを配信する。アルゴリズムは読者がどんどんシェアしてくれるコンテンツを中心に配信する。 アルゴリズムの評価つまり、アルゴリズムはMeaningful Social Interactions(MSI指標)が向上するよう設定されている。 実際には、Facebookでは多数のアルゴリズムが稼働しており、それぞれのアルゴリズムの設定を変更して、コンテンツがシェアされる回数が増えるように調整される。 アルゴリズムでMSI指標を上げると、より多くのコンテンツがシェアされ、ページビューが向上し、収益が上がる構造となる。つまり、FacebookとしてはMSI指標を向上することが究極のゴールで、これにより事業が拡大し収益があがる。 ヘイトスピーチが増える しかし、Facebookは内部調査で、MSI指標を上げると、その副作用として、ヘイトスピーチや偽情報や暴力を扇動するコンテンツが増えるという事実を把握した。 アルゴリズムがこれら有害なコンテンツを配信すると、利用者のインタラクションが増え、その結果MSI指標が向上する。 利用者の観点からは、有害なコンテンツに惹きつけられ、これらをシェアする回数が増え、ソーシャルネットワークで拡散することになる。アルゴリズムが有害コンテンツの拡散機となることを意味する。 安全より利益を選択 Facebookはこれらの事実を把握していたにも拘わらず、これを隠匿してMSI指標を高めてきた。 MSI指標を上げると利用者に有害なコンテンツが配信され危険であるが、企業としてはページビューが増え広告収入が増える。 つまり、Facebookは危険性を隠匿し、利用者の安全より企業の収益を優先させることを選択した。 AIが未熟同時に、Facebookはヘイトスピーチなど有害なコンテンツをAIで検知し、これらを削除する研究を進めているが、技術は未熟でこれらを正確に検知することができない。 2021年の夏に、Facebookはコロナウイルスに関する偽情報をAIでフィルタリングする試験を実施した。 その結果、検知精度は80%から90%で、多くのコンテンツがフィルターをすり抜けた。このAIは英語のコンテンツを対象とし、他の言語には対応できていない。 Facebookの反論公聴会での証言を受けて、Mark Zuckerbergはメッセージを発信し、Haugenの主張は間違っていると反論した。 議論の核心はFacebookが安全より利益を優先しているとの主張で、これは完全に間違いだと述べている。具体的には、FacebookはMSI指標を導入したが、その結果有害ビデオ(Viral Videos)が減り、友人や家族からのコンテンツが増えたと説明。 また、Facebookは意図的に有害コンテンツを拡散しているとの主張に対し、Facebookは広告でビジネスを構築しており、企業は有害コンテンツには広告を掲載しないと反論した。 Instagramに関しては、子供たちにスマホが普及しており、これを制限するのではなく、子供たちのニーズに沿って安全な機能を提供することがFacebookの役割と説明した。 ルールの制定Haugenは公聴会で証言した目的は議会にソーシャルメディアに関するルールの設定を促すためと述べている。 同様に、ZuckerbergはFacebookのような企業がコンテンツ選別に関す決定を下すのではなく、政府が法令を改定して新しい時代に沿ったルールを制定すべきと発言している。 HaugenもZuckerbergも政府がソーシャルネットワークを規制する法令を制定すべきという点では共通の理解を持っている。 Facebookの転機早くからソーシャルネットワークの危険性が指摘されてきたが、Haugenによる証言でアルゴリズムなどシステムの詳細が明らかになり、Facebookの問題の本質が見えてきた。
Facebookはソーシャルネットワークでトップのシェアを持つが、利用者数は伸び悩み事業拡大が難しくなっている。Facebookは有害コンテンツの拡散を押さえ、事業を拡大するという難しいかじ取りを迫られる。 今週、Amazonは発表イベントで家庭向けのロボット「Astro」を公開した(下の写真)。 ロボットは子犬ほどの大きさで、頭部にディスプレイが搭載され表情を表し情報を表示する。 ロボットはカメラの映像をAIで解析し、家の中で障害物を避けて自動で走行する。 ベーシックな機能だけを搭載したロボットで、Amazonはこれを「Day 1 Editions」と呼ぶ。完結した製品になるまでには5年程度の時間が必要で、Amazonはロボットの普及に向け第一歩を踏み出した。 Astroの利用方法ロボットはエンターテイメントとセキュリティを目的に開発された。 ロボットは”移動式AIスピーカー”という構成で、人間の言葉を理解してタスクを実行する。 ロボットに指示するときは、「Astro」と呼びかける。 「Astro, call Mom」と指示すると、ロボットはお母さんに電話してビデオで通話する(下の写真、左側)。 ロボットは利用者をフォローする機能があり、家の中で移動しながら通話できる。 また、「Astro, Take this to Alicia」と言えば、飲み物を指示した人物に届ける(中央)。 ロボットは顔認識機能があり、人物を見分けることができる。更に、「Astro, remind Lucas…」と言えば、指示した人物にリマインダーを送信する(右側)。 セキュリティ機能一方、住人が不在の時はロボットが警備員となり家の中をパトロールして安全を確認する。 ロボットは潜望鏡を搭載しており、これを伸ばして先端のカメラで家の中を監視する(下の写真)。 高い視点でモニターでき、キッチンのガスコンロがオフになっていることなどをモニターする。 カメラが捉えた映像は利用者のスマホアプリに送信される。因みに、利用者はスマホアプリからロボットに監視する場所の指示を出す。 シニアの健康管理ロボットの利用法で期待されているのがシニアの健康管理である。 これは「Alexa Together」というサービスをロボットに適用したもので、離れて暮らす年老いた両親の健康状態をモニターする(下の写真)。 異常があればロボットは遠隔地にいる管理者にアラートを送信する。また、本人にかわりショッピングリストを生成し、リマインダーを送信するなどの機能もある。ロボットが介護士となり家の中でシニアの健康状態をモニターする。 ナビゲーションシステムロボットは高度なAIを搭載しセンサーの情報を解析し部屋の中を自動で走行する。 これは「Intelligent Motion」と呼ばれ、ロボットのナビゲーションシステムとなる。 ロボットは三セットのセンサー「Navigation Sensors」、「Obstacle Sensors」、「Depth Sensors」を搭載し、これをAIで解析して移動ルートを算出する。 また、ロボットはSimultaneous localization and mapping (SLAM)という技法で、家の中のマップを生成し、現在の位置を把握する。(下の写真、SLAMの手法で生成された3Dマップでロボットはこれをベースに走行ルートを決定する。) 多種類のセンサーロボットは三種類のセンサーを使い家の中を自律走行する。 マップ生成においては「Navigation Sensors」が使われる。このセンサーは家の中のランドマーク(テーブルの角やドアのフレームなど)を把握し、マップにこの情報を組み込む。 ロボットが家の中を移動する際の目印として利用する。 一方、「Obstacle Sensors」はロボットの目の前のオブジェクトを把握し、近傍のマップを高精度で生成する。 このほかに「Depth Sensors」は人物を把握するために使われる。(下の写真、Navigation SensorsとObstacle Sensorsはロボット本体正面に搭載されている。Depth Sensorsはディスプレイ上部に搭載されている。) 自動走行の仕組み生成されたマップでロボットは目的地に移動するための最適なルールを算出する。 アルゴリズムは数百のルートを検証し、そこから最適なものを選ぶ(下の写真)。 AIは長期的な経路(下の写真、青色の線)と短期的な(2-3秒先の)経路(緑色の線)を算出する。更に、自動運転車とは異なり、家の中では決められたレーンは無く、また、床に物が置かれるなどして経路が塞がれる事象が発生する。 周囲の状況は頻繁に変わり、その都度、アルゴリズムがルートを再計算し、新しい環境に適応する。 人間とのインタラクションロボットは人間とモノを見分けることができ、人間に対しては礼儀正しい対応をする。 ロボットは人間に合わせた速度になり、また、社会的に適切なインタラクションを行う。 具体的には、ロボットは人間に接するときは、正面からアプローチし、最適な距離を取って停止する。 また、ソファに腰かけている時は、隣に停止するなどのアクションを取る(下の写真)。 人間に接するときは、「Navigation Sensors」と「Depth Sensors」が使われ、優雅な動作で対応する。 Amazonがロボットを開発する理由高度なAIで構成されるAstroであるが、その利用形態はエンターテイメントやセキュリティに限られる。
ロボットはアームを搭載しておらず、冷蔵庫を開けてビールを届けるなどのタスクはできない。また、洗濯物をたたみ、部屋を掃除するなどの家事が出来るわけでもない。 Astroはロボットとしての最小限の機能だけで、利用方法は限られる。 Amazonはこれを認識したうえでAstroを投入し、これをDay 1 Editionsと呼び、ベータ版であることを強調している。 Astroの販売価格は999.99ドル(導入価格)で年末から出荷が始まる。 Amazonは5年から10年後には家庭にロボットが普及する時代になると予測しており、Astroの開発はこれに向けた第一歩となる。 スタンフォード大学の研究グループはGPT-3など大規模言語モデルの危険性に関する研究を進めている。 GPT-3はOpenAIが開発した言語モデルで、文章の生成、翻訳、質疑応答、文法の間違いの修正など、多彩な機能を持っている。 しかし、GPT-3は特定人種をテロに結び付けるなどアルゴリズムが持つ危険性が明らかになった。また、大規模言語モデルの教育で膨大な計算量が発生し、GoogleやMicrosoftなど巨大テックだけがこれを開発することができ、パワーの偏在が顕著になっている。 GPT-3とはGPT-3はOpenAIが開発した言語モデル(Autoregressive Language Model)で、入力された言葉に基づき、それに続く言葉を予測する機能を持つ。 シンプルな機能であるが、これが言葉を理解する本質的な能力となり、文章の生成だけでなく、言語の翻訳、文章の要約、文章の分類、プログラムのコーディングなど多彩な機能を持っている。 更に、GPT-3は世界最大規模のニューラルネットワークで、少ない事例で学習することができる。 これは「Few-Shot Learning」と呼ばれ、AIが人間のように短時間で学習する。OpenAIはAI研究の非営利団体で、イーロン・マスク(Elon Musk)らにより設立され、人間レベルのインテリジェンスを持つAIを開発することをミッションとしている。 自然な文章を生成GPT-3は人間のように自然な文章を生成することができ、記事を読んでもマシンが出力したものとは分からない。 ベンチマークの結果、GPT-3が生成したことを検知できる割合は52%で、マシンが生成する文章の半数は人間が真偽を判定できないことを示している。(下の写真、GPT-3が生成した記事であるが、これを検知できる割合は12%で、AIは人間の言語能力に到達した。) 言語モデルの限界1:常識が無いこれほど高度な言語能力を持つGPT-3であるが、得意分野と不得意分野が顕著で、人間のように常識を持ち合わせていない。 例えば、GPT-3に「トースターと鉛筆はどちらが重い」と質問するが正しく答えられない。また、算数も不得意で「1,000 + 4,000は」と質問すると、常に正解できるわけではない。 更に、「2021年のワールドシリーズはどのチームが優勝したか」という質問にGPT-3は「ニューヨーク・ヤンキース」と答える。GPT-3は時間の観念がなく、2021年のワールド・シリーズはまだ開催されていないことを把握できない。 言語モデルの限界2:人種差別GPT-3は重大な危険性を内包していることも明らかになった。これはスタンフォード大学のJames Zou助教授らの研究によるもので、GPT-3はイスラム教の信者である「ムスリム(Muslim)」という言葉から「暴力(Violence)」を連想する(下のグラフィックス)。 具体的には、「二人のムスリムが歩いて入った」という言葉を入力すると(左上)、GPT-3は「なたと爆弾をもって協会に入った」という言葉を出力する(左下)。 つまり、GPT-3は、ムスリムはテロに関連するという偏った解釈を示し、アルゴリズムがバイアスしていることが明らかになった。一方、キリスト教徒や仏教徒を入力するとGPT-3が暴力を連想する割合は大きく低下する(右側)。 バイアスの原因GPT-3がムスリムに対して偏った考え方を示す理由は、アルゴリズムの教育データにあるという解釈が示された。 GPT-3の教育では大量のテキストデータが使われた。その多くがウェブサイトのデータをスクレイピングしたもので、「Common Crawl」と呼ばれるデータベースに格納された情報が利用された。 この他にデジタル化された書籍やウィキペディアも使われた。 GPT-3はインターネット上のテキストで教育され、これらデータに従って文章を生成する。 GPT-3の精度は教育データの品質に依存し、インターネット上のテキストに人種差別表現が含まれており、データを精査する必要性を示唆している。 アルゴリズムの機能が未知GPT-3は巧妙なスパムを大量に生成し、これらが消費者に配信され、社会で迷惑メールが増えている。 また、コロナウイルスやワクチンに関する偽情報が生成され、これらがソーシャルメディアに掲載され世論が二極化し社会が不安定になっている。 GPT-3は危険な情報を生み出すが、同時に、社会に役立つ機能も多く、言語モデルの全体像が理解できていない。 つまり、GPT-3の出力を予測することができず、これが大規模言語モデル開発での最大の課題となっている。 ビジネスモデルこのように、GPT-3は使い方を間違えると社会に重大な危害を及ぼすため、OpenAIはこのモデルを一般に公開していない。 OpenAIはGPT-3のAPIを特定の企業に公開するという方式で事業を進めている。 具体的には、審査に合格した企業はAPIを介してGPT-3を利用し、その対価としてライセンス料を支払う。 例えば、アンケート調査の結果をGPT-3が要約し、消費者の動向を解析するサービスなどが登場している(下のグラフィックス)。 Googleの大規模言語モデル開発Googleも大規模言語モデルを開発しており、その代表が「BERT」で、人間の言葉を理解し人間のように文章を生成する機能を持つ。 BERTはGoogleの検索エンジンで使われており、これにより検索精度が大きく向上した。BERTは単語から文章の意図を把握するために導入され、特に、検索クエリーで問われていることの意味を理解するために使われている。 Microsoftの大規模言語モデル戦略Microsoftも大規模言語モデルの開発を重点的に進め、検索エンジンBingに適用している。
更に、MicrosoftはOpenAIに出資しAI開発をサポートしている。 MicrosoftはOpenAIとの提携を深め、GPT-3を独占的に利用できる権利を獲得した。 GPT-3は大きなポテンシャルを持つが、同時に重大な危険性を内在している。 MicrosoftはGPT-3を改良し製品に統合すべく開発を進めている。Microsoftから高度な言語機能を持つ製品が登場する可能性が高まっている。 AIにより生成されるボイスは合成音声(Synthetic Voice)と呼ばれるが、この品質が人間レベルに到達した。 AIスピーカーの普及でGoogle AssistantやApple Siriなどが身近になったが、これらは機械的なトーンで人間の喋りとは程遠い。 AIの進化で、新世代の合成音声は自然で感情豊かなボイスとなり、人間の喋りと区別がつかなくなった。 WellSaid Labsこの技術を開発しているのはシアトルに拠点を置くAIスタートアップWellSaid Labsである。 同社はAI研究非営利団体Allen Institute of Artificial Intelligenceからスピンオフし、AIによる音声合成技術を開発している。WellSaid Labsが開発する音声合成技術は「Voice Avatars」と呼ばれ、テキストを入力すると、人間のように滑らかなボイスを生成する(上の写真)。 AIボイスが声優を置き換える生成されたAIボイスは企業のプロモーションで使われている。AIスピーカーの普及で広告媒体がボイスに移っている。 また、クルマや家電などにAIアシスタントが組み込まれ、利用者とのインターフェイスがボイスにシフトしている。 製品プロモーションでは高品質なボイスが求められ声優がこの役割を担っているが、いまVoice Avatarsが人間を置き換えている。 個性的なAIボイスVoice Avatarsが声優と同品質のボイスを生成できるようになった。 Voice Avatarsは音声版アバターで、入力されたテキストを様々なトーンのボイスに変換する。 人が話すとき、声のトーンにその人の性格が反映されるが、Voice Avatarsも同様に、人間のように個性的な声を生み出す。エネルギッシュで積極的に語り掛けるアバターや、もの静かに優しく語り掛けるアバターなど、Voice Avatarsは多くのキャラクターを備えている。 実際使ってみると実際に、WellSaid Labsが提供しているVoice Avatarsを使ってみたが、人間と見分けのつかない高品質なボイスが生成された。 ここではボイス生成クラウド「Studio」にログインし、ダッシュボードからVoice Avatarsにアクセスした(下の写真)。 操作は簡単で、生成するボイスのテキストを入力し(中央部分)、それを変換するアバターを選ぶ(右端)。 アバターはそれぞれ異なるトーンのボイスを生成し、数多くのアバターが提供されている。 ここではアバター「Ava M.」を選択した。最後に、Createボタンを押すとほぼリアルタイムで音声が生成された。 アバターの種類と特徴Studioは数多くのVoice Avatarsを揃えており、それぞれが特徴的なボイスを生成し、それらを聞いて最適なものを選ぶ(下の写真)。 「Ava M.」は活気のある明るいトーンで、新製品紹介などに向いている。 また、「Wade C.」はドラマティックな喋りで、ニュース速報のナレーションに適している。 「Alana B.」は落ち着いた喋りで医療機器の使用手順の説明に向いている。 複数のVoice Avatarsを試し、企業にとって最適なキャラクターを選択する手順となる。完成したボイスはMP 3ファイルとしてダウンロードする。(会社紹介のナレーションを制作したがAva M.のキャラクターが最適であった。) 音声合成技術WellSaid Labsは人間の声優の声を教育データとしてアルゴリズムを開発する手法を取る。 声優がテキストを読み上げ、それをアルゴリズムが学習し、その人物の特性を把握する。 具体的には、アクセントや声の高さや音質などを学習する。発声するときの息使いや声の響きなども取り入れる。 また、人間は同じ文章を読んでもトーンは一定ではなく不規則である。Voice Avatarsも同様に、人間の特徴であるゆらぎを取り入れてボイスに自然さを加味している。 技術の限界と課題Voice Avatarsは短い文章を音声に変換する利用法が中心で、PRビデオのナレーションなどで使われている。 また、企業が社内教育の教材を生成する際にもこの技術が使われている。 一方、Voice Avatarsは長い文章を喋ると人間との違いが露呈し、ここが次の開発ステップとなる。 この課題が解決すると応用分野はぐんと広がり、電子書籍の読み上げやポッドキャストのストリーミングなどが次の応用分野となる。 声優とAIの関係WellSaid Labsの音声合成技術は声優のボイスを使って開発されるが、Voice Avatarsが普及すると声優の仕事が奪われるという難しい関係となる。 AI企業は声優の職をどう守るかが問われており、Voice Avatarsの収入の一部を声優に還元する試みが始まった。 ただ、声優のボイスの価値をどう評価するのかについては統一したルールはなく、事実、Apple Siriのボイスは声優Susan Bennettの声をベースとしているが、Appleはライセンス料を払っているわけではない。 (下の写真、著名な声優のプロフィール。) 合成音声技術の進化いま、スタートアップから高品質なAIボイスが続々と生まれている。
AIボイスは人間のように自然な喋りができるだけでなく、感情的な表現が可能となった。 AIボイスが怒りに震えた声を発し、また、感極まった感情を表す。 更に、恐れおののいた声や相手を威嚇するための叫び声を上げる。アニメやゲームの中で波乱万丈のストーリーが展開されるが、この声をAIが生成する。 合成音声技術は人間レベルに到達し、いまではAmazon AlexaやApple Siriのボイスがモノトーンに響く。 Facebookはスマートグラス「Ray-Ban Stories」を発表した(下の写真)。 これはFacebookが開発した最初のスマートグラスで、お洒落なデザインとなっている。Ray-Banサングラスにテクノロジーを実装したもので、ファッションに軸足を置く構成となっている。 スマートグラスは二台のカメラを搭載し、利用者の視点で写真やビデオを撮影する。FacebookはARグラスの開発を進めており、Ray-Ban Storiesがそれに向けた第一歩となる。 Ray-Ban Storiesの概要Ray-Ban Storiesはサングラスに二台のカメラを組み込んだ構造で、写真やビデオを撮影できる。 スピーカーとマイクが搭載され、音楽を聴き、また、電話をかけることもできる。 価格は299ドルからでRay-Banのサイトで購入する。 これはFacebookがEssilorLuxottica(Ray-Banの親会社)と共同開発しもので、米国など六か国で販売が始まった。 カメラと利用方法スマートグラスはリムの両端に5MPのカメラを搭載している(下の写真)。 カメラは利用者の目線で撮影し、日常生活の瞬間(Moments)をとらえるために使われる。 撮影するときは右側テンプルに設置されたボタンを押すか、ボイスコマンドを発行する。スマートグラスはAI音声認識機能を備えており、「Hey Facebook, take a video」と語りかけるとビデオ撮影が始まる。 写真やビデオを撮影しているときはカメラの隣に搭載されているLEDライトが点灯する。これにより周囲の人はカメラが稼働していることが分かり、プライバシー保護に配慮した設計となっている。 アプリとの連携スマートグラスは専用アプリ「Facebook View」と連携して利用する。 撮影した写真やビデオはアプリに格納され(下の写真左側)、それを編集してオリジナルなコンテンツを生成する(中央)。 生成したコンテンツはFacebookやInstagramやWhatsAppなどソーシャルネットワークと共有することができる(右側)。自社ネットワークだけでなく、Twitter、TikTok、Snapchatと共有することができる。 Ray-BanのモデルスマートグラスはRay-Banのモデル「Wayfarer」、「Round」、「Meteor」から構成される。 Wayfarerはクラッシックなデザイン(下の写真)で、オードリーヘップバーン(Audrey Hepburn)が映画「ティファニーで朝食を」(Breakfast at Tiffany’s)で使い有名になった。 今では歌手のマドンナ(Madonna)などが愛用し、このスタイルが再びブームになっている。 Ray-Banと言えばバイデン大統領が愛用している「Aviator」を連想するが、若い世代にはあまり好まれないようである。 プロセッサなどスマートグラスは二台のマイクロスピーカーと三台のマイクを搭載している。 マイクは特定方向のサウンドをエンハンスする機能(Beamforming Technology)や背景音をキャンセルする機能を持ち、クリアなサウンドを生成することができる。 また、テンプルの部分がタッチパネルになっており、指で触って操作する。スマートグラスは専用プロセッサ「Snapdragon」を搭載しており、これらのデバイスをサングラスに組み込んだデザインとなる。 Facebook Reality LabsスマートグラスはFacebook Reality Labsで開発された。 Facebook Reality Labsとは、拡張現実(AR)と仮想現実(VR)を研究開発することをミッションとし(下のグラフィックス)、Ray-Ban StoriesはそのAR部門で開発された。 VR部門はOculusを核とする組織で、VRヘッドセットを開発している。 最新モデルは「Oculus Quest 2」で、PCとの連携を必要としないスタンドアロン型VRヘッドセットとして販売が始まった。 ARグラスAR部門は既にAR グラスのプロトタイプ「Aria」を開発した。
これは研究開発用のAR グラスで、カメラとディスプレイを搭載し、目の前のオブジェクトを把握するだけでなく、そこにテキストやグラフィックスをインポーズし、現実社会と仮想社会を融合させる。 Facebook 社員はAria を着装して施設内や市街地を歩き、グラスのカメラで目の前のシーンを記録し、ARグラス向けのマップを制作している。 ARグラス商用版に向けた開発が進んでいるが、Ray-Ban Storiesがその第一歩となる。 シリコンバレーで多くの企業がリモートワークを導入しているが、二社で勤務し給与を倍増する社員が現れた。 テック企業の多くは完全リモートワークを採用しており、社員はオフィスに出社することなく、在宅にて二社掛け持ちで勤務する。会社の就労契約に抵触しており、見つかれば解雇となるが、給与が倍増するというインセンティブは大きい。 危険なワークスタイルであるが、リモートワーク時代の働き方として議論を呼んでいる。 リモートワークの実態シリコンバレーではGoogleやFacebookなどがハイブリッドワークに移り、在宅勤務とオフィス勤務を併用した形態を取る。リモートワークだけを選択するオプションもあり、社員の2割が完全在宅勤務で働いている。 一方、DropboxやSpotifyなどはリモートワークを中心とする勤務体系を採用しており、多くの社員はオフィスに出社することなく勤務を続けている。 また、Automatticなどはオフィスを持たず全員がリモートで勤務している。 正社員として掛け持ち勤務このように、テック企業で社員の多くがオフィスに出社することなく在宅で勤務している。 このような雇用環境が続く中、二社を掛け持ちして勤務する社員が現れた。 ギグワークのような契約社員ではなく、正規社員としてリモートワークで二社を掛け持ちする。 パソコンで業務をこなし、打ち合わせはZoomなどテレビ会議で参加する。 二社分の仕事をするのは無理と思われていたが、業務内容によりこれが可能であることが分かってきた。 サンフランシスコの新興企業Overemployedは二重勤務に関する情報を発信しておりその実態が明らかになってきた。 フィールド・エンジニアのケースOveremployedによると、エンジニア”sidegigs”はフルタイムで二社を掛け持ちして働いている。 ソフトウェア・エンジニアとして20年のキャリアを持ち、現在はフィールド・エンジニアとして二社で勤務している。一社は2020年11月から勤務を始め、もう一社は2021年4月に就職した。二社を掛け持ちして勤務し、年収は67万ドル(7370万円)となる。 二社で勤務しているが時間外勤務は少なく、仕事に追われているという様子はない。 二社で働くためには二社で働くためにはそれなりのスキルを必要とする。最も重要なポイントは秘密の保持で、二社で勤務していることを口外してはいけない。 家族内に情報を留めておき、友人や他の家族に打ち明けないようアドバイスしている。また、仕事に優先順位をつけ、掛け持ちしている2番目の仕事はプライオリティを下げるよう指示している。 具体的には、LinkedInなどに仕事の履歴を掲載するときは、メインの会社の職業を掲示し、サブの会社については何も触れない。履歴書も同様で、サブの会社の仕事については何も記載しない。 時間管理のポイント実際に仕事を始めると、打ち合わせ時間の調整が最大の課題となる。 Zoom会議で二社の打ち合わせ時間が重なるときの対応がカギとなる。基本的には、二台のパソコンで業務をこなし、会社ごとに使うマシンを決めておく。 会議はできるだけ手短に効率的に運用し、存在感を印象づける行動を取る。どうしても二つの会議が重なるときは、丁寧に断ることを推奨している。 何故こんなことが可能になるのかワークスタイルが柔軟なシリコンバレーであるが、二社を掛け持ちする正規社員が出現したことは驚きをもって受け止められている。 コロナでリモートワークが始まった当初は緊張感をもって仕事を進めてきたが、このワークスタイルが定着した今は社員の印象が希薄になり、管理職の目が届きにくくなっている。 対面で会ったことのない社員が増え、人間関係が疎遠になっていることが原因の一つとされる。 二重勤務できる企業とできない企業また、二重勤務に向いている企業と避けるべき企業がある。 二重勤務が可能となるのは安定した大企業で、厳しいアウトプットが求められないところが多い。更に、仕事の内容が明確に定義されているテック企業が適している。 また、銀行など金融関連企業も候補になる。反対に掛け持ちできないのはスタートアップで、社員の数が少なく、仕事の成果が厳しく評価される。また、GAFAMなど大手テックはリモートワークのルールが明確に規定されており、二重勤務することは難しいとしている。 二重勤務に移行するパターン実際にどれだけの人が二重就職しているかについての統計情報は無いが、この形態が徐々に増えつつある。 いきなり二社に就職するのではなく、転職する際に会社を辞める前に、次の会社の勤務を開始し、トライアルで掛け持ちするケースが増えている。 実際にダブルで仕事をしてみて、上手くいくことが分かると、本格的に二重就職するパターンが多い。 二重就職が発覚すると、就労規定に抵触するため解雇になり、危険と隣り合わせのワークスタイルといえる。 二重勤務を容認する?これから企業の管理職は二重就職社員を見抜くスキルが求められる。
一方で、労働力不足が深刻なシリコンバレーで、テック企業は優秀なエンジニアを雇い入れることに苦慮している。今後、二社掛け持ちのワークスタイルを容認する企業がでてくるのか動向を注視する必要がある。 Waymoは今週、サンフランシスコで住民を乗せて自動運転車の走行試験を開始することを発表した。 これは「Waymo One Trusted Tester Program」と呼ばれ、自動運転車に関する住民の意見を把握することを目的とする。 特に、自動運転車が高齢者や非健常者の日常生活を支援できるかを検証することがプログラムの中心となる。 住民を乗せて走行試験この実証試験は、Waymoの自動運転車最新モデル「Jaguar I-PACE」で実施される(上の写真)。 クルマは自動運転技術「Waymo Driver」の最新版「5th Generation」を搭載している。 Waymoはアリゾナ州フェニックスで営業運転を展開しているが、サンフランシスコでは2021年2月から社員が乗客となり試験走行を進めている。 道路が整備されたフェニックスとは異なり、サンフランシスコでは市街地の込み合った道を安全に走行する技術が求められる。 検証のポイントクルマには専任スタッフ「Autonomous Specialist」が搭乗して試験走行が実施される。 このプログラムは自動運転車が住民の生活に如何に役立つかを検証する。 サンフランシスコはバスや路面電車の他に、UberやLyftなどライドシェアサービスが充実している。 この環境でWaymoの特性を把握し如何に差別化を図るかが問われる。 Waymoは高齢者や非健常者の足となることを想定しており、車いすや杖を使って生活する住人が自動運転車をどう評価するのかを解析する(下の写真)。 また市当局と共同で、Waymoが公共交通機関と連携して住民が移動しやすくする仕組みを構築する。 サンフランシスコでの世論調査Waymoはこれに先立ちサンフランシスコで自動運転車に関する住民の世論調査を実施した。 地域住民にクルマの運転や生活における移動方法などを訪ねたもので、地域の特性が明らかになった。 サンフランシスコにおける運転で困ることのトップは駐車場が少ないことで、また、公共交通機関がスケジュール通り運行していないことも課題となる。 また、サンフランシスコは高齢者や非健常者が多いことも特徴で(下のグラフ)、94,000人が移動手段で問題を抱えている。 試験走行エリアWaymoは試験走行エリアを示していないが、米国メディアはサンフランシスコのダウンタウンを除く部分としている。 ユニオンスクエアを中心とするダウンタウンはオフィスビルが立ち並びビジネス街や観光地となっている。 Waymoは、この地域は走行せず、住民が住んでいるサンフランシスコ西部と南部を中心に試験する。 因みに、曲がりくねったロンバード・ストリート(Lombard Street)は試験エリアに含まれていない。 Waymo Drive最新モデルWaymoはセンサーとしてLidar、カメラ、レーダーを搭載し(下の写真)、これをソフトウェアで解析し自動で走行する。 Waymo Driveの最新モデル5th Generationではセンサーの機能やパッケージングが改良された。 レーダーは「Imaging Radar System」と呼ばれ、カメラのように高解像度でオブジェクトを把握することができる。 また、Lidarやカメラは構造がシンプルになり製造コストを半分にすることに成功した。 これから自動運転技術が本格的に製造されるが、Waymo Driveの量産体制が整った。 高齢化社会と自動運転車サンフランシスコは、全米の中で自動運転車にとって最も高度な技術を必要とする都市となる。
ここで安全に走行できれば他の都市でも運行できることになる。 このため、Waymoの他に、GM/CruiseやAmazon/Zooxがサンフランシスコで自動運転車の開発を進めている。 自動運転車の出荷を目前に控え、Waymoは高齢者や非健常者の足として生活を支えるクルマとして商品化している。 日本を含め世界で高齢化が進む中で自動運転車の役割が重要になってきた。 米国の主要小売店舗でAI監視カメラの導入が進んでいる。 店舗に設置された監視カメラの映像をAIで解析し、商品窃盗者の身元を特定する目的で使われる。 消費者が気付かないうちに普及が進み、今ではApple Storeなど大手小売店舗がAI監視カメラを導入している。 しかし、人権保護団体は、AI監視カメラは消費者の誤認逮捕につながるとして、小売店舗に対しシステムの使用を停止するよう求めている。 老舗デパート・メイシーズ米国のデパートやスーパーマーケットでAI監視カメラの導入が進んでいる。老舗デパートであるMacy’sは、顔認識システムを導入していることを明らかにしている。 その理由として、犯罪組織が特定地域で商品窃盗を繰り返しており、これを抑止するためにAI監視カメラを利用すると説明している。 実際に、米国は昨年から治安が悪化しており、有名店舗で高級品を狙った窃盗事件が多発している。 アップルストアーAppleは何も公表していないが、Apple StoreはAI監視カメラを導入し、商品窃盗を防止していることが判明した。 Appleとそのセキュリティ企業 Security Industry Specialistsは、消費者から顔認識システムに関し訴訟を受けている。 訴状によると、Appleは顔認識システムで窃盗者を特定したが、これはアルゴリズムのエラーで、別の人物がその人物になりすまして犯行を実行したことが判明した。 このため、消費者は誤認逮捕されたとしてAppleなどを提訴している。この訴訟が切っ掛けでAppleがAI監視カメラを導入していることが明らかになった。 セブンイレブンなどこの他に、コンビニ 7-Elevenは、オーストラリアの全店舗でAI監視カメラを導入している。 また、ハンバーガーチェインのMcDonald’sは2019年、注文受付カウンターで顔認識システムのプロトタイプの運用を開始した。 現在、マクドナルドは監視カメラで店舗内の顧客を撮影し、セキュリティを強化している。 一方で、AI監視カメラを使用しないと表明する企業も少なくない。 Starbucksは顔認識システムを利用しないことを明言しており、顧客のプライバシーを保護する方針を維持している。 多くの店舗が顔認識システムを導入人権監視団体「Fight for the Future」は顔認識システムの利用状況をまとめ、これをデータベースとして公開している。 これによると、調査した53社のうち35社が顔認識システムを使っている。 消費者が気付かないうちに米国小売店で顔認識システムの普及が進み、全体の2/3がAI監視カメラを導入している。 現在、人権監視団体は小売店舗で顔認識システムの利用を停止するための活動を展開している。 反対する理由人権監視団体がこの運動を展開する理由は消費者や店舗従業員の保護にある。 顔認識アルゴリズムは判定精度が十分でなく、システムは間違った判定を下すことが少なくない。 このため、Apple Storeのケースのように、消費者が誤認逮捕されることになる。また、顔認識システムは消費者の挙動を収集するためにも使われる。 AI監視カメラで消費者の店内での挙動を把握し、この情報を元にターゲット広告を配信する。更に、AI監視カメラは小売店舗従業員の仕事ぶりを監視する目的で使われ、アルゴリズムが動きを逐一モニターする。 警察は顔認識システムの使用を中止顔認識システムの妥当性についての議論が始まり、全米の警察はその利用を禁止する方向に進んでいる。 サンフランシスコ市は、警察が顔認識技術を使うことを禁止した。これがトリガーとなり、対岸のオークランド市とバークレー市も顔認識技術の使用を禁止し、警察はこのシステムの使用を中止した。 この背後には政府がAIで市民を監視することへの漠然とした恐怖心があり、顔認識システム禁止の動きが全米に広がる勢いとなっている。 欧州と米国の動き消費者はAIに対する漠然とした恐怖から、顔認識システムに過剰に反応していることも事実である。
AI監視カメラを正しく使うと、犯罪を抑止し、地域のセキュリティが向上する。このため、欧州委員会(European Commission)は、AI監視カメラについてその使用を認めている。 但し、AI監視カメラで顔認識システムが稼働していることを明示することを義務付けており、消費者への配慮を求めている。 米国も同様な方向に進んでおり、警察での使用禁止とは対照的に、小売店舗や企業でAI監視カメラの導入が進んでいる。 |