生成型 AI のプライバシー リスク
OpenAI が昨年末に画期的なチャットボットである ChatGPT を発表して以来、生成 AI が注目を集めています。ユーザーはテキスト プロンプトを使用して、ChatGPT にエッセイ、詩、コードを作成し、画像やビデオを作成し、ほぼすべての質問に答えるように指示できます。
ChatGPT にプロンプトを送信するのは楽しいかもしれませんが、この新しいテクノロジーにはプライバシーに関する多くの懸念が伴います。それがこの記事で見ていきたいことです。生成 AI の概要と、そのプライバシーへの影響について詳しく説明します。
生成 AI はどのように機能するのでしょうか?
生成 AI モデルなど チャットGPT 、大規模な言語モデルに基づいて構築されています。大規模言語モデル (LLM) には、膨大な量のデータがテキストとして供給されます。そのデータから、テキストベースのプロンプトに対して自然で信頼できる応答を生成する方法を学びます。
LLM は、人間が生成したテキストの大規模なリポジトリ内のトークンの統計的分布の数学的モデルを作成します。このコンテキストでは、トークンは単語、単語の一部、または句読点を含む個々の文字になります。したがって、たとえば、「初代アメリカ大統領は…」とモデルにクエリを実行し、「ジョージ ワシントン」と応答した場合、それはアメリカの歴史やジョージ ワシントンについて何かを「知っている」ことを意味しません。これが意味するのは、あなたの質問が「英語テキストの膨大な公開コーパス内の単語の統計的分布を考慮すると、次の順序に続く可能性が最も高い単語はどれですか?」と解釈したということです。出てくると、その言葉は「ジョージ・ワシントン」です。
したがって、LLM は非常に強力であり、その応答は非常に自然で信頼できるものであるため、チャットボットの応答と本物の人間の応答を区別するのは困難です。実際、Google 独自の LLM、LaMDA (対話アプリケーションの言語モデル) は、昨年、Google のエンジニアが主張して話題になりました。 LaMDAは知覚力を獲得した 。この主張をしたのは素人ではなく、熟練の技術者でした。 Googleは最終的にこの主張を却下し、残念ながらそのエンジニアを解雇した。しかし、このことは、LLM が人間の音声を模倣することにいかに優れているかを浮き彫りにします。
生成 AI モデルはスレッドベースであり、過去のステートメントや会話を参照して構築することができます。ユーザーはボットとの以前の会話を参照することができ、人間と同じように、ボットはあなたが話していることをすぐに理解し、議論を進めます。そのため、単純な質問と回答のゲームをプレイする以上のことを行うことができます。これらの AI モデルは、フォローアップの質問に答え、誤った前提に異議を唱え、間違いを認め、不適切な要求を拒否することができるため、説得力がさらに高まります。
あなたのこれまでの発言は、生成 AI モデルの応答を継続的に知らせています。会話が進化するにつれて、チャットボットも進化します。チャットボットを使用することは、チャットボットをトレーニングすることになります。そしてそれは、このテクノロジーのプライバシーへの影響につながります。
強力な検索エンジン
多くの点で、生成 AI チャットボットは検索エンジンに似ています。クエリを入力すると処理され、出力が生成されます。チャットボットによって生成される出力は、通常の検索エンジンの URL リストとはかなり異なる場合がありますが、プロセスは似ています。データ収集も同様です。
おそらくすでにご存じかと思いますが、Google や Bing などの検索エンジンはクエリを保存し、アルゴリズムで処理してあなたに関する情報をできるだけ多く抽出し、それをあなたについて構築するプロフィールに追加します。それは十分な理由です アヒルダックゴを使用する 私の本にも書いてありますが、重要なのは、AI チャットボットがすべてのクエリを記録し、通常の検索エンジンと同様にユーザーに関する資料を作成する可能性があるということです。 Google の Bard がこれを行います。で ブログ投稿 , OpenAI (ChatGPT) は、収集したデータからユーザープロファイルを構築していないと主張しました。
ただし、生成 AI チャットボットの性質とその機能により、ユーザーがチャットボットに供給するデータは、検索エンジンに提供されるデータとは大きく異なる場合もあります。たとえば、この記事全体をコピーしてチャットボットの UI に貼り付け、文字数を減らすために書き直すように指示できます。そしてそれは数秒で完了しますが、成功の程度はさまざまです。この例は、チャットボットと従来の検索エンジンに供給されるデータの膨大な量の違いを強調しています。そして、より多くのデータがより多くの洞察を生み出すことを考えると、チャットボットは検索エンジンよりも多くのデータを取り込み、あなたについてより多くのことを学習できる可能性が高くなります。
無意識に鍛えてしまっている可能性があります
たとえあなたが生成 AI をまったく使用したことがなかったとしても、それでも使用されたことがあるかもしれません。
先ほど述べたように、生成 AI モデルにはトレーニング中に膨大な量のテキスト データ (ペタバイト単位と考えてください) が供給されます。しかし、このようなデータはどこから来たのでしょうか?そのかなりの部分、場合によっては大部分が、取得元のサードパーティのサイトの認識や同意なしにインターネットから収集されます。
生成 AI モデルは、公開ソーシャル メディア プロフィール、個人 Web サイト、公的記録、さらには EU の忘れられる権利に基づいて検索エンジンの結果から削除された記事からデータを収集できます。この情報は技術的には公開されていますが、AI テクノロジーにより、意図的または偶発的にそのようなデータへのアクセスがはるかに簡単になり、プライバシー侵害の新たな道が開かれます。
データをスクレイピングして AI のコーパスに追加することは違反です 文脈上の整合性 。言い換えれば、個人情報は、収集された本来のコンテキストや目的の外にさらされます。誰かが ChatGPT または別の生成 AI に「マディソン街に住んでいるのは誰ですか?」と尋ねることは想像に難くありません。そして応答として名前と住所の完全なリストを取得します。はい、情報は公開されている可能性がありますが、AI のコーパスの一部となることは決して意図されていませんでした。
過剰共有
次に、従業員が昨日の会議メモを要約するのにチャットボットが役立つと判断した場合に何が起こるかを考えてみましょう。まあ、チャットボットはおそらく会議メモを要約するのに成功するでしょう。しかし、その過程で機密の企業秘密が取り込まれた可能性は十分にあります。これもプライバシーのリスクです。
チャットボットは、大量のデータをフィードするよう誘います。これも、通常検索エンジンに提供するデータよりもはるかに大きいものです。そのため、検索エンジンに何を提供したかよりも、チャットボットに何を提供したかを追跡することがはるかに困難になります。私たちはこれを認識し、過剰な共有を控える人々の能力に頼らなければなりません。そして、それがうまくいく確率は、まあ、かなり低いです。
何故ですか?少なくとも、その理由の一部は、非常に複雑なエッジテクノロジーが、それがどのように機能するかを明らかに理解していない素人の手にますます委ねられていることにあると私は信じています。これは誰かの知性に対する侮辱ではありません。これ以外の方法はありません。過去のテクノロジーとは異なり、人々がそれを包括的に理解するにはあまりにも複雑なテクノロジーです。
そのため、データが取り込まれた後はどうなるのかという疑問が生じます。これがブラックボックス問題です。
ブラックボックスに吸い込まれていく
AI には、いくつかの異なる理由から「ブラック ボックス」問題があります。この問題は、AI モデルの「内部」で何が起こっているのかを完全には理解していないために発生します。しかし、これらのチャットボットが私たちのデータを収集していることはわかっていても、そのテクノロジーを支えている企業がそのデータをどのように使用しているかが明確ではないために、この問題が発生することもあります。彼らのプライバシー ポリシーは法律用語で書かれていることが多く、「場合によっては」、「場合によっては」などの表現を使用するなど、非常に曖昧です。
最初のブラック ボックスの問題 (AI の内部で何が起こっているのか) は、AI モデルのトレーニング方法が原因で発生します。深層学習では、複数の隠れ層とノードを備えた大規模な人工ニューラル ネットワークが使用されます。各ノードは入力を処理し、出力を次のノード層に転送します。そのプロセスを通じて、AI モデルは何百万ものデータ ポイントを取り込み、それらのデータ ポイント内の相関関係を特定して出力を生成します。
そのプロセス (入力から出力まで) はボックス内で発生し、主に自己主導型です。つまり、マシンはほぼ自動的にトレーニングします。したがって、何が起こっているのかをユーザーが理解するのは明らかに困難です。繰り返しになりますが、プログラマーやデータ サイエンティストでも、ボックス内で何が起こっているかを解釈するのは困難です。私たちは皆知っています何か起こっているが、我々は何も見通していない何起こっているので、ブラックボックスという言葉が生まれました。
2 番目のブラックボックス問題は、データ収集/プライバシー ポリシーの問題です。まずは、OpenAI のプライバシー ポリシーのスクリーンショットをご覧ください。
これを読むと、OpenAI が大量のデータを収集していることがわかります。しかしそれを超えると、答えよりも多くの疑問が残ります。データはどのくらいの期間保存されますか? 「研究を行う」とは何を意味するのでしょうか? 「エクスペリエンスを向上させる」とはどういう意味ですか?
プライバシー ポリシーのさらに下の方に、次のような記述があります。
「上記のように、当社は、ChatGPT を強化するモデルをトレーニングするなど、当社のサービスを改善するために、お客様から提供されたコンテンツを使用する場合があります。モデルをトレーニングするためのコンテンツの使用をオプトアウトする方法については、こちらをご覧ください。」
AI を使用するたびに、AI をトレーニングすることになります。 OpenAI は、モデルのトレーニングに使用されるデータをオプトアウトする手順を提供しますが、収集がオフになるわけではありません。つまり、これは本質的に、OpenAI がトレーニングにデータを使用しないことを「約束」しているだけです。しかし、データはまだ収集されているため、データがトレーニングに使用されたかどうかをどうやって知ることができるのでしょうか?簡単に言うと、決して分かりません。それはブラックボックスの中での生活です。
上記の点を踏まえて、たとえば医療の分野で AI が使用されるとどうなるでしょうか? AI が社会により良い医療成果をもたらす可能性があることは疑いの余地がありません。新しい薬を生産するためにさまざまな分子の研究を行うことができます。これは患者の診断に役立ち、多くの状態を非常に初期段階で検出して治療を容易にする可能性があります。そしてリストは続きます。
しかし、上記のブラックボックスの問題を考慮すると、AI が医療データを取り込んだらどうなるでしょうか?誰が所有していますか?共有されるのでしょうか?もしそうなら、誰と、なぜ?それは保険会社と共有され、補償の喪失につながる可能性がありますか?あなたの推測は私の推測と同じくらい当てはまります。
感情分析
10 年近く前、わずか数個のデータ ポイント (通常はわずか 4 個) でオンラインで個人を一意に識別することがいかに簡単であるかについて多くのニュース記事が書かれたことを覚えていますか?以下はそのような物語の 1 つです。 ニューヨーク・タイムズ 。それは当然のことながら怖くて不気味でした。特にプライバシーを重視する人々にとっては。
AI は感情分析でさらにリスクを高めました。
感情分析 (意見マイニング) とは、人間の感情をポジティブ、ニュートラル、またはネガティブに解釈して分類する AI の能力を指します。これは、顧客サービスのコールセンターではすでに普及しており、生成型 AI チャットボットが顧客の発言を分析し、顧客の発言を肯定的、中立的、または否定的に分類して、会話で取るべき次のステップを通知します。表向きの目標は、製品をアップセルし、ブランドロイヤルティを促進することです。しかし重要なのは、企業は今後、AIによる音声分析に基づいて私たちの感情のプロファイルを構築するようになるということです。
楽しいですよね?
AI がフィッシングを行うとき
生成型 AI の出現に伴うもう 1 つのプライバシーの脅威は、その兵器化です (もちろん、それは起こる予定でした。ここでは驚くしかありません)。ディープフェイク、音声クローン、自然音声エミュレーションの驚異的な能力により、 フィッシング詐欺 ちょうど腕に大きな銃撃を受けました。
疑わしい電子メールやテキスト メッセージを読んで、スペルや文法の間違いを探すという古き良きテクニックを覚えていますか?それでは先に進むことができないかもしれません。生成型 AI チャットボットは、親しい友人の 1 人から送信されたように見える偽のメッセージを作成する可能性があります。毎回ドッペルゲンガー状態に達するわけではないかもしれません。しかし、フィッシングは数字勝負になる可能性があり、AI によってバランスが攻撃者に有利に傾く可能性は十分にあります。
疑うことを知らない人々が、音声クローンの親族から緊急にお金を要求され、だまされたという話をすでに聞いています。生成 AI の民主化により、この種の攻撃はますます蔓延し、成功するようになるでしょう。生成 AI は詐欺師志望のハードルを下げ、より知識のあるハッカーが他の方法では不可能だった攻撃を実行できるようになる可能性があります。恐ろしいことです。
もちろん、これはいたちごっこなので、最終的には防衛力が追いつきます。しかし、それでゲームが終わるわけではありません。それはエスカレートするだけです。攻撃者は、防御側が再び追いつくまで、防御側を回避する方法を考え出します。まさに、素晴らしい新世界。
正しい質問をする
「生成型 AI チャットボットからプライバシーを守る方法」というタイトルのセクションを設けたいのですが、残念ながら 1 行しか含まれていないと思います。
使用しないでください。
しかし、上で述べたように、たとえあなたがそれを使用しなくても、AI はあなたを使用する可能性があります。そして今回、私が言いたいのは、生成型 AI チャットボットと直接対話しなくても、AI 主導の攻撃の被害者になる可能性があるということです。そして、正直に言うと、ほとんどの人が AI を使用することになります。その代わりに、「AI を使用する際にプライバシーを保護する方法」という見出しの下にヒントのリストを実際に作成することはできませんが、生成 AI ボットを推進するテクノロジー企業が答えるべき質問のリストをここに示します。
あなたがプライバシーを重視している人であれば、AI と対話する前にこれらの質問に対する答えを得て、自分が何に巻き込まれているのかを理解する必要があります。
AI モデルは、(AI モデルの) トレーニング目的でユーザー データ (クエリ、プロンプト、改良命令、生成された出力) を処理および保存しますか?
生成 AI 企業は、ユーザー データを処理および保存しているかどうか、また、保存している場合はそのデータがモデルをさらにトレーニングするために使用されているかどうかを明確に開示する必要があります。
AI モデルのトレーニングに使用されるデータをオプトイン/オプトアウトできますか?
可能であれば、ベンダーの AI モデルのトレーニングにデータが使用されることを必ずオプトアウトしてください。それが不可能な場合は、提供するトレーニング データがモデル/出力を微調整するためにのみ使用されるようにしてください。上記のことができない場合は、チャットボットと対話しないことをお勧めします。
ベンダーがトレーニング データと検証データを保管する場合、どのくらいの期間保管されますか?
データが安全に保存され (保存中および転送中に暗号化され)、サブスクリプション、API 認証情報、支払い情報から隔離されていることを保証したいと考えています。
ベンダーがトレーニング データと検証データを保存している場合、それを削除できますか?
共有するデータは自分で管理し、不要になったら削除してください。
ベンダーはあなたのデータを第三者と共有しますか?
データの共有が増えるほど、データを制御できなくなります。また、多くのプロバイダーは共有前にデータを「匿名化」しますが、おそらくそれだけでは十分ではありません (上記のニューヨーク タイムズの記事を参照)。データが共有されている場合は、プロンプトを入力する前によく考えてください。
ベンダーの従業員の中であなたのデータにアクセスできるのは誰ですか?
許可された従業員のみがデータにアクセスできるようにし、その従業員がごく少数であることを確認してください。
プロバイダーは、データの収集と保存をオプトアウトすることを許可していますか?
これが個人ユーザーに提供される可能性は低いですが、生成 AI ベンダーは、活動に機密データ、機密データ、または法的に規制されているデータの処理が含まれる場合、一部の組織がデータ収集を完全にオプトアウトできるようにする可能性があります。
これは違いを生む可能性があります。
オプトアウトが可能でベンダーによって承認されている場合は、データが収集されていないことを明示的に確認してください。それを超えると、何が収集されたかどうかがまったく分からないため、最終的には信頼が重要になります。
まとめ
これで完了です。生成 AI の使用によるプライバシーへの影響は、たとえば Google の検索エンジンの使用ほど明確ではありません。まず、Google 検索はずっと前から存在しており、私たちは Google の仕組みについてある程度の洞察を持っています (それが美しいというわけではありません…)。逆に、生成 AI が実際に私たちの生活に登場してから数か月しか経っていないため、未知のことがまだたくさんあります。しかし、プライバシーのリスクは現実のものであり、おそらくこれまでに経験したものよりもさらに深刻です。
どの害が現実のもので、どの害が想像上のものであるかは、時間が経てば分かると思います。しかしそれまでは、慎重に行動したほうが賢明かもしれません。より多くの光が当たるまで、このテクノロジーには近づかないことをお勧めします。ただし、どうしても使用しなければならない場合は、共有する内容は控えめにするようにしてください。
おげんきで。