Amazon の顔認識は米国と英国の政治家 105 名と警察の顔写真を誤って照合しますが、精度の主張は信頼できますか?

2018 年 7 月、アメリカ自由人権協会は テスト Amazon の顔認識ツール「Rekognition」を使用して、米国議会議員の写真と犯罪で逮捕された人々の顔写真を照合します。 ACLUは28件の誤った一致を発見し、全国の法執行機関に売り込まれている顔認識技術の欠点を浮き彫りにした。
それで、少しは良くなりましたか?
私たちの最新の実験によれば、それほど多くはありません。
顔認識が向上しているかどうか、またどの程度の速さで向上しているかに興味を持ったコンパリテックは、ほぼ 2 年後に同様の調査を実施することを決定しました。英国の政治家も加え、議員数は合計1,959人となった。
結果
私たちは結果を米国と英国の政治家で分けました。しかし、結果について議論する前に、まずこれらすべてのテストの中心となる信頼度のしきい値を確認しましょう。
信頼度の閾値
Amazon の Rekognition で 2 つの画像を比較する場合、単に「はい」または「いいえ」の答えが返されるわけではありません。代わりに、結果はパーセンテージで表示されます。パーセンテージが高いほど、Rekognition は 2 つの画像が同一人物のものであると確信します。
ACLU は、信頼度のしきい値を 80% に設定する Rekognition のデフォルト設定を使用しました。
アマゾンは、基準が低すぎるとしてACLUの調査結果を非難した。アマゾンの広報担当者 GCNに語った 法執行の目的では、少なくとも 95% に設定する必要があります。 ブログ投稿 アマゾン ウェブ サービスの Web サイトでは、99 パーセントである必要があると記載されています。ただし、 ギズモードによるレポート これらのしきい値を設定するのは警察の裁量に任されており、警察は常に Amazon の推奨事項を使用するとは限らないことがわかりました。
信頼度のしきい値を上げると、必然的に偽陽性 (異なる人物の 2 枚の写真が誤って一致する) が減りますが、偽陰性 (同じ人物の 2 枚の写真が一致しない) も増えます。残念ながら、この実験では後者を測定することはできません。それについては後で詳しく説明します。
私たちは ACLU と Amazon の両方にコメントを求めました。記録に関する返答が得られたらこの記事を更新します。
私たち
米国のデータセットは、430 人の下院議員と 100 人の上院議員の写真で構成されていました。
80% の信頼しきい値では、認識は米国下院議員 32 人の平均と誤って一致しました逮捕データベースのマグショットに。これはACLUが2年前に行った実験よりも4件多い。
これらの基準に照らしてみると、Amazon の顔認識は改善されておらず、ACLU が 2 年前に主張したものよりもパフォーマンスが悪化していることさえあります。
ただし、Amazon が法執行機関に推奨する基準値まで引き上げると、95% 以上の信頼度で不正確な一致は見つかりませんでした。ACLU は 2018 年にこの基準値での結果を提供していなかったので、比較できる以前の結果はありません。
イギリス
私たちの英国のデータセットは、国会議員 632 名と貴族院議員 797 名の計 1,429 名の政治家で構成されています。私たちは彼らを米国の政治家と同じ逮捕写真と照合した。
Rekognition は、80% の信頼しきい値で、逮捕データベースの顔写真に対して平均 73 人の政治家を誤認しました。
少なくともRekognitionによれば、英国の政治家(5%)の誤検知率は米国の政治家(13%)よりも低かった。これは、英国の政治家が米国の政治家とはかなり異なって見えることを示唆している可能性がある。
信頼度のしきい値を 95% に上げたところ、不正確な一致はなくなりました。
人種的偏見
ACLUは、アマゾンの顔認識技術は80パーセントの信頼閾値で人種的に偏っており、白人よりも非白人を誤認する割合が高いと主張した。
私たちの結果はこの発見を裏付けています。 90パーセント以上の信頼度閾値で誤認された12人の政治家のうち、6人は白人ではなかった(この記事の冒頭の画像に示されているように)。これは、非白人が米国議会の約5分の1、英国議会の約10分の1しか占めていないにもかかわらず、誤認された人々の半数が有色人種であったことを意味する。
方法論
公開されている米国下院議員 430 名、米国上院議員 100 名、英国議会議員 632 名、貴族院議員 797 名の写真を使用しました。
これらは、Amazon Rekognition を使用して、Jailbase.com からランダムに選択された 25,000 枚の逮捕写真の 4 セットと照合されました。実験はセットごとに 1 回繰り返され、結果は平均化されました。 ACLU は検査データを公開していないため、まったく同じ逮捕写真データベースを使用することはできませんでした。
場合によっては、複数の顔写真に対して 1 人の政治家が複数回誤認されたこともあります。これは 1 回の誤検知としてカウントされます。
このスプレッドシート 70% 以上の信頼度で一致したすべての政治家、その写真、および Rekognition が一致した信頼度が含まれています。
顔認識の精度統計を信用してはいけない理由
顔認識に投資している企業が、顔認識がどの程度うまく機能するかという指標を宣伝するときは、常に懐疑的になってください。統計は不透明であることが多く、時にはまったく誤解を招くこともあります。
以下は、顔認識の精度に関する統計がどのように歪められるかの例です。英国のメトロポリタン警察は、自社の顔認識技術が間違いを犯すのは1,000件に1件のみだと主張した。彼らは、不正確な一致の数を顔をスキャンされた人の総数で割ることによってこの数字に達しました。これにより、真の陰性 (まったく一致しなかった大部分の画像) が含まれるため、精度評価が膨らみます。
対照的に、エセックス大学の独立研究者らは、このテクノロジーが エラー率は 81% 不正確な一致の数を報告された一致の総数で割ったとき。大学の報告書は、真陰性を無視し、報告された一致が正しい率に焦点を当て、ほとんどの人が正確性を合理的に判断する方法とはるかに一致しています。
後で 報告 ロンドン警視庁がライブ顔認識を使用し、同意なしに8,600人の顔をスキャンしていたことを発見した。結果はエセックス大学の調査結果と一致しており、1 件の正しい一致が逮捕につながり、7 件の誤検知があった。
偽陰性
さらにまれに報告されるのは、偽陰性の率です。一致するはずの同じ人物の 2 つの画像が一致しませんでした。実際のこのエラーの仮説的な例としては、空港にある顔認識機能を備えたカメラが、認識すべき人物を認識したときに警告を発し損なうことがあります。偽陰性の別の形式は、画像内に顔が存在することをまったく認識できないことです。
偽陰性の率を測定するには、顔写真データベースに、政治家の本物ではあるが同一ではない写真を入力する必要があります。私たちの目的は ACLU のテストを再現することであったため、これは実験の範囲を超えていました。
現実世界のユースケース
比較しているもの、つまり 2 セットの顔写真についても考えてみましょう。 1 つは警察の顔写真、もう 1 つは加工されたポートレートが含まれていますが、どちらもカメラに向かって目の高さで各人の顔がはっきりと表示されています。
現実世界のユースケースは大きく異なります。 CCTV監視を例に考えてみましょう。警察は交差点で顔をスキャンし、犯罪者の顔写真データベースと照合したいと考えています。このような現実世界の環境で顔認識がどの程度うまく機能するかについての主張をさらに曖昧にするいくつかの要因を次に示します。
- カメラと被写体の距離はどれくらいですか?
- カメラは被写体にどの角度を向けていますか?
- 被写体はどの方向を向いていますか?
- 被写体は他の人、物体、天候によって隠れていませんか?
- 対象者は化粧をしていますか、帽子をかぶっていますか、眼鏡をかけていますか、それとも最近剃ったのでしょうか?
- カメラとレンズはどれくらい良いですか?きれいですか?
- 被写体の移動速度はどれくらいですか?ぼやけていませんか?
これらすべての要因やその他の要因が、顔認識の精度とパフォーマンスに影響を与えます。利用可能な最も高度な顔認識ソフトウェアでも、低品質または不鮮明な画像を補うことはできません。
顔認証を過度に信頼すると、誤認逮捕につながる可能性があります。たとえば、2019 年 4 月、学生が Apple の訴訟を受けて訴訟を起こした。 顔認識ソフトウェアは彼を盗難に誤って関連付けた いくつかのアップルストアでの行為が逮捕につながった。
80% より高いしきい値を使用すると、確実に結果が向上します。しかし、警察による顔認識の使用に同意するかどうかに関係なく、1 つ確かなことは、顔認識は人間の監視なしでは身元確認に使用できる状態ではないということです。 Amazon はブログ投稿で次のように述べています。「現実世界の公安や法執行機関のシナリオでは、Amazon Rekognition はほぼ専ら、分野を絞り込み、人間が自らの判断でオプションを迅速にレビューおよび検討できるようにするために使用されます (完全に自律的な意思決定を行うためではありません) )。」