連結不能、非識別化とは何のことか(1)

以前からずっと議論はされてきているのですが、ここのところまた私の周りでは、「非識別化」だとか「匿名化」だとかといったことの意味を明らかにしようとする活動が活発化してきています。これは、今年の6月25日に総務省のパーソナルデータ利用・活用に関する研究会報告書が発表 (以後、総務省報告書と言及)されたことを契機にしています。

この報告書の中で特に注目されるのは、同報告書の33ページで、「米国のFTCが2012年3月、消費者データを収 集し利用する企業の行動枠組みについてまとめた報告書である「急速に変化す る時代における消費者プライバシーの保護」 (筆者注:以後、FTC報告書と言及)に見られるようなFTCにおける考え方等を踏まえ、次のような 条件をすべて満たす場合は、実質的個人識別性はないといえるため、保護され るパーソナルデータには当たらないとして、本人の同意を得なくても、利活用 を行うことが可能と整理できると考えられる」としたところです。これを総務省3要件と呼ぶことにします。以下のとおりです。

  1. 適切な匿名化措置を施していること。
  2. 匿名化したデータを再識別化しないことを約束・公表すること。
  3. 匿名化したデータを第三者に提供する場合は、提供先が再識別化をすることを契約で禁止すること。

この際、匿名化により非識別化されたデータと元の識別可能なデータ(連結可能匿名化における対応表を含む。)の双方を保持・使用する場合は、これらの データは別々に保管することとすべきである。

(出所)総務省 パーソナルデータの利用・活用に関する研究会報告書 P.33

総務省報告書でも言及していますが、これは属に「FTC3要件」と呼ばれるものに非常によく似ています。

FTCの3要件とは、当該企業が当該データについてFTC報告書が要求する保護方策を取らなくて良い、すなわち「特定の消費者、コンピュータや他のデバイスに合理的に連結可能(reasonably linkable)でないデータ」として取り扱うようにするためには、以下の3要件を満たすこととしたものです。

  1. 当該企業は、データを合理的に非識別化(de-identify)するための措置をとること。
  2. 当該企業は、そのデータを再識別化(re-identify)しないことを公に約束すること。
  3. 委託先・第三者にかかわらず、そのデータの移転を受ける者が再識別化することを当該企業は契約で禁止すること。

この際、非識別化されたデータと元の識別可能なデータの双方を保持・使用する場合は、これらの データは別々に保管することとすべきである。

(この3要件は、以前に出された報告書案に対するパブリックコメントで多く出された、「何をもってして特定の消費者やデバイスに合理的に連結可能 (reasonably linkable) でないと言えるのか明確でない」という批判に答えるために出されたものです。)

まず1つ目の要件についてですが、FTC報告書の、21ページ3行目からの段落2と3に解説があります。かいつまんで言うならば、何をもって合理的に非識別化したかと言えるかというかは、データの利用目的や、その時点で採用可能な技術などによってケース・バイ・ケースだと言っています。

次に2つ目の再識別化しないことを公に約束するというのは、もしも当該企業が再識別化を試みた場合 (takes steps to re-identify such data) FTC法第5条にもとづいて、FTCが刺しに行くことができるようにするためのものです。いわゆる、法執行力の確保のための条件です。これは、同報告書21ページ段落4に記述があります。

最後の3つ目の用件は、移転先での再識別化を防ぐための条項で、当該企業が非識別化したときに想定していなかった方法で、移転先で再識別化されることを防止するための条件です。これはどう報告書21ページ段落5に記述があります。そして、そこではこれと共に、違反が起きた時に適切な処置を取れるようにその遵守状況を合理的に監視することを求めています。このことは、この条件3を読んで解説を読まなかった人にはわかりません。ですので、以下で条件3を示すときにはこのことも加えて提示することにします。

一見して分かるように「非識別化」「再識別化」が非常に大きな役割を果たしています。したがって、その意味するところを正確に理解することが重要です。

Netflixの事例

FTC報告書では続く段落で、Netflixの事例についてのFTCの最終レターを使ってこれらについての解説を試みています。

この事例は、Netflix(全米最大のオンラインレンタルビデオ事業者)が「匿名化したと称する(purportedly anonimous)消費者データ」を公表しようとしたことに対してFTCが待ったをかけてやめさせたというものです。「匿名化したと称する」、つまり「匿名化できていない」=「非識別化できていない」事例とはどのようなものでしょうか?

この事例は2009年にNetflixが行おうとした、より良い映画リコメンデーション・アルゴリズムを作るためのコンテストに関してFTCが懸念を表明し、最終的に取りやめになったというものです。FTCの懸念は、Netflix社が2006年に行った同種のコンテストにまつわる研究に端を発しています。

2006年に行われたコンテスト(Prize 1)においては、リコメンデーション・アルゴリズムの改善のために、それぞれの映画に対して視聴者が行った評価と評価日を48万人分提供していました(Prize 1 データセット)。このデータセットは「匿名化」のために、視聴者の氏名を一意番号で置換え、住所・電話番号・その他の直接的識別子は取り除かれていました。

しかしながら、このコンテストの後、テキサス大学の研究者によって、僅かなデータを足すことによってその視聴者が誰か、その視聴者が一定の期間の間にどの映画に対して評価を行ったかを抽出することができるという研究成果を発表し、このことはマスコミ等にも取り上げられました。

にも関わらず、2009年にNetflixは、今度は視聴者の視聴履歴と好みの設定情報およびいくつかの人口統計データを使った「匿名データ」を使って同様のコンテストを行おうとしました。今回のデータセットは、2006年のものよりもより多くの情報が含まれるわけで、無視し得ない再識別化のリスクがあると考えられ、FTCの2009年11月のレターに結びつきました。(FTCは、「匿名化」や「非個人情報」という言葉を消費者向けに使う場合に特に注意するように事業者に促しています。)このレターでは、再識別化に対する懸念と、過去にNetflixが消費者に関する情報の提供に関して行った表明に鑑みて、FTC法第5条に関わる懸念を表明しています。

その結果、(1) Netflixはコンテストおよびデータの提供を中止、(2)当該データを今後提供する場合には、一部研究者に対してのみに特定の目的のみでとする、(3) その場合、当該データが再識別化されないよう契約で縛ると共に、運用上の手段を講じる、(4) その場合、事前にFTCに相談する、こととなり、事件は収束しました。

連結可能(Linkable)、非識別化、再識別化

これらのことから、以下の様なことがわかります。

A. あるデータが特定の消費者やデバイスに合理的に連結可能ではないとするためには、FTC3要件を満たさなければならない

これは、FTC3要件がその定義そのものですから明らか。

B. 名前他の識別子の他の識別子への置き換え(仮名化)は匿名化とは認められない

Netflix事例から、FTCは名前他の識別子の他の識別子への置き換えは匿名化とは認められないと考えていることから分かります。これは、この事例でNetflixが行った置き換えをFTCが「匿名化したと称する(purportedly anonymous)」と言っていることがわかります。「と称する(purportedly)」は、「してないでしょ」と言っているのです。私の上記の訳がソフトなのでピンと来ないかもしれませんが、別の訳を当てるとすると、「匿名化したと詐称した」とか「匿名化したか疑わしい」となります。もうお分かりですね。この処理は実は別の語があります。仮名化(pseudonymous)です。

C. 仮名化は合理的な非識別化としては認められない

Netflix事例では、Netflixはデータセットを仮名化していました。しかし、FTCは、それでは再識別化される恐れが強いからダメよと言いました。つまり、FTC3要件の1番目を満たしていない=合理的な非識別化ではない、としたのです。

D. 非識別化する主体は当該企業である

これは、FTC3要件の第1要件から明らかです。

E. 再識別化が禁止されるべき主体は当該企業および委託先を含むデータ提供先すべてである

これは、要件2,3から明らかです。

 

総務省3要件はFTC3要件の違い

さて、ここでもう一度総務省3要件とFTC3要件を見てみましょう。

総務省3要件

  1. 適切な匿名化措置を施していること。
  2. 匿名化したデータを再識別化しないことを約束・公表すること。
  3. 匿名化したデータを第三者に提供する場合は、提供先が再識別化をすることを契約で禁止すること。

この際、匿名化により非識別化されたデータと元の識別可能なデータ(連結可能匿名化における対応表を含む。)の双方を保持・使用する場合は、これらの データは別々に保管することとすべきである。

FTC3要件

あるデータセットが特定の消費者やデバイスに合理的に連結可能ではないとするためには、次の要件を満たすこと:

  1. 当該企業は、データを合理的に非識別化(de-identify)するための措置をとること。
  2. 当該企業は、そのデータを再識別化(re-identify)しないことを公に約束すること。
  3. 委託先・第三者にかかわらず、そのデータの移転を受ける者が再識別化することを当該企業は契約で禁止すると共に、違反が起きた時に適切な処置を取れるようにその遵守状況を合理的に監視すること。

この際、非識別化されたデータと元の識別可能なデータの双方を保持・使用する場合は、これらの データは別々に保管することとすべきである。

まず最初に言えるのは、両者とも非識別化に重点を置いているということです。総務省3要件では、匿名化処置としていますが、その下に「匿名化により非識別化された」としていますから、匿名化は非識別化の一手段であることがわかります。なので、要件1は「適切な非識別化を施していること」としても同じです。つまり、要件1は字面は違うけれども意味するところは同じだということだろうということです。ただし、FTC報告書と、総務省報告書の言う「非識別化」にズレが無いかは今後確認していく必要があります。一方、FTCの方は「匿名化」という言葉が曖昧かつ間違って使われることが多いことを鑑みてか、「匿名化」という言葉を避けています。これはある意味賢いと言えると思います。

要件2は字面は似ていますが、効果は異なると思われます。総務省要件2は、それがあったとしても総務省が事業者に対して法執行するということは想定されていないと思われます。これに対して、FTC要件2は、FTCが法的執行力を確保するために入れてある要件です。したがって、FTC要件2の方がかなり効果が強いと言えると思います。

要件3もFTCの方が大幅に強いです。FTC報告書の要件3のいわば見出しの文面「そのデータの移 転を受ける者が再識別化することを契約で禁止する 」のみを読むと総務省要件3に等しいように思われますが、FTC要件3には後半の合理的監視と処置が入っています。

これらのことから、総務省3要件は、FTC3要件に比べてかなりゆるい、事業者にやさしい要件だと言えると思われます。

次回は…

大分長くなりました。今回は、FTCの言う合理的に連結不能ということを少し詳しく見てみました。次回は、その目的語たる「特定の消費者やコンピュータ、デバイス」について少し考えてみようと思います。


@_Nat Zoneをもっと見る

購読すると最新の投稿がメールで送信されます。

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください