オープンデータ提供における非個人情報化の法的論点:匿名加工情報等との区別と提供者の責任
はじめに
政府、自治体、企業などが保有するデータのオープン化は、新たな価値創出や社会課題解決に貢献するものとして推進されています。しかしながら、公開対象データに個人情報が含まれる場合や、他の情報と照合することで特定の個人を識別できる可能性がある場合には、個人情報保護法等の法令遵守が不可欠となります。特に、個人情報には該当しないものの、一定の加工が必要とされる「非個人情報」の提供は、その加工手法や範囲によって法的評価が分かれる複雑な論点を含んでおります。
本稿では、オープンデータ提供を検討する実務家である弁護士の皆様に向けて、データが個人情報保護法上の「個人情報」に該当しない「非個人情報」であることの判断基準、匿名加工情報や仮名加工情報といった個人情報保護法上の定義との区別、さらには非個人情報として提供されたデータの利用に伴うリスク、特に再識別リスクと提供者の法的責任について、関連法令や実務上の留意点を整理し解説いたします。
非個人情報とは何か:個人情報保護法上の定義との関係
オープンデータの文脈で「非個人情報」と称されるデータは、一般的に個人情報保護法第2条第1項に定義される「個人情報」に該当しない情報を指します。個人情報とは、「生存する個人に関する情報であって、当該情報に含まれる氏名、生年月日その他の記述等により特定の個人を識別することができるもの(他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む。)」をいいます。
したがって、非個人情報とは、単体では特定の個人を識別できない情報であり、かつ、他の情報と容易に照合しても特定の個人を識別することができない情報を意味します。オープンデータとして提供される多くの統計データや集計データ、あるいは特定の個人を識別できないように加工されたデータなどがこれに該当し得ます。
匿名加工情報・仮名加工情報との区別
個人情報保護法においては、個人情報から特定の個人を識別できないように加工された情報として、匿名加工情報(法第2条第6項)および仮名加工情報(法第2条第5項)が定義され、それぞれの取り扱いについて詳細な規律が設けられています。
- 匿名加工情報: 特定の個人を識別することができないように個人情報を加工して得られる個人に関する情報であって、当該個人情報を復元することができないようにしたもの。作成時には削除または置換等の加工義務が課され(法第43条)、利用時には本人を識別するための行為や、加工前の個人情報に関する情報の取得が禁止されます(法第44条)。オープンデータとしては、この匿名加工情報ガイドラインに沿って作成・公開されるケースが見られます。
- 仮名加工情報: 特定の個人を識別することができる情報(個人識別符号を除く)を削除または置換等することにより加工して得られる個人に関する情報。仮名加工情報は個人情報に含まれますが、利用目的の制限や漏えい等報告義務の緩和などの特則が適用されます(法第41条以下)。通常、オープンデータとして公開されることは稀であり、主に組織内部での分析等に利用されます。
これらに対し、「非個人情報」は、加工の有無に関わらず、もともと個人情報に該当しない情報、あるいは個人情報から加工された結果、匿名加工情報の要件(復元性の排除等)を満たさないが、かつ、他の情報と容易に照合しても特定の個人を識別できない状態になった情報を広く指す場合があります。例えば、極めて粗い粒度で集計された統計データや、多数の属性情報のうち特定の個人を識別しうる情報を完全に削除したデータなどが考えられます。重要な点は、非個人情報には、匿名加工情報のような個人情報保護法上の厳格な加工義務や利用制限は直接適用されないという点です。
非個人情報化技術の概要と法的評価
オープンデータとして提供されるデータが、意図せず個人情報となってしまう事態を避けるため、提供者は様々な「非個人情報化」のための技術的措置を講じることがあります。これらは厳密には匿名加工情報作成のための加工義務とは異なりますが、結果としてデータセットの再識別リスクを低減させる効果が期待できます。主な手法とその法的評価における留意点は以下の通りです。
- 集計・統計化: 個別のデータポイントをまとめ、全体の傾向を示す統計量(平均値、中央値、合計値、度数分布など)として提供する手法です。十分に大きな集計単位で加工されていれば、特定の個人を識別することは困難であり、通常は非個人情報と評価されます。ただし、特定の属性で絞り込んだ場合に集計対象が極めて少数になる場合(特異値が存在する場合など)は、個人を識別できる可能性があるため注意が必要です。
- 一般化・丸め込み: 属性値をより広いカテゴリーに集約したり、数値を特定の単位で丸めたりする手法です(例: 年齢を10歳刻みに、住所を市区町村レベルに、収入を特定のレンジに)。個別の情報が失われるため再識別リスクは低減しますが、他の情報との照合により個人を特定できる可能性が残る場合があり、慎重な評価が必要です。
- 削除: データセットから氏名、住所、電話番号などの直接的な識別子や、生年月日、特定の疾病名などのセンシティブな情報を完全に削除する手法です。ただし、他の属性情報(性別、年代、居住地域、特定の行動履歴など)の組み合わせによって個人が識別されうる場合(属性の組み合わせによる識別、いわゆる「リンケージ攻撃」のリスク)があるため、単に識別子を削除しただけでは非個人情報とは言い切れない場合があります。
- ノイズ付与: データに意図的にランダムな誤差(ノイズ)を加えることで、データの正確性をわずかに損なう代わりに再識別リスクを低減させる手法です。プライバシー保護に貢献する技術(Privacy-Preserving Technologies)の一つであり、特に差分プライバシーの概念に基づいた手法が注目されています。適切なノイズ付与によって特定の個人を識別できない状態になれば、非個人情報と評価され得ますが、ノイズのレベル設定とその効果の評価は専門的な知識を要します。
- k-匿名化、l-多様性、t-近接性: データセット内の特定の属性情報(準識別子)の組み合わせを持つ個人の数を一定数(k人)以上にする加工(k-匿名化)、特定のセンシティブ属性の値が多様であること(l-多様性)、または分布が偏っていないこと(t-近接性)を保証する加工手法です。これらの手法を用いることで再識別リスクを定量的に評価・低減できます。
これらの技術的手法によってデータが「非個人情報」と評価されるか否かは、提供しようとするデータセットの属性、他の情報との容易な照合可能性、および当時における技術水準等を総合的に考慮して判断されるべきです。特に、「他の情報と容易に照合」可能性は常に変動するものであり、公開されている他のオープンデータや名簿情報などとの照合によって個人が特定されるリスクを十分に検討する必要があります。
非個人情報として提供されたデータの再識別リスクと提供者の責任
オープンデータとして提供されたデータが、提供者の意図や評価に反して利用者の加工や他の情報との照合により特定の個人を識別可能となってしまうリスクはゼロではありません。このような場合に、データを提供した主体(行政機関、企業など)がどのような法的責任を負うかが問題となります。
- 提供者が適切な非個人情報化措置を講じた場合: 提供者が、当時の技術水準に照らし合わせ、提供するデータセットの内容や性質に応じて合理的な非個人情報化措置(統計化、一般化、削除、ノイズ付与、k-匿名化等)を講じ、データが単体で特定の個人を識別できないこと、および他の公開情報等と容易に照合しても個人を識別できないことを十分確認した上で「非個人情報」として提供した場合、後になって利用者が高度な技術や非公開情報を利用して個人を特定したとしても、提供者が直ちに法的責任を負う可能性は低いと考えられます。これは、提供者は「他の情報と容易に照合」可能性を判断すれば足りるためであり、困難な照合可能性まで責任を負うものではないからです。ただし、この「容易な照合」の範囲は解釈が分かれる可能性があります。
- 提供者が不適切な措置を講じた場合: 提供者が、個人情報が含まれている可能性があることを認識していたにもかかわらず、十分な非個人情報化措置を講じなかった場合、あるいは再識別リスクの評価を怠った結果、容易な照合によって個人が識別されてしまうデータを「非個人情報」として提供した場合、個人情報保護法違反(直接の個人情報としての取り扱い義務違反)や、特定された個人に対する不法行為責任(民法第709条)、行政機関の場合は国家賠償法に基づく責任(国家賠償法第1条)を問われる可能性があり得ます。この場合、過失の有無や損害の発生、因果関係等が具体的な争点となります。
また、利用規約による制限も重要な要素です。提供者が利用規約において、提供データを個人情報として利用することを禁止し、再識別行為を行わないことを利用者に求め、違反した場合の法的措置を明記している場合、利用者による再識別行為は利用規約違反となり、提供者の責任を軽減する要因となり得ます。しかし、提供者自身の非義務的なデータ提供における注意義務が完全に免除されるわけではありません。
実務上の留意点
弁護士がオープンデータ提供者または利用者にアドバイスする際には、以下の実務上の留意点を考慮することが重要です。
- 提供データの性質に応じたリスク評価: 提供しようとするデータセットが持つ属性情報の内容、粒度、更新頻度、他の公開情報との関連性などを詳細に分析し、再識別リスクを具体的に評価する必要があります。特定の地域、職業、疾患などに関するデータは、他の情報と組み合わせることで個人を特定しやすい傾向があります。
- 非個人情報化手法の適切な選択と実施: リスク評価の結果に基づき、最も効果的かつデータ有用性への影響が少ない非個人情報化手法を選択し、適切に実施することが求められます。専門的な技術的知見が必要となる場合が多く、データサイエンティストやセキュリティ専門家との連携も検討すべきです。
- 再識別リスクの継続的なモニタリング: 提供後も、新たな公開情報や技術動向によって再識別リスクが高まる可能性を考慮し、継続的にリスクをモニタリングする体制を構築することが望ましいです。
- 利用規約の明確化: 提供するデータが非個人情報であることを明確にし、利用規約において、個人を識別する目的での利用や、他の情報との照合による再識別行為を禁止する条項を明確に規定することが不可欠です。違反時の法的措置についても言及することが推奨されます。
- データガバナンス体制の構築: データの収集、加工、提供、利用の各段階における責任体制を明確にし、個人情報保護、セキュリティ確保、リスク管理に関する組織的なデータガバナンス体制を構築することが、提供者の信頼性を高め、法的リスクを低減する上で極めて重要となります。
結論
オープンデータ提供における「非個人情報化」は、データ活用推進とプライバシー保護のバランスを取る上で不可欠なプロセスですが、その法的評価はデータの内容や講じられた技術的措置、当時の技術水準等によって異なります。特に、個人情報保護法上の匿名加工情報や仮名加工情報とは異なる「非個人情報」の領域では、明確な法的基準が少ないため、提供者にはより高度なリスク評価と適切な非個人情報化措置の実施、および明確な利用規約の設定が求められます。
弁護士としては、オープンデータ提供者に対し、単に「個人情報ではない」という形式的な判断に留まらず、再識別リスクを技術的・法的に詳細に評価し、提供するデータの性質に応じた最適な非個人情報化手法を選択・実施すること、そして利用規約による適切な制限を行うことの重要性を助言する必要があります。利用者の側にも、提供されたデータが非個人情報として提供されている場合でも、その利用目的や他の情報との照合リスクを慎重に検討し、再識別行為を行わないよう規約遵守を徹底することを促すべきです。
今後、データ活用の高度化に伴い、非個人情報化に関する技術やその法的評価も進化していくことが予想されます。最新の技術動向や関連するガイドライン、判例などを継続的に注視し、実務に即した的確な法的助言を提供していくことが、弁護士に求められる役割であると考えます。