再識別リスクを回避するオープンデータの法的措置と倫理的配慮
はじめに
近年、政府、自治体、企業等による公共データや事業データのオープン化が進展しております。オープンデータは、新たなビジネスやサービス創出、行政の透明性向上、研究開発の促進など、社会経済の活性化に多大な貢献をもたらす可能性を秘めています。一方で、オープンデータとして公開される情報が、個人情報やプライバシーに関わる情報を含んでいる場合、適切な措置を講じなければ、意図せず個人が特定されてしまう「再識別リスク」を生じさせる可能性があります。
この再識別リスクへの対応は、オープンデータ提供者にとって法的義務および倫理的責任の問題であり、またデータを利活用する側にとっても、利用範囲や方法に関する法的・倫理的判断が求められる重要な課題です。本稿では、オープンデータにおける再識別リスクに関連する法的措置、特にマスキングや匿名化に関する法規制の解釈、および倫理的な配慮について、弁護士の実務に役立つ情報を提供することを目的といたします。
オープンデータにおける再識別リスクとその法的・倫理的位置づけ
オープンデータとして公開されるデータセットには、個々の情報自体は特定の個人を直接識別できるものではないものの、他の公開情報や容易に入手可能な情報と照合・連結することで、個人が特定され得るものが含まれることがあります。これが「再識別リスク」です。
例えば、特定の地域における年齢層別の統計データであっても、その地域に居住する特定の年齢層の人数が極めて少ない場合、その統計データが特定の個人に関する情報を示唆する可能性があります。また、複数の匿名化されたデータセットを組み合わせることで、個人の行動パターンや属性が高精度に推測されてしまう事例も報告されています。
法的にこの問題が重要となるのは、再識別された情報が個人情報保護法における「個人情報」に該当し得るためです。個人情報保護法では、「個人情報」を「生存する個人に関する情報であって、当該情報に含まれる氏名、生年月日その他の記述等により特定の個人を識別することができるもの(他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなるものを含む。)をいう。」と定義しています(個人情報保護法第2条第1項)。この定義にある「他の情報と容易に照合することができ」るかどうかが、再識別の可能性と個人情報該当性の判断において重要な論点となります。
再識別リスクへの不十分な対応は、個人情報保護法違反だけでなく、プライバシー権侵害に基づく損害賠償請求のリスクにも繋がります。また、法令遵守の観点だけでなく、市民やデータ主体からの信頼を得るための倫理的な配慮も不可欠です。
オープンデータ提供における法的要求事項:マスキング・匿名化を巡る諸法規
オープンデータとして個人情報を含む可能性のあるデータを公開する場合、提供者は様々な法規制を遵守する必要があります。中心となるのは個人情報保護法ですが、行政機関や自治体が提供するデータについては、行政機関個人情報保護法(※現行法では個人情報保護法に統合)や地方公共団体の条例も関連します。また、統計データについては統計法も考慮に入れる必要があります。
個人情報保護法における匿名加工情報・仮名加工情報・統計情報等
オープンデータ提供に際し、個人情報を含む可能性があるデータをそのまま公開することは原則として許容されません。個人情報保護法に基づき、適切な加工を施すことが求められます。関連する概念として、匿名加工情報、仮名加工情報、そして個人情報に該当しない統計情報等があります。
- 匿名加工情報(個人情報保護法第2条第9項): 特定の個人を識別することができないように個人情報を加工し、かつ、当該個人情報を復元することができないようにした情報です。オープンデータとして公開する際に最も望ましい形態の一つとされています。匿名加工情報を作成する際には、特定の個人を識別することができる記述等の削除、個人識別符号の削除、特異な記述等の削除などの加工基準に従う必要があります(個人情報保護法第36条)。作成方法、提供方法、安全管理措置等についても詳細な規定が存在します。
- 仮名加工情報(個人情報保護法第2条第5項): 特定の個人を識別することができる情報(他の情報と照合しない限り特定の個人を識別することができないものに限る)を削除または置き換える等の加工を施して作成される個人に関する情報です。仮名加工情報は、個人情報と異なり、利用目的の変更が比較的容易である等のメリットがありますが、そのままオープンデータとして第三者に提供することは通常想定されていません。データ分析等の内部利用を主眼とした概念であり、オープンデータ提供の文脈では匿名加工情報への更なる加工が必要となる場合が多いでしょう。
- 統計情報: 複数の個人情報や仮名加工情報等を集計して得られる、個人の情報を含まない情報です。例えば、「〇〇市△△地区の40代男性の平均年収」のような情報です。統計情報は特定の個人を識別することができないため、原則として個人情報保護法の規制は及びません。オープンデータとして提供されるデータの多くはこの形態をとります。ただし、前述の通り、構成人数が極めて少ないなど特異な集計結果は、他の情報との照合により特定の個人を推測させてしまうリスクがあり、統計情報として扱うことができるか慎重な検討が必要です。
行政機関・地方公共団体における取り扱い
行政機関が保有する個人情報を含むオープンデータについては、個人情報保護法の規定に従う必要があります。法改正により、独立行政法人等を含む行政機関の個人情報保護についても個人情報保護法に統合され、基本的な考え方は民間事業者等と同様になりました。ただし、行政機関の情報公開制度との関係も考慮が必要です。
地方公共団体が保有するオープンデータについては、個人情報保護法に加え、各自治体の個人情報保護条例が適用されます。条例の内容は自治体によって異なりますが、多くの場合、個人情報保護法と同等またはそれ以上の厳しい規律を定めています。公共データのオープン化に関する条例を定めている自治体もあり、これらの条例における匿名化やマスキングに関する規定も確認する必要があります。
統計法との関連
国の行う統計調査によって集められたデータについては統計法が適用されます。統計法に基づき提供される匿名データ(匿名調査票情報、匿名加工情報等)は、統計作成以外の目的での利用が厳しく制限されており、一般的なオープンデータとしての提供とは性質が異なります。しかし、統計法における匿名化の考え方や安全確保措置に関する規定は、他のオープンデータにおける匿名化を検討する上で参考となり得ます。
マスキング・匿名化の手法と法的評価
再識別リスクを低減するための技術的な手法は複数存在し、データの種類や特性、求められる匿名化のレベルに応じて使い分ける必要があります。主な手法と法的評価における留意点は以下の通りです。
- 抑制(Suppression): 特定の個人を識別しやすい値をデータセットから削除または伏せ字にする手法です。例えば、特定の地域に1人しかいない年齢層のデータを集計から除外するなどが該当します。単純な手法ですが、データの有用性を損なう可能性があります。法的評価においては、抑制されたデータが本当に再識別不可能であるか、他の情報との照合で補完できないか等が検証されます。
- 汎化(Generalization): 詳細な値を大まかなカテゴリに置き換える手法です。例えば、正確な年齢を年代(例:「20代」)に、正確な住所を市町村名や郵便番号の一部に置き換えるなどです。k-匿名性(データセット中の個々のレコードが、少なくともk個の他のレコードと区別できない状態)を達成するための基本的な手法として用いられます。法的には、適切な粒度での汎化が行われているか、kの値が適切かなどが評価されます。
- 摂動(Perturbation): データにランダムなノイズを加えて元の値を曖昧にする手法です。統計的な分析結果には大きな影響を与えにくい一方で、個々のレコードの正確性は失われます。差分プライバシー(特定の個人が存在するかどうかにかかわらず、クエリの結果が大きく変化しないようにノイズを加える手法)はこの考え方に基づいています。差分プライバシーは数学的にプライバシーレベルを保証できるとされ、再識別リスク低減に有効な技術として注目されていますが、実用的な実装は容易ではありません。法的には、加えられたノイズが再識別リスクを十分に低減しているか、データの有用性とのバランスが適切か等が評価されます。
- 交換(Swapping): 属性値を異なるレコード間で交換する手法です。
- 合成データ(Synthetic Data): 元のデータセットの統計的特性を保持しつつ、個々のレコードは架空のものであるデータを生成する手法です。再識別リスクは低いとされますが、元のデータの複雑な関係性をどの程度再現できるか、データの信頼性が課題となる場合があります。
これらの技術的手法を選択・適用する際には、単に手法を適用するだけでなく、その手法が具体的なデータセットに対してどの程度の再識別リスクを低減できるのか、専門的な評価を行うことが重要です。不十分なマスキング・匿名化は、法的な「匿名加工情報」や「統計情報」として認められず、結果として個人情報保護法等の規制がそのまま適用されるリスクを生じさせます。
オープンデータにおける倫理的配慮
法的な要件を満たすだけでなく、オープンデータ提供・利活用においては倫理的な配慮も不可欠です。特に以下の点に留意が必要です。
- データの利用目的と透明性: オープンデータとして公開するデータの利用目的や想定される利活用方法について、明確かつ透明性のある情報提供を行うべきです。データの提供者が意図しない、倫理的に問題のある方法でデータが利用される可能性を予見し、可能な範囲で注意喚起や利用規約等で制限を設けることも検討されます。
- 再識別リスクへの継続的な評価: データ公開後も、技術の進展や新たな情報源の出現により、再識別リスクが高まる可能性があります。提供したデータセットの再識別リスクを継続的に評価し、必要に応じてデータの更新や公開停止等の措置を講じる倫理的な責任が求められます。
- データ主体の権利への配慮: 直接的な個人情報ではない場合でも、データ主体が自身の情報がどのように扱われ、どのような結果に利用されているかを知る権利や、不利益を被らないように配慮される権利を尊重する必要があります。
関連する判例・行政解釈からの示唆
オープンデータの再識別リスクや匿名化に関する直接的な最高裁判例や著名な下級審判例は現時点では多くはありません。しかし、個人情報保護法やプライバシー侵害に関する既存の判例から、再識別リスクの評価や損害賠償責任に関する示唆を得ることができます。
例えば、ある情報が「他の情報と容易に照合することができ、それにより特定の個人を識別することができることとなる」かどうかの判断基準に関する判例の考え方は、オープンデータにおける再識別リスクの評価に直接的に影響します。「容易に照合できる」とは、照合に要する期間、費用、労力等に照らし、社会通念に照らして容易と判断される場合を指すと解釈されています。オープンデータの場合、インターネット上の情報や他の公開データセットとの照合が容易であるかどうかが重要な判断要素となります。
また、個人情報保護委員会や総務省等のガイドラインやQ&Aは、法解釈や実務上の運用に関する重要な手掛かりとなります。これらの行政解釈は、オープンデータ提供者が遵守すべきマスキング・匿名化の基準や、再識別リスクへの対応方法を判断する上で不可欠な情報源です。
実務上の留意点
弁護士がオープンデータ提供者または利活用者に対してアドバイスを行う際、以下の点に留意することが重要です。
- リスクアセスメントの実施: 提供または利用しようとするデータセットが含む潜在的な再識別リスクを、技術専門家と連携して詳細に評価する必要があります。どのような情報と組み合わせることで再識別が可能になるか、攻撃者の知識や技術レベルを想定したリスクシナリオを検討することが有効です。
- 適切な加工手法の選択と適用: リスクアセスメントの結果に基づき、データセットの特性、利用目的、求められる匿名化のレベルに応じて、最適なマスキング・匿名化の手法を選択し、適切に適用されているかを確認します。単に手法を知っているだけでなく、その手法が具体的にどの程度のリスクを低減できるのか、定量的な評価が重要です。
- 契約における取り決め: データ提供契約や利用規約において、再識別リスクに関する責任分担、禁止される利用方法(例:他の情報との照合による個人特定の試み)、データ提供者の免責範囲、データ利用者の遵守事項等を明確に定めます。匿名加工情報として提供する場合でも、作成方法等に関する情報漏洩リスクへの対応を契約で定めることが考えられます。
- 継続的なモニタリングと更新: データ提供者に対して、データ公開後も再識別リスクがないか継続的にモニタリングし、必要に応じてデータセットを更新または非公開にする体制を構築するよう助言します。
- 倫理ガイドラインの策定: 法令遵守にとどまらず、組織としてオープンデータ提供・利活用に関する倫理ガイドラインを策定・遵守することの重要性を伝えます。
結論
オープンデータの持つ潜在力を最大限に引き出しつつ、個人情報やプライバシーを適切に保護するためには、再識別リスクへの法的かつ倫理的な対応が不可欠です。マスキング・匿名化は再識別リスクを低減するための重要な手段ですが、その手法の選択、適用、および法的評価は専門的な知識を要します。
弁護士としては、個人情報保護法、行政機関個人情報保護法、統計法、地方公共団体の条例といった関連法規の正確な理解に加え、マスキング・匿名化に関する技術的な知見、関連する判例や行政解釈、そしてオープンデータ活用の倫理的な側面に関する深い洞察が求められます。実務においては、これらの知識を統合し、クライアントに対して具体的かつ実践的なアドバイスを提供することが、オープンデータを取り巻く法的課題への適切な対応に繋がります。今後も、技術の進展や法制度の改正、社会の変化に伴い、再識別リスクへの対応は進化していくと考えられ、常に最新の動向に注目していく必要があります。