Gemini Enterprise 如何处理敏感数据
创始人
2026-03-09 16:02:38

大多数企业客户一开始都会做出一个合理的假设:如果敏感数据被正确标记,人工智能系统就可以简单地遵循这些标签并确保安全。

问题在于,标签描述的是分类,而非内容。它们预先应用,依赖于人工或自动化的准确性,并且通常滞后于数据的实际使用方式。一旦文档被打开、复制、摘要或查询,仅凭标签就无法回答最重要的问题:

就此请求而言,这段文字目前是否包含敏感信息?

这正是 Gemini Enterprise 旨在解决的问题。

本文从客户的角度解释了即使 Purview 标签缺失、不完整或不可用,Gemini 如何在运行时检测敏感数据。

客户面临的挑战:标签是必要的,但还不够

从企业安全角度来看,风险不仅仅在于访问权限本身,真正的风险出现在授予访问权限之后。

客户普遍担心的情况包括:

  • 用户有权打开文档,但要求人工智能提取原始标识符。

  • 文件标签为通用名称,但包含嵌入的PHI或PII。

  • 敏感细节仅出现在自由文本、注释或叙述部分中。

  • 用户无意中以某种方式触发人工智能系统,从而扩大其曝光度。

在所有这些情况下,可能存在权限标签,但一旦人工智能系统处理了数据,这些标签并不能完全控制数据的使用方式。

Gemini 通过在用户使用时检查内容本身来弥补这一差距。

Gemini 如何在运行时检测敏感数据

Gemini Enterprise采用多种重叠的检测机制。每一层都能捕获不同的风险类别,它们共同构成纵深防御。

1. 基于模式的检测(确定性)

这是最具体、最可审计的一层。

Gemini 运行数据防泄漏扫描器,查找诸如以下明确定义的敏感模式:

  • 社会保障号码,包括国际格式

  • 经 Luhn 验证的信用卡号码

  • 银行账号

  • 电话号码

  • 电子邮件地址

  • 政府颁发的身份识别卡

例如:

123-45-6789立即被标记为社会保障号码。

这些探测器包括:

  • 高精度

  • 与语言无关

  • 确定性且可审计

仅这一层就涵盖了大部分受监管数据,并提供了一个清晰、可解释的基线。

2. 上下文和语义检测(基于机器学习)

对于PHI等敏感信息,仅靠模式匹配是不够的。

许多受监管的信息披露都是基于上下文而非数字的。

例如:

“患者被诊断患有 II 型糖尿病。”

“核磁共振结果显示肿瘤进展。”

“出生日期:1978 年 2 月 14 日,MRN:9938821。”

这些看起来都不像社保号码或信用卡信息。它们之所以敏感,是因为其含义,而不是格式。

Gemini采用以下方式进行上下文分类:

  • 训练用于识别PHI和PII上下文的NLP分类器

  • 医疗和金融实体认可

  • 基于标识符邻近性的风险评分

即使没有明确的标识符,Gemini 也能检测到敏感信息。

3. 提示意图分析(用户行为)

Gemini不仅评估数据,还评估用户要求它执行的操作。

例如:

“从这些文件中提取所有社会保障号码。”

即使用户有权查看文件,Gemini 也会将此视为高风险意图。

作为回应,双子座可以:

  • 拒绝该请求

  • 敏感信息请谨慎填写

  • 请提供汇总信息而非原始数值。

这可以防止企业环境中常见的故障模式:授权用户未经授权使用数据。

4. 基于政策的执行(企业控制)

单靠检测没有执法是无济于事的。

一旦识别出敏感点,Gemini 会将该信号输入到企业策略规则中,例如:

  • 屏蔽原始敏感值

  • 强制聚合或汇总

  • 屏蔽特定字段

  • 限制下载、导出或回写操作

  • 管理员可以进行以下调整:

  • 允许传输哪些类型的敏感数据?

  • 允许哪些响应类型

  • 执法力度应该有多严格?

这样就能将控制权掌握在安全和合规团队手中。

5. 瞬态处理以降低风险

即使检测到并处理敏感数据,Gemini 也能通过设计最大限度地减少数据泄露。

  • 数据仅存在于内存中

  • 没有索引或持久化

  • 没有模型训练

  • 不支持跨会话重用

如果发生意外,这将大大限制爆炸半径。

为什么无需权限标签也能奏效

权限标签回答了以下问题:这些数据应该如何分类?

双子座回答的是另一个问题:这段文字目前是否包含敏感信息?

这种内容检查方法与以下机构使用的模型相同:

  • 云端DLP扫描仪

  • 安全检查工具

  • 合规监控系统

  • 电子邮件网关

标签有助于使用前识别。检查可确保使用过程中的安全。

实际应用情况如何

场景:

一个带有标签的 SharePoint 文档包含:“患者 John Doe(出生日期 1975 年 1 月 12 日)被开了胰岛素处方。”

用户向 Gemini 提问:“总结最近的患者入院记录。”

会发生什么:

由于用户已获得授权,因此允许访问。

双子座短暂地收到了这条信息

Gemini 根据患者背景信息、出生日期和治疗情况来检测 PHI(受保护的健康信息)。

  • Gemini 生成高级概要

  • 标识符已被屏蔽或省略

用户无需暴露任何敏感信息即可获得价值。

这关系到信誉度。

Gemini公司并不声称拥有完美的检测能力。

任何系统都无法取代门禁控制。

DLP是纵深防守,不是魔法。

明确说明限制条件有助于建立与安全团队的信任。

安全领导者的一句话

“Gemini 通过使用确定性模式、上下文机器学习分类器和用户意图分析来检查内容本身,而不是通过继承外部标签来检测敏感数据。”

小结

Purview决定是否可以访问数据。Gemin DLP决定如何使用这些数据。

正是这种区别使得 Gemini Enterprise 在企业级规模下安全可靠。

相关内容

热门资讯

原创 搞... 1、狗狗最开心的事情就是主人带它们出去玩的时候,有养过狗狗的主人都会发现,你刚要对它们讲:要不要去....
绿茵场变“金融场”,银行押注体... 春草渐绿,赛事正酣。浙江“吴越杯”、江苏“苏超”、湖北“楚超”、福建“闽超”……4月,中国足球版图正...
原创 备... 2026年NBA选秀抽签顺序将在常规赛结束后公布 备受瞩目的NBA选秀抽签将在2025-26赛季常规...
电车时代的“长期主义”:荣威i... 在新能源汽车狂飙突进的今天,汽车行业的叙事逻辑似乎发生了一种微妙的断裂。曾几何时,一辆车是家庭的固定...
去年农村公益电影放映近两万场!... 2025年全市农村公益电影放映19297场,观影人次超过77万,发行影片566部……近年来,广州深入...