genai的出现加快了人们释放数据潜力的步伐,为获取新见解和更佳决策提供了机会。然而,要实现更广泛的数据访问,需要一种完善的数据治理策略。那些能够在数据民主化和严格数据治理之间取得平衡的企业,将通过释放独特的数据驱动洞察力而在市场上脱颖而出。
根据Gartner的数据,到2026年,超过80%的企业将使用GenAI API和模型,或在生产中部署启用GenAI的应用程序,而去年这一比例不到5%。GenAI的自然语言界面允许非技术用户,从部门负责人到一线工作人员,更轻松地访问和使用数据。这在获取信息和技能方面创造了公平的竞争环境,Gartner称这是“本十年最具颠覆性的趋势之一”。
如果公司要避免隐私、安全和数据质量方面的风险增加,以这种方式实现数据民主化就会使强有力的治理变得更加关键,这意味着准确地知道你拥有什么数据、驻留在哪里、谁有权访问这些数据以及每种类型的用户被允许如何使用这些数据,但一个企业如何在不压制创新的情况下实施全面控制?
在更高级别上,推崇的方法是将数据整合到一个综合的存储库中,这样不同团队和工作组就可以便捷、安全地共享这个存储库。通过统一数据,企业能够实现集中管理,并扩大对数据的访问范围,同时最大程度地减少复杂性并优化成本。这种集中存储数据的方法有助于确保数据的一致性和准确性,避免数据重复和不一致性带来的问题。此外,这也有助于提高数据的安全性和保护隐私,因为可以更容易地实施访问控制和监控措施。因此,建立一个统一的数据存储库对企业来说是非常重要的,
在实际操作中,这可能会带来一些挑战,因为数据主权法规要求某些数据必须存储在特定的国家或地区。面对这种情况,企业需要努力消除数据孤岛,并在其数据平台上实施一致的治理框架。
此外,一些特定的方法和技术有助于确保企业能够保持有效的治理,同时在GenAI扩大数据访问的同时保持安全。这些方法包括基本的治理实践,适用于各种环境,但随着GenAI推动数据访问进一步民主化,这些实践变得尤为关键。
针对隐私和法规遵从性的精细控制
随着员工对数据的访问量增加,数据泄露和个人身份信息(PII)被未授权用户访问的风险也在增加。因此,实施严格的访问控制策略以及使用匿名化和身份识别技术对于确保合规性和防止数据被不当访问至关重要。
在我们分析雪花数据云趋势的新《数据趋势2024》报告中,我们注意到治理功能的使用显著增加,这些功能在提供对数据的精细控制的同时,还适当地将其提供给更多的用户,用于更多的用例,例如,在截至2024年1月31日的12个月中,应用的掩码或行访问策略的使用量与去年同期相比增加了98%,与此同时,分配了掩码策略的列数增长了97%。
然而,值得注意的是,针对受策略保护的对象运行的查询总数上升了142%,这个数字意义重大,因为它表明良好的数据治理不是说“不”和限制数据使用。尽管看到越来越多的治理通过使用标签和屏蔽政策,但报告指出,使用这些数据所做的工作量正在迅速上升。
在某些情况下,员工可能希望检查他们不能被授予直接访问权限的数据集,在这种情况下,差异隐私是一项强大的技术,因为它允许用户通过查看数据集内的模式来共享和探索数据集,而不会泄露任何个人用户的PII。更进一步,数据净化室允许多方在不向彼此披露原始数据的情况下就数据进行协作,数据净化室通常用于在不同企业之间共享数据,但我们正在看到内部使用的技术来满足日益增长的监管和隐私需求,它可以成为在GenAI界面环境中探索PII数据的有效技术。
一致、协调的安全性
安全应该构建在数据平台的结构中,而不是试图稍后为个别数据集和用户固定它,支持对话界面的技术不应该复制数据上的身份和其他核心权限,这将导致脆弱的设置。如果两个或多个系统都在跟踪谁可以访问哪些数据,则出错和未经授权访问的可能性会大大增加。
在保护GenAI用例的数据方面发挥关键作用的技术包括持续的风险监控和保护、基于角色的访问控制(RBAC)和细粒度授权策略。基于角色的标记和基于标记的掩码策略允许你通过将掩码策略分配给标记,然后在一个或多个数据库对象上设置该标记,从而在列级别保护数据。
数据孤岛是良好治理的敌人
将数据的副本或片段存储在不同的系统中,使得跟踪谁可以访问哪些信息以及保持访问和控制策略的一致性变得极其困难,这就是为什么数据孤岛是强大治理的敌人。
数据孤岛还使得很难确保员工查询的是最新、最准确的数据,这可能会导致代价高昂的错误。为了通过GenAI实现对数据的广泛访问,企业需要一个单一的真实来源,以确保所有员工都在查看相同的信息,并且可以在所有数据中全面应用和更新控制和策略。
确保数据质量以获得准确的结果
即使你消除了孤岛并拥有适当的权限,也不能保证员工访问的信息是正确的,数据质量框架基于应用于表中特定列或一组列的可配置数据质量规则,可以帮助检测质量问题并确保准确的信息。
此外,到目前为止,我们都知道,GenAI有时会产生幻觉,并产生实际上没有根据的答案,这对于企业使用来说是不可接受的。企业可以通过将大型语言模型(LLM)与他们知道值得信任的数据源相结合来解决这一问题,例如内部客户数据库或来自可信第三方提供商的经过审查的数据集。
这些受信任的数据源可以使用需要LLM定制(如微调)或不需要LLM定制(如即时工程或检索增强生成(RAG))的过程合并。无论是哪种情况,这些技术都有助于确保员工收到准确、高质量的结果,同时遵守内部云环境中内置的治理标准。
数据访问和通用搜索的威力
GenAI治理的一个重要方面是让员工很容易找到合适的数据集和数据产品来帮助他们进行分析,人工智能如此强大的一个原因是,它允许员工在不通过中央团队的情况下与数据交互,但这需要这些员工知道他们可以获得什么数据,以及如何找到这些数据。
搜索功能提供了这一功能,允许用户查找和查询数据集和数据产品,这一搜索功能本身可以由LLM提供支持,使数据搜索更加直观-这是我们在Snowflake开发的,作为我们通用搜索的一部分。
治理是数据民主化的基础
商业用户渴望更广泛地利用他们组织的数据,而GenAI最终使这成为可能。多亏了LLMS和自然语言处理,财务、人力资源、销售和运营等领域的员工现在可以针对自己的角色制定问题,并获得他们做出更明智决策所需的答案。
但要满足企业的安全和法规遵从性需求,这只能在具有强大治理的环境中发生,治理越强,你的员工就越能自由地浏览数据,而不会给公司带来额外的风险,GenAI为真正的数据民主化打开了大门,而良好的治理是使之成为可能的基础。
以上就是实施稳健的AI治理以实现数据民主化的详细内容,更多请关注叮当号网其它相关文章!
文章来自互联网,只做分享使用。发布者:张大嘴,转转请注明出处:https://www.dingdanghao.com/article/229602.html