微软发布 PyRIT 工具,帮专家和工程师识别生成式 AI 模型风险

微软近日公开了其Python风险管理工具——PyRIT,这是一个专为安全专家和AI开发者设计的自动化框架,旨在识别并防止生成式人工智能可能带来的安全隐患,确保AI系统的可控性。微软的内部AI安全团队,即AI Red Team,已运用此工具对包括Copilot在内的生成式AI系统进行了风险评估。

AI Red Team的角色类似网络安全领域的“红队”,即模拟对手进行实战演练,以提升产品的安全性能。微软组建的这个跨学科专家团队,专注于策划复杂的攻击测试,以增强AI的安全性。

PyRIT框架的操作机制简洁高效:PyRIT Agent向目标Gen AI系统发送潜在有害的输入,接收到AI的反馈后,会将其传输至PyRIT评分引擎。引擎根据响应给出评价,代理再依据这些反馈生成新的输入,如此循环,直至安全专家获取满意的结果。微软已将PyRIT的源代码公开在GitHub上,供有兴趣的用户研究学习。

请注意,本文中包含的外部链接仅为传递更多讯息,节省读者查找时间,内容仅供参考。在IT之家,每篇文章都会附带此声明。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...