发布于2024-12-06 阅读(0)
扫一扫,手机访问
据外媒报道,微软最近推出了一个名为PyRIT的开放访问自动化框架,旨在帮助识别生成式人工智能系统中潜在的风险因素。
Ram Shankar Siva Kumar,微软人工智能红色团队负责人,指出红色团队的工具旨在让全球组织能够充分利用最新的人工智能进步,推动负责任的创新。
据该公司称,PyRIT可用于评估大型语言模型(LLM)在不同损害类别下的鲁棒性,例如虚构、滥用和违禁内容。此外,该工具还可用于检测恶意软件生成的安全威胁、越狱行为,以及涉及身份盗窃等隐私风险。
PyRIT包含五个接口:目标、数据集、评分引擎、支持多种攻击策略的能力,以及内置的内存组件。这个组件可以将中间输入和输出交互以JSON或数据库的形式进行存储。
评分引擎还提供了两种不同的选项来对目标人工智能系统的输出进行评分。Red Team可以选择使用经典的机器学习分类器进行评估,也可以利用LLM端点进行自我评估。
微软表示,他们的目标是让研究人员能够对他们的模型在不同损害类别下的性能有一个基准,并且可以将这个基准与模型未来的迭代进行比较。这种方法有助于评估模型的效果,并指导未来改进和优化的方向。
这让他们能够获取有关其模型当前运行状况的实证数据,并在未来更新中检测性能下降。简而言之,该工具旨在通过生成提示来突显风险“热点”,这些提示可用于评估人工智能系统并标记需要进一步调查的领域。
微软进一步指出,Red Team生成式AI系统需要同时考虑安全性和负责任的人工智能风险,这一任务具有一定的概率性。此外,他们还强调了生成式AI体系结构的显著差异。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店