Salesforce推出智能体飞行模拟器应对95%企业AI项目失败困境
Salesforce正押注通过在模拟商业环境中进行严格测试,来解决企业人工智能面临的最大问题:智能体在演示中运行良好,但在复杂的企业运营现实中却频频失败。
这家云软件巨头本周发布了三大AI研究计划,包括CRMArena-Pro——该公司称之为商业运营的数字孪生平台,AI智能体可在部署前接受压力测试。这一发布正值企业普遍面临AI试点项目失败,以及最近泄露事件影响数百个Salesforce客户实例而引发新安全担忧之际。
飞行员不会在暴风雨中学习飞行;他们在飞行模拟器中训练,推动他们为最极端的挑战做准备,Salesforce首席科学家兼AI研究主管Silvio Savarese在新闻发布会上表示。同样,AI智能体从模拟测试和训练中受益,使它们为在部署前处理日常商业场景的不可预测性做好准备。
这一研究推进反映了企业对AI实施日益增长的挫败感。最近的MIT报告发现,95%的企业生成式AI试点项目未能投入生产,而Salesforce自己的研究显示,大语言模型在复杂商业场景中的成功率仅为35%。
CRMArena-Pro代表了Salesforce试图弥合AI承诺与性能之间差距的努力。与测试通用能力的现有基准不同,该平台使用合成但真实的商业数据,在客户服务升级、销售预测和供应链中断等真实企业任务上评估智能体。
如果合成数据生成不够谨慎,可能会导致对智能体在真实环境中实际表现的误导或过度乐观结果,领导CRMArena-Pro开发的Salesforce研究经理Jason Wu解释说。
该平台在实际Salesforce生产环境而非玩具设置中运行,使用由具有相关商业经验的领域专家验证的数据。它支持B2B和B2C场景,并可模拟捕获真实对话动态的多轮对话。
Salesforce一直将自己作为零号客户来内部测试这些创新。在我们将任何东西推向市场之前,我们会将创新交到自己团队手中进行测试,Salesforce总裁兼首席技术官Muralidhar Krishnaprasad在新闻发布会上说。
除了模拟环境,Salesforce还推出了CRM智能体基准,旨在从五个关键企业指标评估AI智能体:准确性、成本、速度、信任与安全性,以及环境可持续性。
可持续性指标特别值得注意,帮助企业将模型规模与任务复杂性对齐,在保持性能的同时减少环境影响。该公司表示:通过减少模型过载噪音,该基准为企业提供清晰、数据驱动的方式来将正确的模型与正确的智能体配对。
这一基准测试工作解决了IT领导者面临的实际挑战:随着几乎每天都有新AI模型发布,确定哪些适合特定商业应用变得越来越困难。
第三项计划专注于可靠AI的基本前提:清洁、统一的数据。Salesforce的账户匹配能力使用微调语言模型自动识别和整合跨系统的重复记录,识别The Example Company, Inc.和Example Co.代表同一实体。
数据整合工作源于Salesforce研究和产品团队之间的合作。Krishnaprasad解释说:Data Cloud中的身份解析本质上意味着,如果你考虑像用户这样简单的东西,他们在任何公司的许多系统中都有许多许多许多ID。
一个主要云提供商客户使用该技术实现了95%的匹配率,通过消除手动交叉引用多个屏幕来识别账户的需要,为销售人员每次连接节省30分钟。
这些公告是在本月早些时候影响超过700个Salesforce客户组织的数据盗窃活动引发安全担忧加剧的背景下发布的。根据Google威胁情报组,黑客利用来自Salesloft的Drift聊天智能体的OAuth Token访问Salesforce实例,并窃取Amazon Web Services、Snowflake和其他平台的凭据。
这次泄露突出了企业依赖于AI驱动客户参与的第三方集成中的漏洞。Salesforce已从其AppExchange市场移除Salesloft Drift,等待调查。
模拟和基准测试计划反映了更广泛的认识,即企业AI部署需要的不仅仅是令人印象深刻的演示视频。真实的商业环境具有遗留软件、不一致的数据格式和复杂的工作流程,这些都可能使即使是复杂的AI系统也脱轨。
我们今天一直在讨论的主要方面是一致性方面,因此如何确保我们从这些在某种程度上不令人满意的性能——如果你只是将大语言模型插入企业用例——转向实现更高性能的东西,Savarese在新闻发布会上说。
Salesforce的方法强调AI智能体需要在多样化场景中可靠工作,而不是在狭窄任务中表现出色。该公司的企业通用智能(EGI)概念专注于构建在执行复杂商业任务时既有能力又一致的智能体。
随着企业继续投资AI技术,像CRMArena-Pro这样平台的成功可能决定当前AI热潮是否转化为可持续的商业转型,或成为技术承诺超过实际交付的另一个例子。
这些研究计划将在10月的Salesforce Dreamforce大会上展示,预计该公司将宣布更多AI发展,寻求在竞争日益激烈的企业AI市场中保持领导地位。
A:CRMArena-Pro是Salesforce开发的商业运营数字孪生平台,被称为AI智能体的飞行模拟器。它主要解决AI智能体在演示中表现良好但在实际企业环境中失败的问题,通过模拟真实商业场景对智能体进行压力测试。
A:根据MIT报告,企业AI部署面临的主要挑战包括:真实商业环境具有遗留软件、不一致的数据格式和复杂工作流程;大语言模型在复杂商业场景中成功率仅为35%;缺乏严格的测试和验证机制。
A:CRM智能体基准包含五个关键企业指标:准确性、成本、速度、信任与安全性,以及环境可持续性。其中可持续性指标特别值得注意,帮助企业将模型规模与任务复杂性对齐,在保持性能的同时减少环境影响。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
河北疑被家暴身亡女子原计划儿子上学后找工作,3岁孩子常喊找妈妈,家属最新发声:没收赔偿,也不会开谅解书
当局诋毁中国抗战贡献,国台办:是对所有忠魂英烈的严重亵渎,是对全体中华民族的背叛
澎湃OS 3将于8月29日推送,优先覆盖小米15、REDMI K80等新机型
OPPO ColorOS 陈希谈小米澎湃 OS 3:感觉很不错,又被卷到了
推荐产品
热门文章排行
- 1618位股民把上市公司告了获赔超275
- 行业动态列表_智能设备_运动_汽车_智慧
- 产业洞察-产业资讯_ 最新动态(8)_前
- 21个考区、50个考点、2697场……保
- 天有为上半年实现净利润526亿元 拟设立
- 安徽建工、中国信达相关公司新增一项932
- 国内动态 - 华声新闻
- 【新闻早茶】暴雨+大暴雨 河北大范围降雨
- 京东发布《2025年常温奶行业白皮书》
- 公司新闻
最新资讯文章
- 国内时政更多新闻
- 【新闻早茶】暴雨+大暴雨 河北大范围降雨
- 十四届全国人大二次会议在京开幕
- 空军首任新闻发言人申进科透露特区的这些故
- 早啊!新闻来了〔20250828〕
- 国内动态 - 华声新闻
- 时政动态_央广网
- 习的时间观
- 公司新闻
- 北方长龙:聘任孟海峰为公司副总经理
- 1618位股民把上市公司告了获赔超275
- 天有为上半年实现净利润526亿元 拟设立
- 公司聚焦-企业动态_ 上市公司热点资讯_
- 安徽建工、中国信达相关公司新增一项932
- ST新研:新疆商贸物流集团成为公司控股股
- 彩虹股份:对控股子公司增资
- 行业动态列表_智能设备_运动_汽车_智慧
- 产业洞察-产业资讯_ 最新动态(8)_前
- 新能源行业产业洞察-产业资讯_ 最新动态
- 福建省发展和改革委员会