格灵深瞳亮相AICon 2025全球人工智能开发与应用大会

当前AI界和产业界,Agent成为现象级话题。企业Agent已经从热门概念走进产业现实,成为探索AI落地的新锚点。

此前,6月27-28日,由极客邦科技旗下InfoQ中国主办的“AICon全球人工智能开发与应用大会”在北京举办。作为行业领先的视觉AI公司,格灵深瞳受邀参会。

在“AI Agent构建与多场景实践”专题现场,格灵深瞳研发副总裁、AIInfra负责人闫梓祯分享了名为《构建高可信自动化企业Agent评测体系的实战方法论》的主题演讲,从企业Agent评测的重要性、现状、实战方法等维度,讲述了格灵深瞳团队对于这一话题的思考与实践。

“If you can't measure it,you can't improve it.” (如果你不去评测它,便无法提升它。)谈及评测对于企业Agent开发与落地的重要性,闫梓祯表示,有效评测是提升Agent应用效果的关键。随着模型能力快速提升,技术刷爆榜单的速度越来越快,应用层Agent开发亟需更有效、更严格的评估机制,才能更客观地反映AI的真实表现,解决技术参数与实际效果之间的gap问题。

基于多年的开发与交付经验,闫梓祯分享了现阶段企业Agent评测的发展状态和面临的问题。当前,企业Agent在各行业、各场景下的落地尚处于早期起步阶段,具体到评测环节,企业往往面临“如何评测”、“对接真实业务系统后如何保证应用效果”等实际问题。

对企业来说,真实反映AI能力、客观衡量AI效果的需求越来越迫切,相应地,实现难度也越来越大。如何构建一套高可信度、自动化、规模化的企业Agent评测系统,成为业内关注的焦点。

相较于单纯依靠人工评测,闫梓祯建议,使用大模型或者Agent相关技术来构建评测体系——让Agent自动生成评测数据集、自动对评测对象进行打分,从而实现整个评测流程的规模化和自动化。在格灵深瞳,已经鼓励研发人员和产品经理使用大模型来辅助评测工作,并取得了不错的表现。

但这种“Agent as a judge”的范式并不是万金油。当AI技术落地到复杂多变的现实工况中,依旧需要行业专家经验作为评测支撑。高自动化评测系统+人工介入,是目前更为有效的实际解决方案。

基于对评测体系的思考与实践,格灵深瞳构建了一套自研的Agent评测平台。在该平台能力的支撑下,开发者可以快速响应、高效优质地交付各行业定制化Agent。

例如,格灵深瞳在为金融机构、政企客户打造专属Agent时,该评测平台能够助力极大缩短开发周期,依靠数据生成快速构建场景,并利用沙箱环境提前模拟测试,提高交付质量。更重要的是,该平台的多维度指标和真实环境仿真,可以让Agent的输出结果既准确又合规,成为真正的专业级产品,经得住实际业务中的复杂考验。

在该评测系统的支撑下,企业Agent不仅是一个“能用”的工具,更是一个稳定、可靠、能持续进化的智能伙伴。未来,如何衡量企业Agent的价值,如何构建可靠、自动的评测系统,这背后的道与术,将是格灵深瞳持续思考和实践的致力方向。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender