格灵深瞳亮相AICon 2025全球人工智能开发与应用大会

当前AI界和产业界，Agent成为现象级话题。企业Agent已经从热门概念走进产业现实，成为探索AI落地的新锚点。

此前，6月27-28日，由极客邦科技旗下InfoQ中国主办的“AICon全球人工智能开发与应用大会”在北京举办。作为行业领先的视觉AI公司，格灵深瞳受邀参会。

在“AI Agent构建与多场景实践”专题现场，格灵深瞳研发副总裁、AIInfra负责人闫梓祯分享了名为《构建高可信自动化企业Agent评测体系的实战方法论》的主题演讲，从企业Agent评测的重要性、现状、实战方法等维度，讲述了格灵深瞳团队对于这一话题的思考与实践。

“If you can't measure it,you can't improve it.” （如果你不去评测它，便无法提升它。）谈及评测对于企业Agent开发与落地的重要性，闫梓祯表示，有效评测是提升Agent应用效果的关键。随着模型能力快速提升，技术刷爆榜单的速度越来越快，应用层Agent开发亟需更有效、更严格的评估机制，才能更客观地反映AI的真实表现，解决技术参数与实际效果之间的gap问题。

基于多年的开发与交付经验，闫梓祯分享了现阶段企业Agent评测的发展状态和面临的问题。当前，企业Agent在各行业、各场景下的落地尚处于早期起步阶段，具体到评测环节，企业往往面临“如何评测”、“对接真实业务系统后如何保证应用效果”等实际问题。

对企业来说，真实反映AI能力、客观衡量AI效果的需求越来越迫切，相应地，实现难度也越来越大。如何构建一套高可信度、自动化、规模化的企业Agent评测系统，成为业内关注的焦点。

相较于单纯依靠人工评测，闫梓祯建议，使用大模型或者Agent相关技术来构建评测体系——让Agent自动生成评测数据集、自动对评测对象进行打分，从而实现整个评测流程的规模化和自动化。在格灵深瞳，已经鼓励研发人员和产品经理使用大模型来辅助评测工作，并取得了不错的表现。

但这种“Agent as a judge”的范式并不是万金油。当AI技术落地到复杂多变的现实工况中，依旧需要行业专家经验作为评测支撑。高自动化评测系统+人工介入，是目前更为有效的实际解决方案。

基于对评测体系的思考与实践，格灵深瞳构建了一套自研的Agent评测平台。在该平台能力的支撑下，开发者可以快速响应、高效优质地交付各行业定制化Agent。

例如，格灵深瞳在为金融机构、政企客户打造专属Agent时，该评测平台能够助力极大缩短开发周期，依靠数据生成快速构建场景，并利用沙箱环境提前模拟测试，提高交付质量。更重要的是，该平台的多维度指标和真实环境仿真，可以让Agent的输出结果既准确又合规，成为真正的专业级产品，经得住实际业务中的复杂考验。

在该评测系统的支撑下，企业Agent不仅是一个“能用”的工具，更是一个稳定、可靠、能持续进化的智能伙伴。未来，如何衡量企业Agent的价值，如何构建可靠、自动的评测系统，这背后的道与术，将是格灵深瞳持续思考和实践的致力方向。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表本站网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

版权声明 1、本网站名称：客欢夜场365招聘网
2、本站永久网址：http://www.kehuan365.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报