我们最近做了一份内部访谈,问几位深度使用 AI 的工程师"你日常时间分配的变化"。结果有点出乎意料——写代码的占比,从过去的 30% 降到 5%;和 Agent 对话的占比,从 5% 升到 60%;查问题的时间下降一半以上;纯编码效率提升 10 倍,但端到端需求交付效率只提升 2 到 3 倍。更值得停下的不是数字,是节奏:一个工程师上午 10 点上线一个新功能、中午做 A/B 测试、下午 3 点根据数据下线、5 点上线更好的版本。同一天。这是过去 6 周才能完成的迭代。为了理解这件事到底意味着什么,我想先回到一个更基本的问题:组织到底是为什么存在的?
本⽂是关于 AI 辅助编码的全⾯实战指南,基于天猫新品团队的实践经验,从问题本质到解决⽅案,从理论框架到实战案例,系统性地介绍如何让 AI 更好地完成⼤部分需求。
本文主要围绕一个具体的问题展开:怎么写好一份 AGENTS.md?「在代码仓库中放一份上下文文件,告诉 AI 工具这个项目是什么、怎么构建、有什么规矩」——这个做法现在已经有了一个统一的名字:AGENTS.md。在展开实践之前,先花一点篇幅介绍它的前世今生,已经了解的同学可以跳过。
本⽂是关于 AI 辅助编码的全⾯实战指南,基于天猫新品团队的实践经验,从问题本质到解决⽅案,从理论框架到实战案例,系统性地介绍如何让 AI 更好地完成⼤部分需求。
在 AI 原生工作流加速普及的今天,掌握 Skill 已不再是开发者的专属能力,而是产品、运营、设计乃至技术管理者提升人机协同效能的核心职业素养。它直接决定你能否把模糊需求转化为稳定、可复用、可协作的 AI 执行单元,从而在项目交付中显著提升质量一致性、降低沟通成本、规避重复试错。
本文介绍一个我近期做的一个实践流程,快速搭建了一个小平台,基于这个平台可以做全自动化的评测,乃至于整个系统的全自动化优化,包括三个案例:1. 基础的全自动化无UI评测;2. 带UI的自动化评测,甚至评测UI里面的内容质量;3. 整个系统的自动评测+优化,来回往复进行三轮,优化一晚上。
本文主要介绍了面向电商直播场景的全模态理解大模型 TLiveOmni 在 vLLM 框架下的推理部署与量化优化全过程。文章详细阐述了如何通过自定义插件注册、修复多模态Token交替排布及浮点运算顺序等手段,解决vLLM原生架构对Omni模型支持不足及精度漂移的问题。在此基础上,团队采用了 SmoothQuant与GPTQ结合的复合量化方案,并构建了包含5000条高质量数据的校准集以最大限度保留模型效果。最终在H20与RTX 4090硬件上的实测表明,该方案在保证各模态任务精度损失控制在1.5%以内的前提下,实现了2.5倍至3.5倍的推理加速,且针对不同硬件特性总结出了FP8(H20)与W4A16(4090)的最优部署策略。
昨天,阿里巴巴视频生成模型HappyHorse 1.0正式开启灰测。 该模型采用原生多模态架构,实现了音视频联合生成。它不仅支持文生视频、图生视频等多种创作方式,还具备灵活的后期编辑能力。依托1080P超分输出与15秒多镜头叙事技术,HappyHorse 1.0在画面质感、人物真实感及内容可控性上表现出色。 无论是广告电商、短剧创作还是社媒创意,HappyHorse 1.0都能提供从生成到编辑的一站式支持,让创意表达更加高效、精准。
这篇文章主要讲 Agent 架构里几块最影响工程效果的内容,包括控制流、上下文工程、工具设计、记忆、多 Agent 组织、评测、追踪和安全,最后再用 OpenClaw 的实现把这些设计原则串起来看一遍。整理下来,有几处判断和我原来想的不太一样,更贵的模型带来的提升,很多时候没有想象中那么大,反而 Harness 和验证测试质量对成功率的影响更大,调试 Agent 行为时,也应优先检查工具定义,因为多数工具选择错误都出在描述不准确,另外,评测系统本身的问题,很多时候比 Agent 出问题更难发现,如果一直在 Agent 代码上反复调,效果未必明显,读完这篇,这几个问题应该能有些答案。
柚漫剧团队深度拆解其如何通过构建Prompt友好型PRD、设计即代码、AI Coding基建与AI Agent测试等核心能力,打通“需求-设计-开发-测试”全链路智能闭环的实战经验。