• ARTICLE
  • STRING
  • CONVERTER
  • ENCRYPT
  • NETWORK
  • MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
    OPEN API
  • ARTICLE
    STRING
    CONVERTER
    ENCRYPT
    NETWORK
    MORE
    CHART
    MATH
    COORDINATE
    IMAGE
    FILE
    OPEN API
logo Online Tools
All Chinese English Newest Hottest
272 search results

B站消息新架构升级

589 Technology lddgo Shared on 2025-11-21

长久以来,我们只知道大型视觉语言模型(LVLM)会犯错,但始终缺乏一把“手术刀”,无法剖析其视觉感知的根源性缺陷。我们只知其然,不知其所以然。我们希望当 AI 模型观察图像时,不再凭空想象,不再“指鹿为马”。现在,这一瓶颈被打破了。bilibili 用户技术中心提出 VisionWeaver 及其核心诊断工具 VHBench-10,带来了创新性的视角。VisionWeaver 不再依赖单一编码器,而是开创性地提出“上下文感知路由网络”,动态协同多个“视觉专家” 。而这一切得以实现的基础,正是其专门打造的诊断基准 VHBench-10——它让幻觉研究从“识别现象”迈向了“诊断病因”的新阶段。此工作已被 EMNLP 2025 Findings 录用。

681 Technology lddgo Shared on 2025-11-14

在企业安全建设中,SIEM/SOC 的告警运营始终是不可或缺的核心环节。随着安全需求的不断提升,告警自动化运营经历了多个迭代阶段:人工查证阶段:运营人员需要在各类平台之间频繁切换,手动收集与比对信息;脚本驱动阶段:通过编写简单脚本实现部分告警处理的自动化,但灵活性有限;SOAR 阶段:引入编排化的剧本设计,能够串联多种安全工具与流程,实现更高程度的自动化。虽然自动化能力在不断增强,但实际运营中仍需安全人员持续参与,对剧本进行调试和优化,以确保其适应复杂多变的威胁场景。

658 Technology lddgo Shared on 2025-11-07

本文提出 RIVAL(Reinforcement Learning with Iterative and Adversarial Optimization),一种针对机器翻译(MT)的迭代对抗强化学习框架。我们发现基于人类反馈的强化学习(RLHF)在口语化字幕翻译任务中表现不佳,主要是因为奖励模型(RM)与翻译模型(LLM)之间存在分布偏移,导致训练失效。RIVAL通过以下创新解决该问题:对抗博弈机制:将RM与LLM的优化过程建模为最小化-最大化博弈,RM负责区分强弱翻译,LLM负责优化弱翻译,以缩小与强翻译的质量差距。双奖励设计:结合语义对齐的定性偏好奖励与定量偏好奖励(如:BLEU分数),提升迭代强化学习训练的稳定性与泛化性。实验表明,RIVAL在口语字幕和WMT数据集上显著优于监督微调(SFT)和专用翻译模型(如:Tower-7B-v0.2),同时保持跨语言泛化能力。

742 Technology lddgo Shared on 2025-10-31

随着游戏行业全球化进程的深入推进,哔哩哔哩也在海外游戏市场积极布局。哔哩哔哩有丰富的游戏储备,运营众多自研和代理游戏,随着出海战略的推进,我们的目标用户已经覆盖全球多个地区。游戏要想在海外市场取得成功,需要进行全面的本地化适配,其中语言本地化是关键一环。与普通文档翻译不同,游戏翻译需要处理系统界面、技能描述、剧情对白、活动公告等多种文本类型,每种内容都有不同的表达方式和风格要求。更重要的是,游戏翻译不仅要保证语言的准确性,更要传达游戏的文化内涵和情感体验,稍有疏忽就会影响玩家体验和沉浸感。然而,游戏翻译的复杂性远超想象。我们在实践中面临着三大核心挑战:翻译内容复杂多样,质量管控难度大,成本与效率平衡。国内友商手游出海时,曾出现过因翻译质量问题导致玩家在社区中客诉、游戏声誉受损的情况。成本压力也尤为突出,不仅因为游戏翻译文本量大、翻译难度高、单价贵,而且在游戏运营期间会有频繁的内容更新和活动上线,每次都需要重新翻译和审校,项目的总体年度维护成本往往超过初版本翻译成本。如何在保证翻译质量的前提下降低本地化成本,成为我们亟需解决的问题。为此,哔哩哔哩游戏算法团队构建了一套基于大语言模型的游戏

446 Technology lddgo Shared on 2025-10-27

暑期,B站多媒体实验室带队参与了 ICCV MIPI (Mobile Intelligent Photography and Imaging) Workshop 的细粒度图像质量定位 (Detailed Image Quality Assessment Track) 国际挑战赛,提出创新的多模态训练策略,将综合指标提升了13.5%,最终获得了第二名的好成绩。本次参赛经历阶段性地验证了实验室在视频质量评价 (Video Quality Assessment,后文统称为 VQA) ,MLLM (Multimodal Large Language Model,多模态大语言模型) 以及强化学习上的成果积累,因此借本文的机会总结下比赛以及在以上领域一路以来的积累过程。

670 Technology lddgo Shared on 2025-10-17

为解决专业视频剪辑软件操作复杂与模板化工具创意受限的行业痛点,本文深入探索并实现了一款面向Web剪辑软件(WebCut)的智能剪辑体——VibeCut。它旨在打破全手动与全自动编辑的边界,为创作者提供一种兼具效率、易用性与个性化表达的智能剪辑新范式。VibeCut的核心是一种创新的“计划者-执行者” (Orchestrator-Executor) 双智能体架构。该架构巧妙地将复杂的剪辑任务一分为二:“计划者”负责深度理解用户的自然语言意图并进行宏观任务规划;“执行者”则专注于调用具体工具完成操作。二者之间通过一个共享的、结构化的“任务上下文” (Shared Context) 作为唯一的指令与状态来源,完美实现了规划与执行的解耦。这一设计不仅显著降低了大型语言模型(LLM)的认知负担,更通过将任务规划全程可视化,为用户带来了“所见即所得”的透明交互体验。在WebCut平台上的原型实践中,VibeCut以大语言模型为驱动核心,成功通过了三大典型场景的考验:添加自定义样式字幕、根据画面内容自适应调整字幕颜色、以及进行视频内容的语义裁切。实验结果有力地证明,该系统能精准地将用户的模糊语言需求

407 Technology lddgo Shared on 2025-10-11

在文本编辑领域,设想一种技术:无需复杂控制信号,只靠字形图像和少量训练数据,就能把文字“无缝”嵌入真实场景——中文招牌、日文海报、韩文标语,多语言统统适用。这就是 TextFlux 带来的全新体验,由bilibili人工智能平台部,联合北京大学王选所提出。TextFlux 不再依赖 OCR 编码器和繁复的监督信号,而是把渲染好的字形直接贴进场景,让模型型专注学习“如何与周围环境自然融合”。思路直观,架构简洁,却能生成更真实、更快捷、更通用的多语言场景文本编辑效果。相关代码、权重和数据集均已开源。截至目前,该项目已支持ComfyUI,能够在消费级显卡上部署和运行。

141 Technology lddgo Shared on 2025-09-19

KMP on iOS 深度工程化:模块化、并发编译与 98% 增量构建加速

432 Technology lddgo Shared on 2025-09-12

在动画制作领域,传统流程复杂且劳动强度大,涵盖剧本创作、分镜设计、角色与场景设计、动画制作、配音以及最终剪辑等多个创作阶段。这一过程不仅需要大量专业人员参与,还要求不同团队间紧密协作,导致成本高昂、制作周期漫长。近年来,生成式人工智能取得了显著进展,例如用于动画生成的 AniSora 等基础模型,在特定任务中展现出了令人印象深刻的能力。然而,这些方法在特定领域各有优劣,在智能体驱动的视频生成中,难以维持一致性且精细可控性欠佳。因此,开发一个全自动的长篇动画生成系统仍是一项亟待解决的挑战,尤其是在选择合适的控制条件以及确保跨阶段内容一致性方面。为此,我们提出 AniME,一种导演驱动的多智能体框架。该框架通过引入定制化模型选择MCP机制,为不同环节的专用智能体配置定制化工具箱,实现了任务分解、跨阶段一致性控制以及迭代式反馈优化。AniME 借鉴真实动画工作室的生产流程,强调全局调度与质量控制,使长篇动画的自动化生成成为可能。

337 Technology lddgo Shared on 2025-09-04