近年来AI发展如火如荼,大模型诞生与技术的积累和不断创新,带来了人机交互方式的革新。各大厂也纷纷结合自身业务场景进行模型和应用的开发,AI正以惊人的速度改变着我们的生活和工作方式。面对生成式AI的行业浪潮,百度百科产研团队也在探索如何结合大模型能力,发挥百科在泛知识领域的优势,延展百科场景AI特色体验,强化内容浏览的体验感及效率性,契合用户对百科的期望,带给用户更极致的知识消费体验。
本文介绍了百度数仓融合计算引擎的整体设计原理、优化及实践,阐述了在互联网产品快速迭代的趋势下,基于一层数仓宽表模型的数仓模型如何做到数十秒级查询的技术方案,并从互联网业务变化特性、传统计算引擎存在的问题、融合计算引擎的原理及优缺点、引擎应用场景和效果等角度进行了较为全面的分析,最终通过引擎设计和优化实现了提升查询性能的同时节约数仓存储的目标,降低了用户的数据使用成本。
在实际工作中,我们经常会遇到一堆数据,对数据的有效分析至为关键,而数据的分布就是一种非常重要的数据属性,需要通过合适的可视化手段进行分析。本文参考[1],基于seaborn库介绍一些常用的数据分布可视化方法。
随着AI技术的发展,越来越多的产品尝试结合AI进行功能升级,作为设计师的你是否也在面临这样的问题:如何将AI技术与场景需求更好的结合,为用户提供顺畅的AI原生设计体验呢? 本文将以AI装扮项目为例,分两部分介绍我们是如何通过深入分析用户痛点与需求,结合公司内部能力支持,找到AI创新突破口。同时发挥设计优势,在没有行业参考前提下,探寻出一条AI创新实践之路,设计主导创新方案优化落地。
4年前在《AutoDiff理解》 之第一篇“自动求导技术在深度学习中的应用”[1]中打算写一个关于autodiff的系列文章,因为工作和学习上比较忙碌(Lan Duo :P),就一直拖到了现在。刚好最近又在学习OPEN MLSYS[2],借此机会将静态图中的autodiff笔记也一并写完吧。如有谬误请联系指出。
贴吧的商业化变现之路一直是坎坷的,传统的广告变现效果是短平快,但对百度贴吧这样的社区产品并非最优选择:过多广告会影响用户交流和创作,进而阻碍优质内容生产,损失的还是社区自身的流量和声誉。 为了实现商业收入与用户体验的双赢,我们在贴吧探索非广告变现的尝试中,将目光聚焦在游戏行业。贴吧天然聚集了在游戏上有共同话题的吧友们,并且既往广告收入中,游戏也是占比最大的。因此,无论从用户层面还是从商业层面,游戏垂类都是我们探索非广告变现新模式的最佳实验田。
随着互联网和物联网的高速发展,产生了大量的结构化、半结构化数据。在百度集团内部, BTS(Baidu Table Storage) 成为处理这些半结构化数据的关键产品。随着技术的不断发展和业务需求的多样化,BTS 在百度内部经历了从支持单一 Table 能力到支持宽表、时序等多模能力的演进。 BTS 是百度智能云的半结构化存储产品,对内支撑百度核心业务(搜索、Apollo、凤巢、feed、系统监控等),对外提供高性能、低成本的 NoSQL 表格存储服务。 BTS 可用于丰富的场景,比如横向业务场景(分布式存储、结构化、聚合、高性能检索)、纵向行业场景(互联网、广告、feed、物联网、大数据、时序)以及一体化解决方案(大数据分析生态,监控)等,支撑业务创新。并且提供了多种 API、SDK 和可视化的 Web 管理平台供研发人员快速接入。通过 Batch 写、并发读、多级 Cache 加速等方式,打破性能瓶颈。通过热备副本、实时 Failover 和表回收站技术保证数据库高可用。另外,BTS 还提供企业级安全保障,服务可用性高达99.9%,数据可靠性达到了 99.99999999%(1