文章
本文深入研究了多模态分词的基本过程,解释了大型语言模型如何将其能力扩展到文本之外,以理解图像、音频和视频。它强调,所有媒体类型,尽管具有连续性,但必须首先转换为离散词元,才能与基于离散词元的 Transformer 架构兼容。对于图像分词,详细介绍了三种主要方法:用于将图像划分为固定大小单元的图像块嵌入(视觉 Transformer 风格)、用于将视觉数据压缩为学习的“视觉词典”的离散变分自编码器和向量量化,以及用于在共享的视觉-语言空间中创建语义上有意义的词元的 CLIP 风格对比嵌入。对于音频,本文介绍了用于保留声学属性的编解码器词元(神经音频编解码器)、用于语义内容的音素/字符词元(基于自动语音识别)和用于分层表示的多尺度词元堆栈。讨论了每种方法的技术过程、优点、局限性和典型应用,以及与计算效率、信息保存、时间分辨率和质量相关的关键权衡。本文简要提到了将视频分词处理为图像帧序列和相应的音频,并以提及无分词模型和自适应分词等未来趋势作为结尾。
本文深入探讨了 Reddit 的复杂通知推荐系统,该系统旨在解决在最大化用户参与度 (User Engagement) 的同时,减轻用户的通知疲劳这一双重挑战。它概述了一个四阶段流程:**预算分配 (Budgeting)**,它使用因果推断 (Causal Inference) 来动态确定每个用户的通知限制;**召回 (Retrieval)**,它使用基于规则的方法和双塔深度学习 (Deep Learning) 模型快速列出潜在的有趣帖子;**排序 (Ranking)**,它采用多任务学习 (Multi-task Learning) 深度神经网络来预测不同的用户参与行为(点击、点赞、评论);最后,**重排序 (Reranking)**,它应用产品策略、用户体验 (UX) 目标和业务逻辑(例如,多样性、内容类型强调)来优化最终的通知选择结果。该系统优先考虑低延迟、高新鲜度和用户参与度 (User Engagement),利用异步基础设施并与其他 Reddit 机器学习 (Machine Learning, ML) 系统共享核心组件。文章强调了系统的持续演进,以适应不断变化的用户习惯并整合更广泛的平台信号。