告别Tokenizer,BLT架构开启多模态融合新篇章

Meta提出BLT架构,无需Tokenizer直接处理字节流,有望解决多模态融合难题。

原文标题:无需Tokenizer,多模态对齐融合还会是难题吗?

原文作者:机器之心

冷月清谈:

Meta、芝加哥大学等机构的研究者近期提出了一种名为Byte Latent Transformer (BLT) 的新型字节级大型语言模型架构。BLT摒弃了传统的tokenizer,直接建模原始字节流,将字节编码成动态大小的块(patches)进行处理。

相比于传统的基于标记化的模型,BLT在保持规模的同时实现了性能匹配,并在推理效率和稳健性上取得了显著提升。

BLT无需tokenizer的特性引发了广泛关注,尤其是在多模态模型训练方面。Reddit网友指出,由于不同模态的数据最终都能以字节的形式表现,字节级模型在多模态数据处理方面具有极大潜力,有望解决多模态模型训练中不同模态对齐、融合的难题。

目前,多模态对齐和融合主要面临以下挑战:

1. 模态差异:不同模态数据(文本、图像、视频、音频等)的形成方式和内部结构差异巨大,需要将其转换为统一的向量形式。文本通常采用Tokenization和Embedding,图像则采用Vit Transformer模型进行处理。

2. 语义对齐:不同模态的向量在不同的向量空间中学习形成,对事物的理解存在差异。多模态预训练的目标是实现不同模态的对齐,常用的方法包括隐式对齐和显式对齐。

3. 技术挑战:多模态对齐面临模态特征对齐、计算效率、数据质量和训练数据集规模等挑战,其中如何准确对齐视觉和语言特征是一个关键任务。

怜星夜思:

1、BLT 模型虽然可以直接处理字节流,看起来很方便,但它如何处理不同语言的编码问题,比如中文、日文、韩文以及各种emoji?
2、抛开技术细节,假设BLT真的解决了多模态对齐和融合的问题,那么它在实际应用中会有哪些突破性的应用场景?
3、文章提到了隐式对齐和显式对齐两种方法,这两种方法各自的优缺点是什么?除了这两种方法,还有没有其他多模态对齐的方法?

原文内容

机器之心PRO · 会员通讯 Week 51

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---

1. 无需Tokenizer,多模态对齐融合还会是难题吗?

为什么无需 tokenizer 的新架构有很大的潜在价值?BLT 对多模态模型训练、推理会产生哪些影响?目前不同模态的对齐、融合常用的方法是什么?存在哪些难题?近期有哪些工作在解决不同模态差异方面指出了新的方向?这些工作旨在解决什么问题?...

2. Ilya 小题大作?「预训练终结」≠ Scaling Law 撞墙?

Ilya哪些观点引起了争议?业内都有哪些论调在反驳Ilya?互联网数据真的会告罄吗?「预训练终结」的争议本质上是什么?预训练如果终结会带来瓶颈吗?...

3. 深度访谈:Gemini 2.0 如何映射 DeepMind 的研究路线?

Oriol Vinyals 透露了 Gemini 2.0 的哪些额外信息?从 AI Agent 到多智能体系统,模型架构发生了哪些变化?预训练与强化学习为何如此重要?如何解决大模型规模扩展出现的收益递减情况?为什么给大型语言模型等核心模型赋予「数字身体」这事很重要?...


...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 9 项,国内方面 8 项,国外方面 13 项。

本期通讯总计 23884 字,可免费试读至 9% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 



要事解读①  无需Tokenizer,多模态对齐融合还会是难题吗?

日期:12 月 16 日

事件:来自 Meta 、芝加哥大学等机构的研究者近期提出了一种新型字节级大型语言模型架构 Byte Latent Transformer (BLT) ,摒弃了传统的 tokenizer 架构,直接建模原始字节流。社交平台 Reddit 多位网友指出,BLT 架构对于解决多模态模型训练中不同模态对齐、融合问题具有极大的潜在价值。

Meta 新工作提出无需 Tokenizer 的架构,为解决不同模态的差异难题提供了新思路?

1、近日,来自 Meta 、芝加哥大学等机构的新工作《 Byte Latent Transformer: Patches Scale Better Than Tokens 》引发了广泛关注。该研究工作提出了一种名为 Byte Latent Transformer (BLT) 的新型字节级大型语言模型(LLM)架构,通过将字节编码成动态大小的块(patches)来进行处理,patches 作为主要的计算单元。与基于标记化(tokenization)的模型相比,BLT 在保持规模的同时首次实现了性能匹配,同时在推理效率和稳健性上取得了显著提升。[1]
2、BLT 无需 tokenizer 架构,通过直接建模原始字节流的方式引发了网友的热议。尤其是在社交平台 Reddit 上,多位网友探讨了该架构对多模态模型训练、推理的影响。
① 多模态模型的预训练中,对齐处理图像、视频、声音等不同模态的数据是一大难题。BLT 将字节编码成动态大小的 patches  作为计算单元,而不同模态的数据最终都能以字节的形式表现,字节级模型将在多模态数据处理方面有很大的潜力。[2] 
在现有的多模态模型训练中,不同模态对齐、融合仍有哪些难题在探索中?
1、文本、图像、视频和音频等不同模态类型的数据呈指数级增长,而多个模态的集成可以通过利用不同模态间的互补信息,提高模型的准确性及理解复杂现实世界场景的能力。不同模态间的差异使得有效集成和利用多模态数据存在模态对齐和融合两大技术挑战。
2、由于不同模态往往来自不同的传感器,数据的形成方式和内部结构有很大的区别,不同模态间存在差异。因此,在大模型训练前,首先要先将文本、图像等模态转换成统一的向量形式。
① Tokenization 将文本分割成模型可以处理的 token 或子词的过程,Embedding 则将这些 token 映射到多维空间中的向量,捕捉其语义含义,使得模型能在神经网络中处理离散的 token,并学习单词间的复杂关系。
② 图像转 Emdedding 一般采用 Vit Transformer 模型进行处理,首先将图像分割成固定大小的 patches,类似于文本的 Tokenization,然后通过线性变换得到 patch embeddings。
③ 由于不同模态的向量是在不同的向量空间中学习并形成的,各自对事物的理解存在差异。由此,在多模态预训练中的目标即实现不同模态的对齐。通过训练输入和输出投影器(IP 和 OP)来实现不同模态之间的对齐,以便 LLM 主干能够有效地处理多模态输入。
3、模态对齐旨在解决不同模态间语义的一致性和匹配问题,建立不同模态间的语义关系,确保每个模态的表示在共同空间内对齐。
① 为了使不同的模态具有相同的语义表示,需要测量这些模态之间的相似性,同时考虑潜在的长距离依赖性和歧义。即对齐的目标是构建一个映射,将一个模态的表示与另一个共享相同语义的模态的对应表示对齐。
② 对齐分为两种类型:隐式和显式。显式对齐通常涉及使用相似性矩阵直接测量相似性,而隐式对齐通常是翻译或预测等任务的中间步骤。
③ 显式对齐直接测量不同模态之间的关系,通常使用相似性矩阵来直接测量模态间的相似性。其优点为提供了一个清晰的框架来测量相似性和建立对应关系,适用于需要明确对齐的场景,缺点是可能无法捕捉到模态间复杂的非线性关系,且在模态间存在冲突信息时可能不够灵活。
④ 隐式对齐不直接对不同模态的数据进行对齐,而是通过学习一个共享的潜在空间来改善主要任务的性能。这种方法在执行主要任务的过程中作为中间步骤,通常以潜在的方式进行。其优点是能够适应更广泛的情境,特别是涉及复杂或模糊数据关系的情况。允许模型在执行特定任务时自然地学习对齐,而不是依赖于显式的相似性测量。缺点是不如显式对齐直接和精确,不适用于在需要明确对应关系的场景。
⑤ 目前,多模态对齐面临的主要挑战包括模态特征对齐、计算效率、数据质量和训练数据集规模等。其中,如何准确对齐视觉和语言特征是一个关键任务。

我觉得BLT处理不同语言编码的关键可能在于它如何将字节流转换成patches。如果patches的划分方式能够考虑到不同语言的特性,比如中文的词语边界,那么就能更好地捕捉不同语言的语义信息。说不定它会结合一些语言模型的特性来进行优化。

关于BLT如何处理不同语言编码,我猜测它可能是直接把所有字符都当成字节流处理,毕竟Unicode本身也是一种字节编码方式。这样一来,它就不用区分不同语言了,相当于把所有语言都放在同一个空间里处理。不过,这样做会不会导致模型对某些语言的理解能力下降,还需要进一步研究。

有没有可能它其实还是用了某种类似Tokenizer的机制,只不过这个机制是在字节级别运作的?这样既可以保留字节流的优势,又可以针对不同语言进行特定的处理。只是论文里没有详细说明。

补充一点,隐式对齐通常依赖于特定的任务,比如翻译或预测。也就是说,它需要在完成任务的过程中学习对齐。而显式对齐则不需要依赖于特定的任务,可以直接测量不同模态之间的相似性。

更进一步,我觉得它可能可以用来创造更逼真的虚拟世界。现在的虚拟世界大多是基于图像和声音的,缺少触觉、嗅觉等其他感官信息。如果BLT能融合所有这些感官信息,那么虚拟世界就能更加真实,更加沉浸。