以太坊联合创始人 Vitalik Buterin 已认可新的 Token for Image Tokenizer (TiTok) 压缩方法,用于其潜在的区块链应用。
不要与社交媒体平台 TikTok 混淆,新的 TiTok 压缩方法显著减小了图像大小,使其更适合存储在区块链上。
Buterin 在去中心化社交媒体平台 Farcaster 上强调了 TiTok 的区块链潜力,称“320 位基本上是一个哈希值。小到足以让每个用户上链。”
这一发展可能对个人资料图片 (PFP) 和非同质化代币 (NFT) 的数字图像存储产生重大影响。
TiTok 图像压缩
TiTok 由字节跳动和慕尼黑工业大学的研究人员共同开发,可以在不损失质量的情况下将图像压缩为 32 个小数据块(位)。
根据 TiTok 研究论文,先进的人工智能 (AI) 图像压缩使 TiTok 能够将 256×256 像素的图像压缩为“32 个离散标记”。
TiTok 是一个一维 (1D) 图像标记化框架,它“打破了 2D 标记化方法中存在的网格约束”,从而产生更灵活、更紧凑的图像。
“因此,它可以显著加快采样过程(例如,比 DiT-XL/2 快 410 倍),同时获得具有竞争力的生成质量。”
TikTok 研究论文展示了图像压缩大小的比较。资料来源:TikTok
机器学习图像
TiTok 利用机器学习和先进的人工智能,使用基于变换器的模型将图像转换为标记化表示。
该方法使用区域冗余,这意味着它识别并使用图像不同区域中的冗余信息来减少最终产品的整体数据大小。
“生成模型的最新进展凸显了图像标记在高分辨率图像有效合成中的重要作用。”
根据研究论文,TiTok 的“紧凑潜在表示”可以产生“比传统技术更高效、更有效的表示”。
使用 TiTok 框架 (c) 进行图像重建 (a) 和生成 (b) 的图示。来源:TiTok
TiTok,不是TikTok
尽管名字相似,但社交媒体平台 TikTok 并未获得 Buterin 的认可。
以太坊联合创始人强调了 TiTok 的区块链潜力,为这种新的人工智能驱动的图像压缩方法增添了可信度。
“与将图像潜在空间视为 2D 网格的现有 2D VQ 模型不同,我们提供了一种更紧凑的公式来将图像标记为 1D 潜在序列。”
提出的新方法可以“用比“2D 标记器”少 8 到 64 倍的标记来表示图像”,该团队希望这项研究能够为“更有效的图像表示”提供启示。