摩根大通发布了DocLLM,一款专为多模态文档理解设计的生成式语言模型,通过轻量级扩展LLM,避免昂贵的图像编码器,以提高文档分析效能。
然后,这些特征表示会被进一步转化为一系列离散的代码,每个代码都对应码本里的一个离散词向量。码本就像一个字典,里面有限个数的离散词向量。特征表示通过在码本中找到最匹配的那个离散词向量,来获得对应的离散代码。
**划重点:**该方法利用专有的大型语言模型在约100种语言的文本嵌入任务中生成了各种合成数据。与复杂的预训练阶段不同,该方法使用基本的对比损失函数,将开源的仅解码的大型语言模型在生成的合成数据上进行微调。
另外,DreamTalk还具有说话风格预测的功能,能够根据语音预测说话者的风格,并同步表情,使得动画更加贴近原始音频。此外,该框架适用于多种场景,可以用于歌曲、不同类型的肖像,甚至在嘈杂环境中也能表现良好。