Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 1|回復: 0

当模型尝试将所有代币发送给同

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-5-9 19:15:23 | 顯示全部樓層 |閱讀模式

专家时会出现一种独特的失败模式。通常这是通过辅助损失和鼓励平衡专家使用的额外培训目标来解决的。我们发现处理多种模式与稀疏性相互作用会导致现有辅助损失无法解决的新故障模式。为了克服这个问题我们开发了新的辅助损失更多详细信息请参阅论文并在训练期间使用路由优先级这两项创新产生了稳定且高性能的多模态模型。新的辅助损失和路由优先级稳定并提高了整体性能左并提高了路由行为的成功率中和右。成功率低意味着路由器不会使用所有可用的专家并且由于达到了单个专家的容量而丢弃了许多令牌这通常表明稀疏模型学习得不好。

引入的组合可确保图像和文本的高路由成功率从而显着提高性能。使用进行对比学习在多模态对比学习中模型是在成对的图像文本数据例如照片及其标题上进行训练的。通常图像模型提  格鲁吉亚电话号码列表 取图像的表示不同的文本模型提取文本的表示。对比学习目标鼓励图像和文本表示对于相同的图像文本对接近而对于不同对的内容则远离。这种具有对齐表示的模型可以适应新任务无需额外的训练数据零样本例如如果图像的表示比单词更接近单词的表示则图像将被分类为狗猫。这个想法可以扩展到数千个类别被称为零样本图像分类。和都是双塔模型扩展了这个过程在流行的数据集上实现了和的零样本分类精度。




我们研究计算图像和文本表示的单塔模型。我们发现这会降低密集模型的性能可能是由于负面干扰或容量不足。然而计算匹配的不仅比一塔密集模型有所改进而且还优于两塔密集模型。我们使用与类似的训练方案训练了一系列模型。我们的密集模型实现了的零射击精度而达到了甚至优于更昂贵的两塔模型。如下所示与同等成本的密集模型相比对稀疏性的使用提供了显着的性能提升。对于给定的计算成本轴模型圆圈实线明显优于其密集基线三角形虚线。该架构指示底层变压器的大小从左到右增加。按照标准惯例小基础和大指的是模型比例。该数字指的是补丁大小较小的补丁意味着较大的架构。


回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|兔神天團-兔友綜合資訊交流園地

GMT+8, 2025-1-22 16:44 , Processed in 0.031319 second(s), 19 queries .

抗攻擊 by GameHost X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |