type
status
slug
summary
tags
category
password
date
icon
VL-RewardBench,涵盖主流的多模态任务 Hallucination / Reasoning / General Queries,GPT-4o 和 Gemini-1.5-Pro 都只有 65% 左右的准确率,开源模型更是难以超过 random guessing!完整的 Leaderboard:


教程如下
使用一张H100进行相应的推理,差不多需要花30分钟左右的时间,进行推理

COCO Caption
- 作者:fufu酱
- 链接:https://csfufu.life/article/1aa166b7-5648-8098-8252-f39a840b0eb6
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章