大模型测不出9.11和9.9哪个大？8个大模型都答错

2024-07-17 22:01 由未知发表于 #资讯

一道小学生难度的数学题难倒了一众海内外AI大模型。

9.11和9.9哪个更大？就此问题，记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字，认为9.11大于9.9，考虑到数字涉及的语境问题，记者将其限定为在数学语境下，如ChatGPT这样的大模型也照样答错。

在这背后，大模型数学能力较差是长期存在的问题，有行业人士认为，生成式的语言模型从设计上就更像文字思维而不是数字思维。不过，针对性地语料训练或许能在未来逐步提升模型的理科能力。

亚马逊真人改编剧集《辐射》自开播以来就大受欢迎，现在，该剧已获得16项艾美奖提名，其中包括两项大奖：最佳剧情类剧集奖和沃尔顿…阅读全文

在影子之间跳跃前进，守护日常的小精灵的故事！《SCHiM》（亥灵胎）正式发售！定格动画宣传片现已公开！阅读全文

西语区著名舅舅eXtas1stv近日爆料，小体量口碑神作《潜水员戴夫》将在7月登陆XGP阅读全文

今日，古科技幻想冒险RPG《九畿：岐风之旅》「辰极纪测试」正式开启！九畿十国大门开启，等你踏足东方幻想世界！阅读全文

Xbox和漫威联名推出的死侍翘臀手柄引起海外玩家社区讨论热潮，目前相关推特的转发量已经超过15万次，无数玩家都渴求能把小贱贱握在…阅读全文

《燧石枪：黎明之围》已于今日正式发售，首发同步加入XGP。该作的M站评分也已解禁，目前媒体均分71分，收录17篇评测。5条好评，12篇…阅读全文

Steam商店可以通过国区与外区饰品差价的方式获得相对低价的余额，这已经是各位老玩家均熟知的省钱技巧，但由于倒余额流程繁琐加上小…阅读全文

据外媒报道，《怪物猎人：荒野》全新骑乘动物鹭鹰龙雕像将在“怪物猎人20周年纪念-狩猎大展”东京会场中亮相。阅读全文

《墨剑江湖》先用其独具一格的工笔水墨画风，塑造出了一种有别于同类型游戏的独特诗意，又用其丰富多变的武学体系和出色的人物塑造…阅读全文

《死侍与金刚狼》即将上映，Xbox和微软展开合作，推出一款造型极其特殊的Xbox手柄，配色和各处细节均采用了小贱贱的战衣要素阅读全文