AI版华尔街之狼！o3-mini靠「神之押注」狂赚9倍DeepSeek R1最特立独行_上海体育频道直播节目

上海体育频道直播节目

首页 > 新闻资讯 > 上海体育频道直播节目

AI版华尔街之狼！o3-mini靠「神之押注」狂赚9倍DeepSeek R1最特立独行

时间: 2025-09-12 12:32:53 | 作者: 上海体育频道直播节目

2025-09-12

【新智元导读】AI能像科幻电影中的先知相同猜测未来吗？一个名为「Prophet Arena」的全新基准测验，正通过猜测实在国际事情来评价AI的「预言」才能。

以ChatGPT为代表的AI，则能够精确的通过曩昔的语料来「猜测下一个Token」。

那问题来了，AI能不能像先知相同，从全国际的凌乱信息里找出蛛丝马迹，精确地猜测未来呢？

在昨夜的男篮亚洲杯冠军争夺战中，我国男篮虽以1分之差惜败澳大利亚，但已是近十年来的最好成果！

信任绝大部分人都不会猜到这个比分，那么，AI能否根据我国队此前的体现，到呢？

更进一步的，AI能否像拉普拉斯妖相同，在获取了当下国际的全部信息后，精确猜测未来的全部？

假如它能在某一瞬间知道国际中全部粒子的方位与速度，而且彻底了解自然规律。

今日要介绍的Prophet Arena便是一个通过实时更新的实在国际猜测使命来评价AI体系猜测智能的基准测验。

把商场共同、自动化猜测、信息收拾和社区洞悉结合起来，构成更强的全体猜测才能

为「人机协作」而生：你能够给AI供给线索，看看它的猜测怎么改变；AI也会把它的考虑进程告知你。

直面实在国际：AI的猜测直接与实在的投注抉择计划挂钩，体现好的模型真的能在虚拟商场里赚到钱。

Prophet Arena以实时猜测商场事情为依托，初次建立了一个无法「刷题」的动态基准。

Prophet Arena从像Kalshi和Polymarket这样的猜测商场渠道选择抢手、多样且周期性的实在事情作为考题。

Kalshi是一家美国的金融买卖所和猜测商场渠道，是美国第一个受美国产品期货买卖委员会（CFTC）监管的、专心于买卖「事情成果」的买卖所

AI模型们使用搜索引擎，像侦察相同搜集关于某个事情的新闻报道，收拾成一份精粹的「情报简报」。一起，也会把其时的商场行情报价（能够看作是大众的团体才智）放进去。

拿到相同的情报后，每个AI模型都要提交一份具体的「猜测陈述」：对全部或许的成果给出一个概率散布，并附上长篇大论的理由，解说自己为什么这么看。

事情完毕，成果揭晓。会用一套专业的目标来评价AI的猜测到底有多准，然后更新在一个实时排行榜上。

排行榜主要看两个目标：一个是衡量精确度和校准度的Brier分数（越高越好），另一个是模仿实在投注的均匀报答（看谁能挣钱）。

除了上述两个中心目标外，Prophet Arena还采用了受统计学和心思丈量建模启示的高档评价办法，如项目反应理论（Item Response Theory，IRT）和广义Bradley-Terry（BT）模型。

在Brier分数不高（0.3-0.5分）的区间里，反而诞生了许多报答率惊人的猜测。

比方一场温布尔登网球赛，赛前商场共同以为选手保罗有84%的胜率，甚至在开赛前一度攀升至95%。

正是这细小的差异，让模型在下注时，以为押注对手奥夫纳取胜的「性价比」更高。

你看，AI并没有精确猜测到胜者，所以它的精确度分数（Brier分数）很一般。

这说明，成为一个精确的预言家和成为一个挣钱的投资者，是两种不彻底相同的技术。

为了讨论这一点，查看了每个Brier得分区间的模型构成，每个模型用不同的色彩标明。

绝大多数LLM在猜测时倾向于与干流信息保持共同，因而大部分猜测会集在高Brier分数区间。

比方在「AI监督管理法规会在2026年前成为联邦法令吗？」这个事情上，商场以为或许性只需25%。

激进派代表Qwen3：它看到各种法案都在推动，觉得气势很猛，直接给出了75%的超高概率。

保守派代表Llama 4 Maverick：它也看到了相同的信息，但以为立法进程杂乱又缓慢，所以只给出了比商场略高一点的35%。

AI的猜测并非随机，它们有着结构化的推理和共同的危险偏好，就像人类专家也会有观念不合相同。

例如在圣地亚哥与多伦多的美国工作足球大联盟竞赛中，o3-mini在1美元的投注上获得了9美元的报答。

根据商场数据和新闻来源，o3-mini猜测多伦多取胜的概率为30%，而商场隐含的概率仅为11%（价格=0.11）。

虽然多伦多是不被看好的一方，但AI辨认到了正的期望值，并因为其最大的优势比率30%/11%≈3。

它总能找到一些商场没注意到的细微差别，然后下注在那些「性价比」超高的选项上。

就像在上面那场足球赛中，商场以为多伦多队只需11%的胜算，但o3-mini通过剖析以为有30%。

所以，在猜测的国际里，成功的要害不在于每次都对，而在于你对的时分能带来多大的报答。

数值越低（色彩越深的单元格）标明概率推理更挨近共同；数值越高（色彩越浅的单元格）则标明不合越大。

其间一个杰出的模型是DeepSeek R1，它的猜测成果常常与其他模型截然不同。

与Kimi K2、o3和Llama 4 Maverick等模型比较，它的L2间隔一直高于0.7，这标明其或许采用了不同的校准方法或内部抉择计划机制。

在频谱的另一端，比如Grok-4和GPT-5之类的模型常常作出高度共同的猜测，L2间隔一般低于0.3。

换句话说，这张图展现了AI猜测的多样性：有些模型构成「团体共同」、有些模型像「特立独行的贰言者」。

想象，AI体系将成为猜测商场的活跃参与者，将人类的直觉洞悉与AI强壮的数据剖析才能相结合，终究提高整个社会的团体远见，为那些高危险的抉择计划供给更牢靠的根据。

究竟，假如说言语模型的下一步是猜测下一个词，那么它的终极形状，或许便是猜测这个实在国际的下一个事情。

特别声明：以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布，本渠道仅供给信息存储服务。

【2025.9.11】于模糊怎么回事？音综的海选？冯禧商演价位？赵丽颖和王一博？黄景瑜和他前妻？敖瑞鹏某音？

北京男博士每月捐赠13次，女医生频频约谈，2月后知晓线岁前国乒名将直言：只需给我钱，打我嘴巴子都没联系

北京一对新人在海底捞办180人婚宴！花费4万多元，共摆了50多桌：想吃什么随意点

我国驻荷兰使馆发言人：任何曲解联大第2758号抉择权威性与有效性的行径都是螳臂当车

曝闻名反贼李硕已从美国回来国内，曾在人人网宣告“建国”，现在盛赞我国国际一流

35场9球15助攻！德转官方：18岁巴萨边锋亚马尔获评上赛季西甲MVP

已知实数a,b,c满意a+b+c=2，abc=4，求a,b,c中最大者的最小值

47项！教育部发布2025—2028学年面向中小学生展开的全国性竞赛活动名单

《编码物候》展览开幕北京年代美术馆以科学艺术解读数字与生物交错的国际节律

上一篇:导购空调_空气净化器_智慧空净频道_天极网下一篇:我国股市最会挣钱的一种人：史上最安全的买点“单阳不破”假如呈现便是主力拉升之时

新闻资讯

新闻中心

NEWS CENTER

联系我们

24小时服务电话：157-3185-7799 13831829598

传真：0318-7979969

邮箱：hbyinhua@163.com

地址：河北省安平县城东开发区

上海体育频道直播节目

相关新闻

新闻资讯

新闻中心

联系我们