上海体育频道直播节目
首页 > 新闻资讯 > 上海体育频道直播节目
AI版华尔街之狼!o3-mini靠「神之押注」狂赚9倍DeepSeek R1最特立独行

时间: 2025-09-12 12:32:53 |   作者: 上海体育频道直播节目

2025-09-12

  【新智元导读】AI能像科幻电影中的先知相同猜测未来吗?一个名为「Prophet Arena」的全新基准测验,正通过猜测实在国际事情来评价AI的「预言」才能。

  以ChatGPT为代表的AI,则能够精确的通过曩昔的语料来「猜测下一个Token」。

  那问题来了,AI能不能像先知相同,从全国际的凌乱信息里找出蛛丝马迹,精确地猜测未来呢?

  在昨夜的男篮亚洲杯冠军争夺战中,我国男篮虽以1分之差惜败澳大利亚,但已是近十年来的最好成果!

  信任绝大部分人都不会猜到这个比分,那么,AI能否根据我国队此前的体现,到呢?

  更进一步的,AI能否像拉普拉斯妖相同,在获取了当下国际的全部信息后,精确猜测未来的全部?

  假如它能在某一瞬间知道国际中全部粒子的方位与速度,而且彻底了解自然规律。

  今日要介绍的Prophet Arena便是一个通过实时更新的实在国际猜测使命来评价AI体系猜测智能的基准测验。

  把商场共同、自动化猜测、信息收拾和社区洞悉结合起来,构成更强的全体猜测才能

  为「人机协作」而生:你能够给AI供给线索,看看它的猜测怎么改变;AI也会把它的考虑进程告知你。

  直面实在国际:AI的猜测直接与实在的投注抉择计划挂钩,体现好的模型真的能在虚拟商场里赚到钱。

  Prophet Arena以实时猜测商场事情为依托,初次建立了一个无法「刷题」的动态基准。

  Prophet Arena从像Kalshi和Polymarket这样的猜测商场渠道选择抢手、多样且周期性的实在事情作为考题。

  Kalshi是一家美国的金融买卖所和猜测商场渠道,是美国第一个受美国产品期货买卖委员会(CFTC)监管的、专心于买卖「事情成果」的买卖所

  AI模型们使用搜索引擎,像侦察相同搜集关于某个事情的新闻报道,收拾成一份精粹的「情报简报」。一起,也会把其时的商场行情报价(能够看作是大众的团体才智)放进去。

  拿到相同的情报后,每个AI模型都要提交一份具体的「猜测陈述」:对全部或许的成果给出一个概率散布,并附上长篇大论的理由,解说自己为什么这么看。

  事情完毕,成果揭晓。会用一套专业的目标来评价AI的猜测到底有多准,然后更新在一个实时排行榜上。

  排行榜主要看两个目标:一个是衡量精确度和校准度的Brier分数(越高越好),另一个是模仿实在投注的均匀报答(看谁能挣钱)。

  除了上述两个中心目标外,Prophet Arena还采用了受统计学和心思丈量建模启示的高档评价办法,如项目反应理论(Item Response Theory,IRT)和广义Bradley-Terry(BT)模型。

  在Brier分数不高(0.3-0.5分)的区间里,反而诞生了许多报答率惊人的猜测。

  比方一场温布尔登网球赛,赛前商场共同以为选手保罗有84%的胜率,甚至在开赛前一度攀升至95%。

  正是这细小的差异,让模型在下注时,以为押注对手奥夫纳取胜的「性价比」更高。

  你看,AI并没有精确猜测到胜者,所以它的精确度分数(Brier分数)很一般。

  这说明,成为一个精确的预言家和成为一个挣钱的投资者,是两种不彻底相同的技术。

  为了讨论这一点,查看了每个Brier得分区间的模型构成,每个模型用不同的色彩标明。

  绝大多数LLM在猜测时倾向于与干流信息保持共同,因而大部分猜测会集在高Brier分数区间。

  比方在「AI监督管理法规会在2026年前成为联邦法令吗?」这个事情上,商场以为或许性只需25%。

  激进派代表Qwen3:它看到各种法案都在推动,觉得气势很猛,直接给出了75%的超高概率。

  保守派代表Llama 4 Maverick:它也看到了相同的信息,但以为立法进程杂乱又缓慢,所以只给出了比商场略高一点的35%。

  AI的猜测并非随机,它们有着结构化的推理和共同的危险偏好,就像人类专家也会有观念不合相同。

  例如在圣地亚哥与多伦多的美国工作足球大联盟竞赛中,o3-mini在1美元的投注上获得了9美元的报答。

  根据商场数据和新闻来源,o3-mini猜测多伦多取胜的概率为30%,而商场隐含的概率仅为11%(价格=0.11)。

  虽然多伦多是不被看好的一方,但AI辨认到了正的期望值,并因为其最大的优势比率30%/11%≈3。

  它总能找到一些商场没注意到的细微差别,然后下注在那些「性价比」超高的选项上。

  就像在上面那场足球赛中,商场以为多伦多队只需11%的胜算,但o3-mini通过剖析以为有30%。

  所以,在猜测的国际里,成功的要害不在于每次都对,而在于你对的时分能带来多大的报答。

  数值越低(色彩越深的单元格)标明概率推理更挨近共同;数值越高(色彩越浅的单元格)则标明不合越大。

  其间一个杰出的模型是DeepSeek R1,它的猜测成果常常与其他模型截然不同。

  与Kimi K2、o3和Llama 4 Maverick等模型比较,它的L2间隔一直高于0.7,这标明其或许采用了不同的校准方法或内部抉择计划机制。

  在频谱的另一端,比如Grok-4和GPT-5之类的模型常常作出高度共同的猜测,L2间隔一般低于0.3。

  换句话说,这张图展现了AI猜测的多样性:有些模型构成「团体共同」、有些模型像「特立独行的贰言者」。

  想象,AI体系将成为猜测商场的活跃参与者,将人类的直觉洞悉与AI强壮的数据剖析才能相结合,终究提高整个社会的团体远见,为那些高危险的抉择计划供给更牢靠的根据。

  究竟,假如说言语模型的下一步是猜测下一个词,那么它的终极形状,或许便是猜测这个实在国际的下一个事情。

  特别声明:以上内容(如有图片或视频亦包含在内)为自媒体渠道“网易号”用户上传并发布,本渠道仅供给信息存储服务。

  【2025.9.11】于模糊怎么回事?音综的海选?冯禧商演价位?赵丽颖和王一博?黄景瑜和他前妻?敖瑞鹏某音?

  北京男博士每月捐赠13次,女医生频频约谈,2月后知晓线岁前国乒名将直言:只需给我钱,打我嘴巴子都没联系

  北京一对新人在海底捞办180人婚宴!花费4万多元,共摆了50多桌:想吃什么随意点

  我国驻荷兰使馆发言人:任何曲解联大第2758号抉择权威性与有效性的行径都是螳臂当车

  曝闻名反贼李硕已从美国回来国内,曾在人人网宣告“建国”,现在盛赞我国国际一流

  35场9球15助攻!德转官方:18岁巴萨边锋亚马尔获评上赛季西甲MVP

  已知实数a,b,c满意a+b+c=2,abc=4,求a,b,c中最大者的最小值

  47项!教育部发布2025—2028学年面向中小学生展开的全国性竞赛活动名单

  《编码物候》展览开幕 北京年代美术馆以科学艺术解读数字与生物交错的国际节律