发布日期:2024-09-16 00:55 点击次数:118
警告!不要在ChatGPT里问最新o1模子是若何想考的——爱色军团
只须尝试几次,OpenAI就会发邮件要挟取销你的使用经验。
请住手此步履,确保您使用ChatGPT时顺应咱们的使用要求。违背此要求的步履可能导致失去OpenAI o1看望权限。
大模子新范式o1横空出世不到24小时,就照旧有不少用户响应收到这封警告邮件,引起世东谈主起火。
有东谈主响应只须教唆词里带“reasoning trace”、“show your chain of thought”等枢纽词就会收到警告。
以致统共幸免出现枢纽词,使用其他妙技指导模子绕过规模王人会被检测到。
也有东谈主宣称我方果然被封号了,为期一周。
这些用户王人在试图套话o1,让他复述出完好的里面想维进程,也即是沿路原始reasoning tokens。
当今,各人在ChatGPT界面通过伸开按钮能看到的,仅仅一份对原始想维进程的纲要。
实质上,在o1发布时OpenAI就给出了荫藏模子完好想维进程的事理。
追念一下:OpenAI里面需要监测模子的想维进程,因此不可在这些原始tokens中加入安全规模,也就不便捷让用户看到。
不外这个事理并不是统共东谈主王人认同。
有东谈主指出,o1想维进程即是其他模子最好的观察数据,是以OpenAI不想这些细致数据被别的公司扒走。
也有东谈主合计这诠释o1果然莫得什么护城河,一朝想维进程袒露就很容易被别东谈主复制。
以及“这是让咱们只需盲目笃信AI的谜底,无须作念出任何讲解吗?”
对于o1模子背后的时候旨趣,此次泄漏的极度少,有用信息险些独一“用了强化学习”。
总之,OpenAI是越来越不Open了。
o1即是草莓,但并非GPT-5
当今不错细目o1即是OpenAI炒作很深化的“草莓”,或者说是用了“草莓”所代表的方法。
但他不错手眼下一代模子GPT-5么,如故仅仅GPT-4.X?
越来越多的东谈主开动怀疑,它仅仅基于GPT-4o作念的工程养息。
闻明爆料账号Flowers(原Flowers from the future)称,OpenAI职工里面把o1称作念“带推理的4o”。
而况他宣称好多OpenAI职工沉默点赞了这条爆料,上头的截图也恰是来自OpenAI职工。
但马斯克前一阵把推特改版成除了楼主之外其他东谈主无法看到谁点赞了什么,是以当今还无法证实这条音问。
在OpenAI设立者账号刚刚举办的“来者不拒”(Ask Me Anything)步履中,Flowers也作念了追问。
你好迷人 户外OpenAI职工在这里回复了好多问题爱色军团,但散失了这个点赞好多排在前边的问题。
以致奥特曼本曼刚刚又出来当谜语东谈主,示意“草莓”照旧告一段落,下一款代号“猎户座”Orion的新模子还在路上。
此前有音问称“猎户座”是OpenAI的下一代新旗舰模子,由“草莓”也即是o1生成的合成数据观察。
而猎户座恰是奥特曼口中“冬季星座”的代表之一。
说回到已发布的o1,围绕它的另一种月旦声息是“不顺应科研依次”。
举例莫得援用之前推理时候算计的联系责任,同期也穷乏与其他公司最先进模子的比较。
针对前小数,有东谈主指出OpenAI照旧不再是一个盘问实践室,应该被视为一家交易公司了。
巧合他们仍会假装我方是个盘问实践室,方向是招募想要作念盘问责任的东谈主才。
不外针对后小数,既然API发布了,要不要与其他前沿模子比较就由不得你了,好多第三方Benchmark已不竭跑出成果。
在Keras之父举办的100万好意思金AGI Prize比赛中,o1-preview和o1-mini两个版块在公开测试集上王人跳动了自家GPT-4o。
但o1-preview与近邻Claude 3.5-Sonnet仅仅打了个平手。
在o1刺眼宣传的代码才智上,开源结对编程器具aider团队运行了测试,o1系列也莫得取得彰着上风。
对于通盘代码重写任务,o1-preiview取得79.7分,Claude-3.5-Sonnet取得75.2分,o1率先4.5分。
但对于更实用的代码裁剪任务,o1-preview反而过时于Claude-3.5-Sonnet,有2.2分的差距。
另外aider团队教唆,如果当今想用o1系列替代Claude编程,资本上要高好多。
与OpenAI有配合关系的“AI时势员”Devin团队,照旧提前拿到了o1看望经验。
在他们的测试中,由o1系列驱动Devin基础版块,与GPT-4o比较取得相称大的普及。
不外比较已发布的Devin分娩版块如故有较大差距,主如果由于Devin分娩版块在独到数据上进行了观察。
另外根基Devin团队共享,o1在得出正确的责罚决议之前时时会回溯并洽商不同的选项,而况不太可能出现幻觉或自信地失误。
使用o1-preview时,Devin更有可能正确会诊bug的根底原因,而不是责罚问题的症状。
在更深爱数学和逻辑推理的Livebench榜单中,o1-preview在代码单项过时的情况下,总分上跳动Claude-3.5-Sonnet并拉开彰着差距。
Livebench团队共享这还仅仅初步成果,因为好多测试中还内置了“请一步一步地想考”等教唆词技巧,这并不是使用o1的最好方法。
在汉文大模子抽象测评基准SuperCLUE的汉文复杂任务高阶推理测试中,o1-preview的推理才智也大幅率先。
临了追念一下,使用o1模子还需要刺眼的一些场地:
资本相称高,1百万输出tokens就要60好意思元,价钱整夜回到GPT-3时期
荫藏的resoning tokens亦然算在输出tokens中,看不到,可是要付费
大广大任务最好先使用GPT-4o,发现不够用了再切换o1,以从简资本。
代码任务仍然优先使用Claude-3.5-Sonnet
总之围绕OpenAI新模子o1,设立者社区还有好多疑问。
o1开启了AI高阶推理的新范式,但它自己还不算完善,若何施展他的最大价值还有待探索。
在此布景下,OpenAI举办的“来者不拒”步履,在4个小时内就收到上百条发问。
底下附上对整场步履内容的精选和追念。
OpenAI职工“来者不拒”
起初对于这个转眼发布的新模子,好多东谈主深嗜为什么OpenAI给它取了o1这么一个名字?
这是因为在OpenAI看了,o1代表了AI才智的一个新的层级,因此对“计数器”进行了重置,而o则代表OpenAI。
就像o1发布时奥特曼说的,不错进行复杂推理的o1,是一个新范式的开动。
对于其中preview和mini两个版块号,OpenAI科学家也阐发了网友的一些估量——
preview是一个临时版块,郑再版将在异日上线(实质上preview版块是o1的一个早期checkpoint);而mini版不保证近期之内会有更新。
配合OpenAI成员Kevin Lu之前发布的这张图来看,就愈加清爽明清爽。
与preview比较,mini在某些任务上施展出色,尤其是与代码联系的任务,还不错探索更多的想维链,但天下知知趣对少些。
对此,OpenAI科学家赵盛佳的讲解是,mini是一个高度专诚化的模子,只关注少部分的才智,是以不错更深入。
也算是揭晓了之前奥特曼在这个问题上打的一个哑谜。
对于o1的运作方法,OpenAI科学家Noam Brown也明确线路,并非是像部分网友合计的模子+CoT构成的“系统”,而是一个照旧被观察得原生具备生成想维链才智的模子。
不外推理进程中的想维链会被荫藏,而况官方照旧明确了莫得向用户展示关连token的筹议。
对此OpenAI泄漏的为数未几的音问是,CoT的联系token是追念性的,且不保证统共和推理进程匹配。
除了推理模式,在此次问答步履中还大概得知,o1与GPT-4o比较不错处理更长的文本,而且异日还会不绝加多。
施展上,在OpenAI里面的测试中,o1显现出了玄学推理才智, 不错想考诸如“人命是什么?”之类的玄知识题。
盘问东谈主员还使用o1创建了一个GitHub机器东谈主,大概将代码ping给统共者以供审核。
虽然对于一些非推感性质的任务,比如创意写稿,o1的施展比较GPT-4o普及并不彰着,以致巧合还要稍逊一筹。
另外抽象一些发问来看,对于网友们关注的一些未上线功能,OpenAI线路正在或有筹议盘问,但莫得明确的上线时候:
暂不撑握器具调用,但函数调用、代码讲解器王人在异日筹议之中
异日API更新将加入结构化输出、系统教唆词、教唆词缓存功能
微调也已在筹议中
API用户将不错自行设定对推理时候和token奢靡的规模
o1具有多模态才智,对准的是MMMU等数据集上的SOTA,之后将实装
性能上,OpenAI也正在入部属手裁减蔓延和推理所需时候。
临了是东谈主们,尤其是API用户关注的价钱问题,毕竟洽商到将推理进程计入输出token,o1的订价如故比较高的。
OpenAI线路“将衔命每1-2年降价的趋势”,而况在使用量规模变得更宽松时,批量API订价也会上线。
网页/APP端的Plus用户,当今则是要受到每周preview30条+mini50条音问的规模。
不外好音问是,就在今天凌晨,由于东谈主们对o1的确太心理,导致好多东谈主很快就把额度用完,是以OpenAI特例把额度重置了一次。
— 完 —爱色军团