免责声明:金色财经所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(jinse.cn) 举报

    OpenAI发布GPT-4.5:性能全面超越前代

    上周,OpenAI推出了GPT-4.5,并声称这是“迄今为止规模最大、知识最丰富的模型”。该模型最初仅作为研究预览版推出,仅提供给ChatGPT Pro订阅用户(每月200美元)。不过,从今天起,更多OpenAI用户可以以更低的价格使用它。

    01.GPT-4.5访问权限扩大

    周三上午,OpenAI通过X平台发帖宣布,已开始向ChatGPT Plus用户推出GPT-4.5。最初发布时,OpenAI表示全面推出可能需要一到三个小时。然而,仅一小时后,GPT-4.5就全面推出,比预期的要快。

    对于ChatGPT Plus用户来说,GPT-4.5的具体使用限制尚不明确。

    OpenAI表示,计划为每位用户提供“较大的使用额度”,但随着公司对模型需求的进一步了解,这些额度可能会有所调整。ChatGPT Pro订阅用户仍然可以继续使用GPT-4.5,但如果想以更低的价格体验这一功能,可以选择每月20美元的ChatGPT Plus计划。

    02.什么是GPT-4.5?

    在发布时,OpenAI表示,用户在使用GPT-4.5时将感受到整体体验的提升,具体表现为减少“幻觉”现象、更精准地理解用户意图,以及更高的情商。

    总体而言,与之前的模型相比,GPT-4.5的交互更加直观和自然,这主要得益于其更丰富的知识储备和更强的上下文理解能力。

    get?code=MzczMmVmNDVhZWU5YWY1MTliYmQ3ODUzYjVhZDM3ZjgsMTc0MTMzNjYyMTE1MA==

    推动这一模型改进的两大核心方法是无监督学习(用于增强词汇知识和直觉)以及推理能力。

    尽管GPT-4.5并未提供OpenAI o1推理模型所具备的链式思维推理功能,但它仍然能够以更低的延迟提供更高水平的推理能力,同时还具备“社交线索感知”等其他改进。

    例如,在演示中,ChatGPT被要求在运行GPT-4.5和o1时生成一段传达仇恨信息的文本。o1版本花费了更多时间,并且只生成了一条非常严肃且略显严厉的回应。而GPT-4.5则提供了两种不同的回应,一种较为轻松,另一种更为严肃。两者都没有直接提及仇恨,而是表达了对“用户”行为选择的失望。

    同样地,当两个模型被要求提供某个技术主题的信息时,GPT-4.5的回答比o1的结构化输出更加自然流畅。最终,GPT-4.5的设计目标是处理各种主题的日常任务,包括写作和解决实际问题。

    此外,OpenAI还通过新的监督技术和传统技术(如监督微调和基于人类反馈的强化学习)对模型进行了训练,以实现这些改进。

    在直播中,OpenAI带领观众回顾了其模型的演进历程,从GPT-1开始,依次让所有过往模型回答一个问题:“海水为什么是咸的?”

    不出所料,每一个后续模型给出的答案都比前一个更好。而GPT-4.5的独特之处在于,OpenAI称之为“出色的个性”,这使得它的回答更加轻松、更具对话性,并通过押韵技巧让文本更具吸引力。

    GPT-4.5集成了ChatGPT的一些最先进功能,包括搜索、画布以及文件和图片上传。不过,暂不会支持语音模式、视频和屏幕共享等多模态功能。OpenAI表示,未来计划让模型之间的切换更加无缝,不再依赖模型选择器。

    03.基准测试

    当然,新模型的发布少不了基准测试的环节。

    在用于评估这些模型的一些主要基准测试中,包括竞赛数学(AIME 2024)、博士级科学问题(GPQA Diamond)和SWE-Bench验证(编码),GPT-4.5的表现均优于其前身通用模型GPT-4o。

    get?code=ZDZiMTA0N2IzOTAzOGI4NTE2NDVmMWYwOTcwMGE2N2EsMTc0MTMzNjYyMTE1MA==

    最值得注意的是,与OpenAI最近推出的推理模型o3-mini相比,该模型被训练为“先思考再回答”,GPT-4.5的表现比GPT-4o更接近o3-mini,甚至在SWE-Lancer Diamond(编码)和MMMLU(多语言)基准测试中超越了o3-mini。

    在使用生成式AI模型时,一个主要担忧是它们容易产生“幻觉”或在回答中包含错误信息。两项不同的“幻觉”评估,SimpleQA准确性和SimpleQA幻觉测试显示,GPT-4.5比GPT-4o、o1和o3-mini更准确,且“幻觉”现象更少。

    get?code=OTI1MGVjMDRhNjJlMjNkNjhkZTRkZmIyNTQxOTE3NmYsMTc0MTMzNjYyMTE1MA==

    与人类测试人员的对比评估结果显示,GPT-4.5是比GPT-4o更受欢迎的模型。无论是日常问题、专业问题还是创意问题,人类测试人员都更倾向于选择GPT-4.5。

    04.安全性

    一如既往,OpenAI向公众保证,这些模型经过充分的安全评估后才得以发布。公司对模型进行了压力测试,并在随附的系统卡片中详细说明了这些结果。

    OpenAI还表示,随着每次新版本的发布和模型能力的提升,都有机会让模型变得更安全。因此,在GPT-4.5的发布中,公司结合了新的监督技术和基于人类反馈的强化学习(RLHF),以进一步提升模型的安全性。

    原文来源于:

    1.https://www.zdnet.com/article/openai-expands-gpt-4-5-rollout-heres-how-to-access-and-what-it-can-do-for-you/

    中文内容由元宇宙之心(MetaverseHub)团队编译,如需转载请联系我们。

    jinse.cn 1
    好文章,需要你的鼓励
    jinse.cn 1
    好文章,需要你的鼓励
    参与评论
    0/140
    提交评论
    文章作者: / 责任编辑:

    声明:本文由入驻金色财经的作者撰写,观点仅代表作者本人,绝不代表金色财经赞同其观点或证实其描述。

    提示:投资有风险,入市须谨慎。本资讯不作为投资理财建议。

    金色财经 > 元宇宙之心 > OpenAI发布GPT-4.5:性能全面超越前代
    • 寻求报道
    • 金色财经中国版App下载
      金色财经APP
      iOS & Android
    • 加入社群
      Telegram
    • 意见反馈
    • 返回顶部
    • 返回底部