GPT-4o抢先测：文本能力提高，但仍存短板

导读撰文 | 曹双涛编辑 | 杨博丞题图 | 文心一格北京时间5月14日凌晨，OpenAI推出兼具听、看、说能力的GPT-4o。新版GPT-4o最大的看点在于...

撰文 | 曹双涛

编辑 | 杨博丞

题图 | 文心一格

北京时间5月14日凌晨，OpenAI推出兼具听、看、说能力的GPT-4o。

新版GPT-4o最大的看点在于，可实时对音频、视觉、文本进行推理，并接受三者的任意组合，最终能生成文本、音频、图像的任意组合。

如在现场演示视频中，OpenAI前沿研究负责人马克·陈在和GPT-4o对话时，当马克·陈稍微有些紧张时，GPT-4o很快进行安慰。当听到马克·陈话语有些急促时，GPT-4o对马克·陈说道，你不是吸尘器，吸气、然后数到四，让自己慢下来。

另一演示视频中，OpenAI后训练团队负责人巴雷特·佐夫让GPT-4o判断自我情绪如何。GPT-4o先是看到木质材面的桌子后又说道，你看起来非常开心，甚至还有点兴奋。

整个演示视频中，GPT-4o表现得如同老朋友那般亲切，甚至说话语气和“真人”一样，这让不少网友纷纷惊叹现在的大模型都有视觉功能了吗？它未来又是否能帮助盲人看世界呢？

为真正了解GPT-4o的能力，发布会结束后，DoNews对GPT-4o进行了多轮多角度测试：

图源：GPT-4o官网对话页面

在文本输出能力上，GPT-4o的能力可以完全用惊艳来形容。当我们让GPT-4o帮我们写中国传统神话四大神兽的故事时，GPT-4o几秒时间内就能完成，且内容准确度极高。

图源：GPT-4o官网对话页面

当我们将难度升级，让GPT-4o解读安克创新2024年Q1财报时，几秒的时间GPT-4o直接将安克创新长达15页的财报内容中核心数据全部提炼出来。

图源：GPT-4o官网对话页面

甚至当我们继续追问GPT-4o，您觉得安克创新2024年Q1财报存在哪些问题时，GPT-4o快速回答出包括经营活动现金流量净额大幅下降、销售费用和管理费用大幅增加、财务费用的波动、公允价值变动收益大幅下降、资产减值损失大幅增加、其他收益和投资收益减少等六大风险。

图源：GPT-4o官网对话页面

我们继续升级难度，要求GPT-4o帮我们翻译一篇长达35页的外文，虽说响应速度有所下降，但依然能快速提炼出这份报告的核心内容。

图源：GPT-4o官网对话页面

值得注意的是，发布会上提到的可对文本、音频、图像进行任意组合，目前暂未实现。

因此，我们指定一个命令：我有一个朋友目前处在失恋状态，请你帮我撰写800字的文章安慰他，帮他走出阴影，要求内容中同时具有图片和音频，GPT-4o回答为“我暂时无法直接创建包含图片和音频的文章”。

图源：GPT-4o官网对话页面

在大模型常见的问答上，GPT-4o已不做任何回答，而是全网检测和问题相近的网页。当我们在提问GPT-4o关于美联储降息问题时，GPT-4o给出2个相关网站链接。

图源：GPT-4o官网对话页面

当我们提问GPT-4o关于全球新能源汽车行业价格战相关问题时，GPT-4o更是给出6个相关网站链接。换言之，GPT-4o正朝着AI搜索工具类产品方向发展。周鸿祎也曾指出，未来OpenAI一定会诞生 AI 搜索类型的产品。

图源：GPT-4o官网对话页面

在图像识别和生成上，GPT-4o可以说是喜忧参半。我们在选取网络平台上一张同时包含多种人物表情的照片时，GPT-4o能准确描述出6个小照片下人物的内心活动。

图源：GPT-4o官网对话页面

但当我们让GPT-4o识别国内流行的AI黏土特效相关照片时，却被GPT-4o识别为手工雕塑作品。换言之，大模型若想始终竞争优越性，也需要不断反复学习，尤其是在各国不断流行的事物上。

图源：原图基于小红书网友分享整理、GPT-4o官网对话页面

且GPT-4o若想真正成为世界级的大模型，也需要深入学习各国文化才能保证生成的图片不会出错。

当我们让GPT-4o输出一张中国传统神话故事中青龙的照片时：在《山海经》中，唯一带翅膀的龙为应龙，青龙并不带翅膀，输出明显错误。

图源：GPT-4o官网对话页面

当我们将难度升级，要求GPT-4o输出一张同时包含中国传统神话故事中四大神兽的照片时，图片内容虽出现四大神兽，但除青龙稍微符合神话故事原型外，其他三大神兽均和神话故事中的原型相差极大。

图源：GPT-4o官网对话页面

至于发布会上，OpenAI高层们演示的功能，目前GPT-4o暂未上线。当我们让GPT-4o识别抖音上一条十几秒的生日祝福视频时，GPT-4o回答为暂无法直接听取识别音频或视频中的音乐。

图源：抖音视频截图

图源：GPT-4o官网对话页面

在后续的测试中，我们发现GPT-4o的能力远没有达到外界宣传的颠覆级、爆炸级。当我们让GPT-4o给我们写抽奖的代码和航班查询的代码时，GPT-4o一直没有输出结果。

图源：GPT-4o官网

在测试逻辑推理上，我们选取2023年全国卷数学高考真题中难度较大的压轴题时，GPT-4o给出的答案可以用失望来形容。

图源：2023年全国卷数学真题

如在全国高考卷第20题的两问中，GPT-4o仅是简单地给出不完整的解题步骤，没有输出任何一个准确答案。

图源：GPT-4o官网对话页面

第21题的三问中，GPT-4o不仅将三小问变成两小问，且前两问求概率的问题上，本应为具体数字的答案，在GPT-4o这里却是带有变量N的不确定答案。

图源：GPT-4o官网对话页面

GPT-4o发布会结束后，奥尔特曼指出，我真的可以预见到一个激动人心的未来：我们能够利用计算机完成以往无法想象的更多事务。但基于我们现在测试的能力来看，GPT-4o又到底能完成多少无法想象的事务呢？

创新工场董事长兼CEO、零一万物CEO李开复在接受媒体采访表示，零一万物的新模型Yi-XLarge MoE已训练一半，之后会朝着美国大模型继续进步；科大讯飞董事长刘庆峰曾透露，目前中美大模型差距在一年至1.5年左右。GPT-4o仍存在诸多短板需要补齐，历经一年多发展的国内大模型真实能力到底如何呢？

同时考虑到中美消费者和企业主，对软件付费意愿差异较大，未来国内大模型TOC端和TOB端大模型的商业化仍需持续探索，这就意味着国内大模型不管在国内市场，还是在海外市场，未来仍有很长很长的路要走。

路漫漫其修远兮，国内大模型厂商仍需上下而求索。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

GPT-4o抢先测：文本能力提高，但仍存短板

猜你喜欢

最新文章