GPT-4o抢先测:文本能力提高,但仍存短板
撰文 | 曹双涛
编辑 | 杨博丞
题图 | 文心一格
北京时间5月14日凌晨,OpenAI推出兼具听、看、说能力的GPT-4o。
新版GPT-4o最大的看点在于,可实时对音频、视觉、文本进行推理,并接受三者的任意组合,最终能生成文本、音频、图像的任意组合。
如在现场演示视频中,OpenAI前沿研究负责人马克·陈在和GPT-4o对话时,当马克·陈稍微有些紧张时,GPT-4o很快进行安慰。当听到马克·陈话语有些急促时,GPT-4o对马克·陈说道,你不是吸尘器,吸气、然后数到四,让自己慢下来。
另一演示视频中,OpenAI后训练团队负责人巴雷特·佐夫让GPT-4o判断自我情绪如何。GPT-4o先是看到木质材面的桌子后又说道,你看起来非常开心,甚至还有点兴奋。
整个演示视频中,GPT-4o表现得如同老朋友那般亲切,甚至说话语气和“真人”一样,这让不少网友纷纷惊叹现在的大模型都有视觉功能了吗?它未来又是否能帮助盲人看世界呢?
为真正了解GPT-4o的能力,发布会结束后,DoNews对GPT-4o进行了多轮多角度测试:
图源:GPT-4o官网对话页面
在文本输出能力上,GPT-4o的能力可以完全用惊艳来形容。当我们让GPT-4o帮我们写中国传统神话四大神兽的故事时,GPT-4o几秒时间内就能完成,且内容准确度极高。
图源:GPT-4o官网对话页面
当我们将难度升级,让GPT-4o解读安克创新2024年Q1财报时,几秒的时间GPT-4o直接将安克创新长达15页的财报内容中核心数据全部提炼出来。
图源:GPT-4o官网对话页面
甚至当我们继续追问GPT-4o,您觉得安克创新2024年Q1财报存在哪些问题时,GPT-4o快速回答出包括经营活动现金流量净额大幅下降、销售费用和管理费用大幅增加、财务费用的波动、公允价值变动收益大幅下降、资产减值损失大幅增加、其他收益和投资收益减少等六大风险。
图源:GPT-4o官网对话页面
我们继续升级难度,要求GPT-4o帮我们翻译一篇长达35页的外文,虽说响应速度有所下降,但依然能快速提炼出这份报告的核心内容。
图源:GPT-4o官网对话页面
值得注意的是,发布会上提到的可对文本、音频、图像进行任意组合,目前暂未实现。
因此,我们指定一个命令:我有一个朋友目前处在失恋状态,请你帮我撰写800字的文章安慰他,帮他走出阴影,要求内容中同时具有图片和音频,GPT-4o回答为“我暂时无法直接创建包含图片和音频的文章”。
图源:GPT-4o官网对话页面
在大模型常见的问答上,GPT-4o已不做任何回答,而是全网检测和问题相近的网页。当我们在提问GPT-4o关于美联储降息问题时,GPT-4o给出2个相关网站链接。
图源:GPT-4o官网对话页面
当我们提问GPT-4o关于全球新能源汽车行业价格战相关问题时,GPT-4o更是给出6个相关网站链接。换言之,GPT-4o正朝着AI搜索工具类产品方向发展。周鸿祎也曾指出,未来OpenAI一定会诞生 AI 搜索类型的产品。
图源:GPT-4o官网对话页面
在图像识别和生成上,GPT-4o可以说是喜忧参半。我们在选取网络平台上一张同时包含多种人物表情的照片时,GPT-4o能准确描述出6个小照片下人物的内心活动。
图源:GPT-4o官网对话页面
但当我们让GPT-4o识别国内流行的AI黏土特效相关照片时,却被GPT-4o识别为手工雕塑作品。换言之,大模型若想始终竞争优越性,也需要不断反复学习,尤其是在各国不断流行的事物上。
图源:原图基于小红书网友分享整理、GPT-4o官网对话页面
且GPT-4o若想真正成为世界级的大模型,也需要深入学习各国文化才能保证生成的图片不会出错。
当我们让GPT-4o输出一张中国传统神话故事中青龙的照片时:在《山海经》中,唯一带翅膀的龙为应龙,青龙并不带翅膀,输出明显错误。
图源:GPT-4o官网对话页面
当我们将难度升级,要求GPT-4o输出一张同时包含中国传统神话故事中四大神兽的照片时,图片内容虽出现四大神兽,但除青龙稍微符合神话故事原型外,其他三大神兽均和神话故事中的原型相差极大。
图源:GPT-4o官网对话页面
至于发布会上,OpenAI高层们演示的功能,目前GPT-4o暂未上线。当我们让GPT-4o识别抖音上一条十几秒的生日祝福视频时,GPT-4o回答为暂无法直接听取识别音频或视频中的音乐。
图源:抖音视频截图
图源:GPT-4o官网对话页面
在后续的测试中,我们发现GPT-4o的能力远没有达到外界宣传的颠覆级、爆炸级。当我们让GPT-4o给我们写抽奖的代码和航班查询的代码时,GPT-4o一直没有输出结果。
图源:GPT-4o官网
在测试逻辑推理上,我们选取2023年全国卷数学高考真题中难度较大的压轴题时,GPT-4o给出的答案可以用失望来形容。
图源:2023年全国卷数学真题
如在全国高考卷第20题的两问中,GPT-4o仅是简单地给出不完整的解题步骤,没有输出任何一个准确答案。
图源:GPT-4o官网对话页面
第21题的三问中,GPT-4o不仅将三小问变成两小问,且前两问求概率的问题上,本应为具体数字的答案,在GPT-4o这里却是带有变量N的不确定答案。
图源:GPT-4o官网对话页面
GPT-4o发布会结束后,奥尔特曼指出,我真的可以预见到一个激动人心的未来:我们能够利用计算机完成以往无法想象的更多事务。但基于我们现在测试的能力来看,GPT-4o又到底能完成多少无法想象的事务呢?
创新工场董事长兼CEO、零一万物CEO李开复在接受媒体采访表示,零一万物的新模型Yi-XLarge MoE已训练一半,之后会朝着美国大模型继续进步;科大讯飞董事长刘庆峰曾透露,目前中美大模型差距在一年至1.5年左右。GPT-4o仍存在诸多短板需要补齐,历经一年多发展的国内大模型真实能力到底如何呢?
同时考虑到中美消费者和企业主,对软件付费意愿差异较大,未来国内大模型TOC端和TOB端大模型的商业化仍需持续探索,这就意味着国内大模型不管在国内市场,还是在海外市场,未来仍有很长很长的路要走。
路漫漫其修远兮,国内大模型厂商仍需上下而求索。