查看原文
其他

OpenAI 1106发布会 个人分析与评论【2023.11】

孔某人 孔某人的低维认知
2024-08-23

‍发布会录像tps://wwhttps://www.bilibili.com/video/BV1HN411G7cb/

0、前言

发布会的概要介绍已经有很多,本文也无意重复,仅评论一些我觉得值得说的点。

我看完了发布会、相关新功能的文档、Sam在论坛中对于Assistants API的费用解释等等。我建议所有LLM应用开发者都应该去看下这些原始内容,而不是看一些一图概要,他们丢失了一些重要信息。

由于我暂未用上这里的不少功能,所以一些细节还无法确定。

1、新模型及API

https://platform.openai.com/docs/models

1.1、gpt-4-turbo 与 gpt-3.5-turbo-1106

gpt-4-1106-preview虽然模型名中没写turbo,但官方说了这是turbo版本。也就是费用明显降低、速度提升。

这次的gpt-4-turbo更新了数据版本,而其他模型均没有更新数据,所以web页面上的GPT4已经是这个gpt-4-turbo了。

gpt-4-turbo的context window扩展到了128k tokens,单次调用最大返回长度为4k token。Claude模型的优势至此已经丧失

gpt-3.5-turbo-1106也一同更新,context window扩展到了16k,但遗憾的是没更新数据版本。

两个模型版本的context window都提升,且不再有单独的更长context window的版本,这标志着OpenAI已经基本搞定了128k以下长上下文的训练能力(在它自己的质量标准下)。

gpt-4-turbo推出之后,原有的gpt-4、gpt-4-32k也没有更新,正式标志着它们跟早期的gpt-3.5原版一样将退出历史舞台

一些其他2个模型共有的更新点:

  • Function calling能力支持在一次请求中同时请求调用多个function,提升了LLM在复杂场景下的自用使用工具能力。

  • 提升了输出格式指定能力,并增加了专门的json输出控制选项

  • 支持设置随机数种子,以实现可复现的LLM调用结果。

  • (后续将)支持新模型输出token log-prob


1.2、多模态API

这次OpenAI直接发布了全部的多模态能力的API,没有任何私藏。包括:图片输入(GPT4V)、图片生成(DALL-E)、语音生成(高质量TTS)。

并更新了whisper到V3版本,很可惜whisper在中文普通话上提高很少,提升幅度小于所有其他语言,但粤语提升明显

GPT4V模型名为gpt-4-vision-preview,支持文字和图片输入,图片按大小计费。gpt-3.5-turbo无缘此功能。

DALL-E 2/3都开放了API,不过只有DALL-E 2支持图像局部修改。

高质量TTS开放了API,分成tts-1和tts-1-hd两个版本。

Whisper-V3也会进入API,Whisper API支持GPT-4后处理环节。

2、GPT Builder 与 Agent Store

2.1、GPT Builder

发布会上展示了一个使用自然语言构建简单Agent的功能,叫做GPT Builder。整个会上基本把Agent都叫做GPT。

构建出来的Agent能力至少包括:

  • 类知识库的方案,支持system prompt、文档知识库等

  • 搜索功能

  • DALL-E图像生成功能

  • Code Interpreter功能

  • 疑似外部函数插件

所有只是一个system prompt黄页的产品都被颠覆了,目前我看到的比较接近的是讯飞星火的“友伴”,但支持调用的能力也是弱于此的,更别说模型本身了。

2.2、Agent Store

OpenAI官方提供了一个GPT分享和浏览平台,我暂时称作Agent Store。

从宣传内容来看,这次的产品设计明显好于之前的plugin store。OpenAI下半年应该是有靠谱的产品负责人了,不能再瞧不起OpenAI的产品设计了。

本来Agent as a Service平台还有计费等等问题,现在在该平台上直接使用用户自己的OpenAI账号就好了。

OpenAI发布会上说了会给Agent开发者分成,还没有看到细节。个人Agent开发者的时代要来了。

2.3、对国内的影响

整个这一节的内容技术上不算有卡点,更多是产品设计和平台设计。这方面本来应该是国内大公司的优势,但最早交出一个完整答卷的是OpenAI。

我整体觉得OpenAI的这一套设计是不错的,虽然目前能做的Agent还比较简单,但后面可以逐步做的复杂起来。其他的方面都基本成型了,而且也是我觉得没有太大问题的方式。

国内大厂应该直接抄一套方案了。我相信国内很快(一个季度之内)就能用上类似的Agent开发和共享平台。唯一的问题就是基础模型、多模态能力、工具等能力拖累Agent的效果了。这我就没啥办法了,只能期待国内大厂和有流量的基座公司多努力了。

3、Assistants API

Assistants API其实算是之前传闻的Stateful API,但发布的能力跟很多人的猜测不同,它并没有降低成本。

从发布会来看,它其实是为Agent开发服务的API,也就是上面GPT Agent的API对应物。

3.1、Assistants API的真实能力

Assistants API并不能降低历史对话的API调用成本,也没有压缩历史对话的能力。

它更像是一个有序的workspace,用户存放简单Agent工作流中的各种信息,例如用户输入、模型返回结果、上传的文件、tool调用的中间状态等等,触发下一次LLM调用时,直接使用该API提供的thread抽象作为上下文。

如果thread中的内容超过了模型支持的上下文,目前的策略是截断历史。但不排除OpenAI将来会做一个更好的历史压缩功能,甚至无限上下文能力。

整个Assistants API的交互是异步的,而不再是同步的等待模型返回结果。目前还没有推出流式返回的API。

Assistants API在收费上完全没有任何折扣,跟使用模型的API并使用同样的历史请求是一样的。

这也是让不少人觉得这个API有些鸡肋的原因,如果都还需要自己压缩和控制上下文,那么似乎在应用侧自己做会更好一些,为何要使用这个API呢?

3.2、长期影响

在我看来,这个设计的长期价值更为重要。它其实更符合我之前在 LLM Stateful API前瞻【2023.10】 一文中第3节预测的思路,即给未来更接近应用的特性提供一个尽量通用的API抽象层

虽然目前还只有一个LLM能在上面产生信息,但将来可以加入更复杂的工具/能力/子Agent等等。所有更复杂的产品逻辑都可以依托于这个workspace(OpenAI叫thread)来完成,而开发者后续的修改并不大。

这个设计用3年感觉也没什么问题,这才是重要之处。它给整个生态中基座LLM和底层能力公司 与 上层应用开发者划定了一个新的边界,而且这个边界看起来问题不大。由于OpenAI的带动作用,相信全球的公司都会朝着类似的设计前进,更快的形成一个新的标准,让整个生态的各方更好的形成合力

目前Assistants API上绑定的功能还较为简单,它的Retrieval能力看起来和简单的RAG其实也没什么不同。但这个接口设计没什么问题,后面的实现未来可以慢慢提升,而上层的开发的简单应用都可以直接利用上后续新提供的能力。这个价值作为接口设计来说,已经很够了。

目前它对于定制开发能力强的LLM-native/Agent应用开发团队来说,并不好用,可操控性不高。它赋能的是那些没有太多定制开发能力的人,而且这些开发能力更差的人做出来的Agent的能力会随着平台提供的能力提升而免费全自动提升。

这次对于中间件应用的影响可能较大,很多中间层方案包装的并不够好,应该是需要被抛弃的了。我祝愿这些团队能做出正确的选择。

4、总体感慨

  • OpenAI的产品和API设计真的好了很多,我们得调整对于OpenAI这方面能力的认知。

  • OpenAI没有藏私,所有产品端提供的能力基本上都提供了API,或者正在路上。

  • OpenAI已经做了2C Agent Store,不犯错误的话未来可期。

  • 新功能真的多,需要整个社区消化一阵。

  • 自己弄一个OpenAI开发者账号,而不是通过API Proxy变得越来越重要。


交流与合作

如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式

读者交流群见 公众号读者交流群

希望留言可以知乎对应文章下留言


本文于2023.11.7首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/665549816

个人观点,仅供参考
继续滑动看下一个
孔某人的低维认知
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存