OpenAI 1106发布会个人分析与评论【2023.11】

Original 孔某人孔某人的低维认知

2024-08-23

‍发布会录像tps://wwhttps://www.bilibili.com/video/BV1HN411G7cb/

0、前言

发布会的概要介绍已经有很多，本文也无意重复，仅评论一些我觉得值得说的点。

我看完了发布会、相关新功能的文档、Sam在论坛中对于Assistants API的费用解释等等。我建议所有LLM应用开发者都应该去看下这些原始内容，而不是看一些一图概要，他们丢失了一些重要信息。

由于我暂未用上这里的不少功能，所以一些细节还无法确定。

1、新模型及API

https://platform.openai.com/docs/models

1.1、gpt-4-turbo 与 gpt-3.5-turbo-1106

gpt-4-1106-preview虽然模型名中没写turbo，但官方说了这是turbo版本。也就是费用明显降低、速度提升。

这次的gpt-4-turbo更新了数据版本，而其他模型均没有更新数据，所以web页面上的GPT4已经是这个gpt-4-turbo了。

gpt-4-turbo的context window扩展到了128k tokens，单次调用最大返回长度为4k token。Claude模型的优势至此已经丧失。

gpt-3.5-turbo-1106也一同更新，context window扩展到了16k，但遗憾的是没更新数据版本。

两个模型版本的context window都提升，且不再有单独的更长context window的版本，这标志着OpenAI已经基本搞定了128k以下长上下文的训练能力（在它自己的质量标准下）。

gpt-4-turbo推出之后，原有的gpt-4、gpt-4-32k也没有更新，正式标志着它们跟早期的gpt-3.5原版一样将退出历史舞台。

一些其他2个模型共有的更新点：

Function calling能力支持在一次请求中同时请求调用多个function，提升了LLM在复杂场景下的自用使用工具能力。
提升了输出格式指定能力，并增加了专门的json输出控制选项
支持设置随机数种子，以实现可复现的LLM调用结果。
(后续将)支持新模型输出token log-prob

1.2、多模态API

这次OpenAI直接发布了全部的多模态能力的API，没有任何私藏。包括：图片输入(GPT4V)、图片生成(DALL-E)、语音生成(高质量TTS)。

并更新了whisper到V3版本，很可惜whisper在中文普通话上提高很少，提升幅度小于所有其他语言，但粤语提升明显。

GPT4V模型名为gpt-4-vision-preview，支持文字和图片输入，图片按大小计费。gpt-3.5-turbo无缘此功能。

DALL-E 2/3都开放了API，不过只有DALL-E 2支持图像局部修改。

高质量TTS开放了API，分成tts-1和tts-1-hd两个版本。

Whisper-V3也会进入API，Whisper API支持GPT-4后处理环节。

2、GPT Builder 与 Agent Store

2.1、GPT Builder

发布会上展示了一个使用自然语言构建简单Agent的功能，叫做GPT Builder。整个会上基本把Agent都叫做GPT。

构建出来的Agent能力至少包括：

类知识库的方案，支持system prompt、文档知识库等
搜索功能
DALL-E图像生成功能
Code Interpreter功能
疑似外部函数插件

所有只是一个system prompt黄页的产品都被颠覆了，目前我看到的比较接近的是讯飞星火的“友伴”，但支持调用的能力也是弱于此的，更别说模型本身了。

2.2、Agent Store

OpenAI官方提供了一个GPT分享和浏览平台，我暂时称作Agent Store。

从宣传内容来看，这次的产品设计明显好于之前的plugin store。OpenAI下半年应该是有靠谱的产品负责人了，不能再瞧不起OpenAI的产品设计了。

本来Agent as a Service平台还有计费等等问题，现在在该平台上直接使用用户自己的OpenAI账号就好了。

OpenAI发布会上说了会给Agent开发者分成，还没有看到细节。个人Agent开发者的时代要来了。

2.3、对国内的影响

整个这一节的内容技术上不算有卡点，更多是产品设计和平台设计。这方面本来应该是国内大公司的优势，但最早交出一个完整答卷的是OpenAI。

我整体觉得OpenAI的这一套设计是不错的，虽然目前能做的Agent还比较简单，但后面可以逐步做的复杂起来。其他的方面都基本成型了，而且也是我觉得没有太大问题的方式。

国内大厂应该直接抄一套方案了。我相信国内很快（一个季度之内）就能用上类似的Agent开发和共享平台。唯一的问题就是基础模型、多模态能力、工具等能力拖累Agent的效果了。这我就没啥办法了，只能期待国内大厂和有流量的基座公司多努力了。

3、Assistants API

Assistants API其实算是之前传闻的Stateful API，但发布的能力跟很多人的猜测不同，它并没有降低成本。

从发布会来看，它其实是为Agent开发服务的API，也就是上面GPT Agent的API对应物。

3.1、Assistants API的真实能力

Assistants API并不能降低历史对话的API调用成本，也没有压缩历史对话的能力。

它更像是一个有序的workspace，用户存放简单Agent工作流中的各种信息，例如用户输入、模型返回结果、上传的文件、tool调用的中间状态等等，触发下一次LLM调用时，直接使用该API提供的thread抽象作为上下文。

如果thread中的内容超过了模型支持的上下文，目前的策略是截断历史。但不排除OpenAI将来会做一个更好的历史压缩功能，甚至无限上下文能力。

整个Assistants API的交互是异步的，而不再是同步的等待模型返回结果。目前还没有推出流式返回的API。

Assistants API在收费上完全没有任何折扣，跟使用模型的API并使用同样的历史请求是一样的。

这也是让不少人觉得这个API有些鸡肋的原因，如果都还需要自己压缩和控制上下文，那么似乎在应用侧自己做会更好一些，为何要使用这个API呢？

3.2、长期影响

在我看来，这个设计的长期价值更为重要。它其实更符合我之前在 LLM Stateful API前瞻【2023.10】一文中第3节预测的思路，即给未来更接近应用的特性提供一个尽量通用的API抽象层。

虽然目前还只有一个LLM能在上面产生信息，但将来可以加入更复杂的工具/能力/子Agent等等。所有更复杂的产品逻辑都可以依托于这个workspace（OpenAI叫thread）来完成，而开发者后续的修改并不大。

这个设计用3年感觉也没什么问题，这才是重要之处。它给整个生态中基座LLM和底层能力公司与上层应用开发者划定了一个新的边界，而且这个边界看起来问题不大。由于OpenAI的带动作用，相信全球的公司都会朝着类似的设计前进，更快的形成一个新的标准，让整个生态的各方更好的形成合力。

目前Assistants API上绑定的功能还较为简单，它的Retrieval能力看起来和简单的RAG其实也没什么不同。但这个接口设计没什么问题，后面的实现未来可以慢慢提升，而上层的开发的简单应用都可以直接利用上后续新提供的能力。这个价值作为接口设计来说，已经很够了。

目前它对于定制开发能力强的LLM-native/Agent应用开发团队来说，并不好用，可操控性不高。它赋能的是那些没有太多定制开发能力的人，而且这些开发能力更差的人做出来的Agent的能力会随着平台提供的能力提升而免费全自动提升。

这次对于中间件应用的影响可能较大，很多中间层方案包装的并不够好，应该是需要被抛弃的了。我祝愿这些团队能做出正确的选择。

4、总体感慨

OpenAI的产品和API设计真的好了很多，我们得调整对于OpenAI这方面能力的认知。
OpenAI没有藏私，所有产品端提供的能力基本上都提供了API，或者正在路上。
OpenAI已经做了2C Agent Store，不犯错误的话未来可期。
新功能真的多，需要整个社区消化一阵。
自己弄一个OpenAI开发者账号，而不是通过API Proxy变得越来越重要。

交流与合作

如果希望和我交流讨论，或参与相关的讨论群，或者建立合作，请私信联系，见联系方式。

读者交流群见公众号读者交流群

希望留言可以到知乎对应文章下留言。

本文于2023.11.7首发于微信公众号与知乎。

知乎链接 https://zhuanlan.zhihu.com/p/665549816

个人观点，仅供参考

继续滑动看下一个

孔某人的低维认知

向上滑动看下一个

陈佩斯，这次真悬了！

微博遗存之七

刚刚，我国DUV光刻机实现里程碑式突破！

2年翻10倍？万众期待的2025《山西文物日历》终于来了！一览千年壁画之美

微博遗存之六

OpenAI 1106发布会个人分析与评论【2023.11】

0、前言

1、新模型及API

1.1、gpt-4-turbo 与 gpt-3.5-turbo-1106

1.2、多模态API

2、GPT Builder 与 Agent Store

2.1、GPT Builder

2.2、Agent Store

2.3、对国内的影响

3、Assistants API

3.1、Assistants API的真实能力

3.2、长期影响

4、总体感慨

交流与合作

您可能也对以下帖子感兴趣

陈佩斯，这次真悬了！

微博遗存之七

刚刚，我国DUV光刻机实现里程碑式突破！

2年翻10倍？万众期待的2025《山西文物日历》终于来了！一览千年壁画之美

微博遗存之六

生成图片，分享到微信朋友圈

OpenAI 1106发布会 个人分析与评论【2023.11】

0、前言

1、新模型及API

1.1、gpt-4-turbo 与 gpt-3.5-turbo-1106

1.2、多模态API

2、GPT Builder 与 Agent Store

2.1、GPT Builder

2.2、Agent Store

2.3、对国内的影响

3、Assistants API

3.1、Assistants API的真实能力

3.2、长期影响

4、总体感慨

交流与合作

您可能也对以下帖子感兴趣

OpenAI 1106发布会个人分析与评论【2023.11】