1
00:00:00,160 --> 00:00:04,120
好的，第四周了，我有一些好消息。

2
00:00:04,800 --> 00:00:06,120
我有一些好消息。

3
00:00:07,120 --> 00:00:13,440
好消息是，距离大家都想要的服装周只剩下一周的时间了

4
00:00:13,440 --> 00:00:13,880
成为。

5
00:00:13,920 --> 00:00:19,360
另一个好消息是，本周真的很短、很快、很尖锐，呃，是的，

6
00:00:19,360 --> 00:00:23,480
呃，这肯定会比过去两周容易一些。

7
00:00:23,480 --> 00:00:28,360
因此，请为有趣的快速欢乐周和破烂周做好准备。

8
00:00:28,360 --> 00:00:30,600
不要跳过这周，因为它又快又有趣。

9
00:00:30,600 --> 00:00:32,520
我们很快就会找到豚草。

10
00:00:32,680 --> 00:00:33,240
好的。

11
00:00:33,240 --> 00:00:34,840
让我们开始吧。

12
00:00:34,880 --> 00:00:41,360
所以今天我们将讨论本课程中最重要的问题，

13
00:00:41,360 --> 00:00:47,120
这是最好的 LM，您将在今天结束时回答这个问题。

14
00:00:47,360 --> 00:00:52,080
您已经可以做的就是使用前端模型和聊天完成 API 自信地进行编码，

15
00:00:52,280 --> 00:00:58,840
构建多模式 AI 助手，并使用拥抱脸 Transformers 库构建解决方案，两者

16
00:00:58,840 --> 00:01:02,800
在管道级别以及分词器和模型级别。

17
00:01:03,120 --> 00:01:03,640
好的。

18
00:01:04,000 --> 00:01:07,280
让我们快速讨论一下我们是如何走到今天这一步的。

19
00:01:07,760 --> 00:01:09,000
你开始了。

20
00:01:09,040 --> 00:01:13,680
哦，就在几周前，我们介绍了 Check Completions API 的基础知识。

21
00:01:13,720 --> 00:01:18,280
我们介绍了前端模型、API 的调用多模态的工具。

22
00:01:18,280 --> 00:01:22,120
然后上周我们真的开始拥抱脸了。

23
00:01:22,480 --> 00:01:26,680
本周选择模型并生成代码。

24
00:01:27,080 --> 00:01:28,520
下周就是服装周。

25
00:01:28,560 --> 00:01:30,200
我有没有提到下周是服装周？

26
00:01:30,200 --> 00:01:32,000
我可能已经提到下周是服装周。

27
00:01:32,400 --> 00:01:33,960
我们将在下周这样做。

28
00:01:34,000 --> 00:01:35,040
这将会非常棒。

29
00:01:35,240 --> 00:01:36,960
然后下周我们就出发了。

30
00:01:37,000 --> 00:01:43,200
过去三周确实是激烈的微调、前沿模型、传统数据科学和

31
00:01:43,200 --> 00:01:47,480
建模，然后微调开源模型。

32
00:01:47,520 --> 00:01:50,000
这是非常重要的一周，然后是结局。

33
00:01:50,200 --> 00:01:52,760
一个巨大的人工智能，一个美丽的产品。

34
00:01:54,240 --> 00:02:01,200
要做的事情有很多，最后你将能够插上成功的旗帜，并说你已经完成了

35
00:02:01,200 --> 00:02:03,320
掌握LM工程。

36
00:02:03,320 --> 00:02:07,800
这给我们带来了当前的问题，哪个是最好的模型？

37
00:02:07,800 --> 00:02:09,760
LM最好选什么？

38
00:02:10,320 --> 00:02:15,440
我知道你一直想知道这个问题，当然，答案是这是不可接受的

39
00:02:15,440 --> 00:02:16,280
问题。

40
00:02:16,280 --> 00:02:17,720
这是一个不太恰当的问题。

41
00:02:17,720 --> 00:02:19,520
没有最好的LM。

42
00:02:19,760 --> 00:02:26,200
正确的问题是，考虑到您正在尝试的问题，当前任务的正确模型是什么

43
00:02:26,200 --> 00:02:29,280
要解决这个问题，哪个模型是最好的？

44
00:02:29,640 --> 00:02:35,000
在回答这个问题时，我们将讨论一个完整的策略，

45
00:02:35,040 --> 00:02:37,320
了解如何确保选择正确的产品。

46
00:02:37,320 --> 00:02:40,800
当然，首先要了解您的需求。

47
00:02:40,800 --> 00:02:46,160
一旦您了解了我们稍后将介绍的要求，您就可以查看模型

48
00:02:46,400 --> 00:02:47,640
有两种方式。

49
00:02:47,680 --> 00:02:49,000
看两个方面。

50
00:02:49,120 --> 00:02:52,800
其中之一只是有关模型的基本信息。

51
00:02:52,800 --> 00:02:55,880
第二是深入研究基准。

52
00:02:56,040 --> 00:03:00,590
当我说看基础知识时，我指的是它有多少个参数？

53
00:03:00,590 --> 00:03:05,950
上下文窗口是什么，它要多少钱，许可证是什么，诸如此类的东西。

54
00:03:06,310 --> 00:03:11,910
您首先使用它来开发您想要更详细地查看的候选模型集，

55
00:03:11,910 --> 00:03:16,230
那些你能负担得起的，那些你可以足够快地构建的，所有这些东西。

56
00:03:16,470 --> 00:03:22,070
完成此操作后，接下来要做的就是查看基准测试和基准测试

57
00:03:22,070 --> 00:03:27,470
是已发布的指标，其中根据不同的事物评估模型，例如有多好

58
00:03:27,470 --> 00:03:33,310
他们擅长编码吗？他们理解语言、推理这些基准的能力如何？

59
00:03:33,310 --> 00:03:38,190
你可以在排行榜上查看它们，这是一种对不同的排名进行排名的表格

60
00:03:38,190 --> 00:03:40,270
针对不同标准的模型。

61
00:03:40,270 --> 00:03:45,310
还有一些模特们面对面的竞技场，这是一些有趣的地方。

62
00:03:45,350 --> 00:03:48,830
我们将在接下来的几天内研究所有这些。

63
00:03:48,830 --> 00:03:51,150
但首先，让我们深入了解基础知识。

64
00:03:51,150 --> 00:03:53,190
那么我说的“看基础”是什么意思呢？

65
00:03:53,190 --> 00:03:57,910
嗯，首先，你想看看你正在考虑的模型，然后说它们是否开放

66
00:03:57,910 --> 00:03:59,870
源代码还是闭源付费模型？

67
00:04:00,150 --> 00:04:03,630
它们是聊天模型还是推理模型还是混合模型？

68
00:04:03,670 --> 00:04:06,430
现在您已经很清楚这意味着什么了。

69
00:04:06,430 --> 00:04:07,750
以及优点和缺点。

70
00:04:08,030 --> 00:04:12,670
但可以肯定的是，推理模型并不总是更好。

71
00:04:12,670 --> 00:04:16,150
推理模型通常在基准测试中表现更好。

72
00:04:16,150 --> 00:04:20,910
他们的智力通常表现得更好，因为他们可以把事情想得很清楚。

73
00:04:20,910 --> 00:04:23,550
这是您可以扩展的两种方式之一。

74
00:04:23,870 --> 00:04:25,830
但它们往往速度较慢。

75
00:04:25,830 --> 00:04:30,230
他们往往不太擅长生成创意内容。

76
00:04:30,230 --> 00:04:33,630
因此推理模型也肯定存在局限性。

77
00:04:33,630 --> 00:04:38,590
还有混合模型，可以选择是聊天还是推理

78
00:04:38,590 --> 00:04:39,870
视情况而定。

79
00:04:40,070 --> 00:04:41,950
而且通常这是一个不错的选择。

80
00:04:41,950 --> 00:04:46,430
但有时您不需要混合模型，因为您只需要聊天模型。

81
00:04:46,870 --> 00:04:48,350
这就是一个决定。

82
00:04:48,470 --> 00:04:51,430
当然，还有模型的发布日期。

83
00:04:51,470 --> 00:04:52,870
最近多久了？

84
00:04:52,910 --> 00:04:54,670
其知识何时断绝？

85
00:04:54,670 --> 00:04:55,630
时间是什么时候？

86
00:04:55,670 --> 00:04:57,270
直到训练完成为止？

87
00:04:57,270 --> 00:05:02,230
这将告诉您哪些信息是其训练集中已经知道的信息，而无需

88
00:05:02,230 --> 00:05:04,390
需要任何推理时间技术。

89
00:05:04,550 --> 00:05:11,030
换句话说，如果它的培训一直持续到今年 7 月，那么将其纳入其培训、知识中

90
00:05:11,030 --> 00:05:12,470
已经将是事实。

91
00:05:12,470 --> 00:05:15,950
在那之前，它将立即了解所有这些信息。

92
00:05:15,990 --> 00:05:20,710
你可以直接问这个问题，但如果你想了解更多最新信息，

93
00:05:20,710 --> 00:05:23,230
您需要将其添加到提示中。

94
00:05:23,230 --> 00:05:27,430
当你问它问题时，你需要用这些信息武装它，以便它配备

95
00:05:27,430 --> 00:05:30,590
通过提示或工具来回答它。

96
00:05:30,590 --> 00:05:33,110
当我说推理时间技术时，这就是我的意思。

97
00:05:33,110 --> 00:05:37,550
您需要想出一些方法，将专业知识注入到模型中。

98
00:05:38,310 --> 00:05:38,670
好的。

99
00:05:38,710 --> 00:05:44,430
当然，还有参数的数量，这些参数可以让您了解其功能

100
00:05:44,470 --> 00:05:48,590
关于，关于如何，呃，在训练期间它能够吸收多少信息。

101
00:05:48,750 --> 00:05:53,790
我们，我们经历了较大模型中有多少参数的时间线。

102
00:05:53,790 --> 00:05:59,110
当然，我确实指出，有时过度关注参数的数量可能是错误的，

103
00:05:59,110 --> 00:06:04,990
因为最近几天，人们在将更多的东西融入到更小的模型方面做得很好。

104
00:06:04,990 --> 00:06:08,030
但根据经验，通常越大越好。

105
00:06:08,070 --> 00:06:10,110
更多参数意味着更智能。

106
00:06:10,270 --> 00:06:16,390
然后训练令牌就是使用了多少数据来训练这个模型。

107
00:06:16,510 --> 00:06:19,390
当然，更多的数据意味着它拥有更多的知识。

108
00:06:19,550 --> 00:06:21,550
呃，这就是要寻找的东西。

109
00:06:21,550 --> 00:06:23,550
还有上下文窗口，你知道这个。

110
00:06:23,550 --> 00:06:30,110
嗯，这当然是模型必须回顾来自

111
00:06:30,110 --> 00:06:31,070
对话。

112
00:06:31,070 --> 00:06:33,670
这不仅仅是最近的提示。

113
00:06:33,670 --> 00:06:35,790
它不仅仅响应当前的提示。

114
00:06:35,830 --> 00:06:41,110
它必须适合您发送的第一条消息、回复、下一条消息、对该消息的回复，所有内容

115
00:06:41,110 --> 00:06:46,470
这是在之前的对话、之前的消息的记忆中，作为这次对话的一部分，

116
00:06:46,710 --> 00:06:53,060
直到并包括模型生成的当前响应，一切都必须适合上下文

117
00:06:53,060 --> 00:06:53,340
窗户。

118
00:06:53,380 --> 00:06:54,780
是的，我知道你明白这一点。

119
00:06:55,340 --> 00:06:57,260
所以这是另一件事要寻找。

120
00:06:57,260 --> 00:07:02,060
通常，您可以通过查看型号卡来获取所有这些信息，该卡

121
00:07:02,060 --> 00:07:06,300
像 OpenAI 这样的每个提供商都会发布其模型。

122
00:07:06,300 --> 00:07:09,300
所以你可以通过谷歌来查找型号卡。

123
00:07:09,300 --> 00:07:13,420
但也有一些排行榜列出了这些信息，以便您可以进行比较。

124
00:07:13,700 --> 00:07:18,460
然后还有一些关于模型的其他基本事实，您想知道这些事实以便能够进行比较

125
00:07:18,460 --> 00:07:18,860
他们。

126
00:07:19,020 --> 00:07:21,140
其中一些在型号卡上不可用。

127
00:07:21,140 --> 00:07:22,220
你必须查一下它们。

128
00:07:22,660 --> 00:07:24,060
当然，其中之一就是成本。

129
00:07:24,100 --> 00:07:26,420
运行这个模型需要多少钱？

130
00:07:26,540 --> 00:07:28,860
这里有两种可能的成本。

131
00:07:28,900 --> 00:07:30,740
这可能是 API 成本。

132
00:07:30,740 --> 00:07:36,220
如果您像云一样使用云上的前沿模型，或者如果您在本地运行它，那么

133
00:07:36,220 --> 00:07:40,620
有一种感觉，如果我运行本地模型，那么它是免费的。

134
00:07:40,660 --> 00:07:41,860
从某种程度上来说确实如此。

135
00:07:41,860 --> 00:07:45,460
但请记住，您仍然需要以某种方式为计算付费。

136
00:07:45,460 --> 00:07:48,340
如果它在您的计算机上运行，​​它将会严重影响您的计算机。

137
00:07:48,580 --> 00:07:52,380
如果您在公司的服务器上运行它，它仍然需要付费。

138
00:07:52,380 --> 00:07:55,900
所以你必须考虑它计算的运行时间。

139
00:07:56,260 --> 00:07:59,820
进行任何您需要进行的额外培训都是需要付费的。

140
00:07:59,820 --> 00:08:04,060
因此，如果您假设要采用这个模型，并且需要对其进行更多训练，如下所示

141
00:08:04,060 --> 00:08:08,700
我们将在第七周完成，这会很棒，然后你需要考虑到该成本。

142
00:08:09,180 --> 00:08:15,620
如果您要构建类似于我们下周要做的 Rag 的东西，或者围绕它构建产品

143
00:08:15,620 --> 00:08:18,260
那么您需要了解构建成本。

144
00:08:18,380 --> 00:08:20,500
这就是你需要解决的问题。

145
00:08:20,500 --> 00:08:27,500
然后与构建成本密切相关的是上市时间，当然是多长时间

146
00:08:27,500 --> 00:08:30,100
会带您构建您需要构建的产品吗？

147
00:08:30,260 --> 00:08:32,100
你可能会说，这和模型有什么关系？

148
00:08:32,140 --> 00:08:36,620
嗯，这些事情都是相关的，因为如果你使用一些简单的东西，比如你使用

149
00:08:36,620 --> 00:08:44,660
GPT 5 或 Claude 5 就可以了，然后你就知道了，你已经领先了，金额

150
00:08:44,660 --> 00:08:46,900
你要做的构建相对较轻。

151
00:08:46,900 --> 00:08:53,140
您可以非常快速地推出使用此类顶级前沿模型的产品。

152
00:08:53,500 --> 00:08:59,380
但是，如果您尝试使用自己的开源模型，或者想要使用较小的模型，

153
00:08:59,380 --> 00:09:02,500
更便宜的型号，您的运行时间成本会更低。

154
00:09:02,500 --> 00:09:07,420
但是您需要花费更多时间进行构建和实验并弄清楚如何获得

155
00:09:07,420 --> 00:09:13,100
您需要更小、更便宜的型号来获得业务性能，这会影响时间

156
00:09:13,100 --> 00:09:13,540
推向市场。

157
00:09:13,540 --> 00:09:16,540
所以这绝对是一个因素。

158
00:09:16,860 --> 00:09:20,500
越大、越贵的型号，你应该能够更快地卖出去。

159
00:09:21,220 --> 00:09:23,140
速率限制是一个因素。

160
00:09:23,420 --> 00:09:26,300
所以有的就开放一些一些前沿的模式。

161
00:09:26,300 --> 00:09:31,420
某些闭源模型对调用它们的频率有限制。

162
00:09:31,420 --> 00:09:34,260
因此，您需要确保您了解它们。

163
00:09:34,420 --> 00:09:38,820
呃，通常如果您愿意支付更多费用，那么您可以有更高的费率限制。

164
00:09:38,820 --> 00:09:42,100
所以通常有机会在那里花更多的钱。

165
00:09:42,100 --> 00:09:47,860
但即使是开放式人工智能也不总是有局限性，即使你花到了顶级，也有一些

166
00:09:47,860 --> 00:09:48,260
限制。

167
00:09:48,300 --> 00:09:52,500
尽管我想在某个时候有人打电话给我，如果您可以达成一项企业协议，

168
00:09:52,500 --> 00:09:53,020
你希望的。

169
00:09:53,380 --> 00:09:58,060
尽管如此，您仍然需要了解限制是什么，然后是速度。

170
00:09:58,220 --> 00:10:01,340
加快模型响应的速度。

171
00:10:01,500 --> 00:10:07,060
不同的模型具有非常非常不同的速度特性，我们稍后会看到。

172
00:10:07,060 --> 00:10:11,980
但对于双子座来说，闪光灯的速度非常快。

173
00:10:12,140 --> 00:10:14,180
GPT 5 nano 相当快。

174
00:10:14,220 --> 00:10:19,620
GPT 四一纳米确实很快，能够对这些事情有这样的看法真是太好了。

175
00:10:19,620 --> 00:10:24,740
当然，是的，有一些排行榜可以比较这些模型，这样您就可以快速选择适合的模型

176
00:10:24,740 --> 00:10:27,500
将具有您需要的性能特征。

177
00:10:27,820 --> 00:10:31,540
与速度密切相关的是延迟。

178
00:10:31,740 --> 00:10:35,740
呃，或者人们有时会谈论第一个令牌的平均时间。

179
00:10:35,900 --> 00:10:41,940
尤其是，呃，突出的是，推理模型往往会先思考

180
00:10:41,940 --> 00:10:43,220
开始回应。

181
00:10:43,220 --> 00:10:48,170
因此，直到它开始带回您可能会流式传输到 UI 上的响应为止的时间。

182
00:10:48,410 --> 00:10:51,130
这已经变得越来越重要。

183
00:10:51,130 --> 00:10:57,210
因此人们需要同时考虑速度和延迟，或者同时考虑第一个令牌的时间

184
00:10:57,210 --> 00:11:03,930
在考虑模型是否适合其业务目的时，经常会忘记许可证

185
00:11:03,930 --> 00:11:09,050
关于，但特别是当您使用开源模型时，不同的模型确实有不同的

186
00:11:09,050 --> 00:11:09,650
许可证。

187
00:11:09,650 --> 00:11:14,970
您需要了解其中一些是非常宽松的，您可以将它们用于任何目的。

188
00:11:15,090 --> 00:11:20,890
其中一些在您使用它来获取商业收益的能力方面受到限制。

189
00:11:20,890 --> 00:11:26,770
所以有一些收入上限，呃，然后其中一些，比如元需要你签署

190
00:11:26,770 --> 00:11:31,970
各种协议，正如你所发现的，呃，这限制了你利用它们进行邪恶的能力

191
00:11:31,970 --> 00:11:32,490
诸如此类的事情。

192
00:11:32,490 --> 00:11:35,370
而且，我认为也许是为了与元竞争。

193
00:11:35,530 --> 00:11:40,410
呃，但是，当然，这就是你让律师参与进来的地方，并且你确保无论有什么许可证

194
00:11:40,450 --> 00:11:43,810
与适合您的业务目标的模型相关联。