1
00:00:00,080 --> 00:00:06,920
继续我们对令人惊叹的人工分析的探索，我们归结为更多细节

2
00:00:06,920 --> 00:00:12,400
在情报评估上，您可以看到它分别针对每个指标的表现。

3
00:00:12,400 --> 00:00:18,120
您可以看到终端工作台就像使用终端进行硬遗传编码一样。

4
00:00:18,640 --> 00:00:19,800
这里还有很多其他人。

5
00:00:19,800 --> 00:00:21,960
人类的最后一次考试我们稍后会谈到。

6
00:00:22,040 --> 00:00:23,440
你知道，那是一件了不起的事。

7
00:00:23,560 --> 00:00:28,280
呃，但你已经记得我挑战你思考你认为顶级模特会做什么

8
00:00:28,280 --> 00:00:28,920
得分。

9
00:00:28,920 --> 00:00:29,520
真的吗？

10
00:00:29,760 --> 00:00:31,640
一开始约为 2%。

11
00:00:31,680 --> 00:00:33,920
3%，我想去年年底。

12
00:00:33,920 --> 00:00:42,960
现在，顶级模型 GPT 5 在人类最后一次考试中得分为 26.5%。

13
00:00:43,080 --> 00:00:49,040
它在短短几个月内取得了巨大的进展，这是可怕的。

14
00:00:49,240 --> 00:00:49,800
我们就这样吧。

15
00:00:49,840 --> 00:00:55,320
通过 HL，您可以看到 Mglu Pro，它的设计要高得多。

16
00:00:55,320 --> 00:01:03,950
Bar 模型在 ML 上的利用率为 90%，因此他们提出了 Lou Pro，但模型的利用率已经达到 88%。

17
00:01:04,470 --> 00:01:08,190
哎呀，这是谷歌证明的问答。

18
00:01:08,190 --> 00:01:08,750
还记得吗？

19
00:01:08,750 --> 00:01:12,190
请记住我所说的是人类水平的表现。

20
00:01:12,350 --> 00:01:13,910
是 65%。

21
00:01:13,950 --> 00:01:17,150
65% 是博士水平的表现。

22
00:01:17,150 --> 00:01:21,270
我想 34% 的人都是像我这样的凡人。

23
00:01:21,430 --> 00:01:25,510
呃，让我们看看它在顶级模型中的得分。

24
00:01:25,510 --> 00:01:33,070
优于 88%，明显优于 65% 的水平。

25
00:01:33,710 --> 00:01:35,470
现在你了解了这里的人。

26
00:01:35,590 --> 00:01:42,630
呃，好吧，怀疑论者会对你说，好吧，但这是 gpca，非常具体的是博士学位级别

27
00:01:42,630 --> 00:01:45,630
关于这些物理、化学和生物问题。

28
00:01:45,630 --> 00:01:51,150
但我们可以问它一些愚蠢的问题，比如在棋盘结束前设置一个棋步。

29
00:01:51,150 --> 00:01:51,350
游戏。

30
00:01:51,350 --> 00:01:52,390
但它做不到。

31
00:01:52,390 --> 00:01:54,350
所以明显有不足之处。

32
00:01:54,350 --> 00:02:00,170
它通常不是博士学位级别的，但有些领域是科学推理的。

33
00:02:00,330 --> 00:02:06,290
Live Code Bench 是我们稍后会讨论的特定编码指标之一，再次强调，GPT

34
00:02:06,330 --> 00:02:10,890
5 是最高的，奇怪的是，比 Codex 稍好一些。

35
00:02:11,130 --> 00:02:17,850
嗯，然后还有更多编码，呃，grok 4 最好遵循说明，

36
00:02:17,890 --> 00:02:20,250
GPT 5 Codex 最强。

37
00:02:20,410 --> 00:02:26,130
然后是数学竞赛、人工智能竞赛、我们谈到的目标竞赛。

38
00:02:26,250 --> 00:02:28,970
呃，GPT 5 Codex 再次名列前茅。

39
00:02:29,130 --> 00:02:32,490
呃，然后 GPT 第五高就在那之后。

40
00:02:32,730 --> 00:02:39,810
因此，有来自详细情报钻探的模型集和结果。

41
00:02:40,010 --> 00:02:45,530
嗯，现在我们将看看您获得的一些其他信息，呃，

42
00:02:45,530 --> 00:02:46,970
人工分析-i．

43
00:02:47,010 --> 00:02:51,450
我应该指出，这是 23 个型号，但您可以选择不同的型号。

44
00:02:51,450 --> 00:02:55,370
您可以来这里选择您想查看的不同型号并进行比较。

45
00:02:55,410 --> 00:02:57,200
你不是，你不限于这些模型。

46
00:02:57,200 --> 00:02:58,840
这个网站真是令人难以置信。

47
00:02:59,080 --> 00:03:03,760
呃，所以你可以通过大量的内容来了解​​不同模型的表现。

48
00:03:04,160 --> 00:03:06,960
呃，这是一个有趣的点。

49
00:03:06,960 --> 00:03:14,000
它使得不同的模型将产生不同数量的输出令牌，特别是当你

50
00:03:14,000 --> 00:03:15,840
思考推理模型。

51
00:03:15,840 --> 00:03:18,320
仅仅说它给出了正确的答案是不够的吗？

52
00:03:18,360 --> 00:03:18,640
你。

53
00:03:18,640 --> 00:03:23,960
您还想了解需要多少思考才能到达那里，因为这会影响时间

54
00:03:23,960 --> 00:03:24,880
和成本。

55
00:03:24,880 --> 00:03:27,160
所以这里有一些东西。

56
00:03:27,160 --> 00:03:33,400
有趣的是，呃，你可以看到不同颜色的推理标记是较浅的

57
00:03:33,400 --> 00:03:33,680
颜色。

58
00:03:33,680 --> 00:03:35,240
答案就在顶部。

59
00:03:35,400 --> 00:03:40,280
它给你真正的感觉，让你感受到这种非常强大的性能。

60
00:03:40,280 --> 00:03:44,480
但这部分是因为它进行了大量的思考、大量的推理。

61
00:03:44,880 --> 00:03:51,200
这就导致了这个非常有用的图表，这是一个成本。

62
00:03:51,200 --> 00:03:58,350
因此比较模型的成本很困难，因为仅比较输入和输出代币的成本，

63
00:03:58,350 --> 00:04:03,830
我想你知道他们有不同的价格点，但这还不够好，因为相同的

64
00:04:03,870 --> 00:04:07,310
正如我们刚刚看到的，不同的模型可能会进行更多的推理。

65
00:04:07,310 --> 00:04:09,990
因此，做同样的事情可能会花费更多。

66
00:04:10,150 --> 00:04:14,790
因此，人工分析解决该特定问题的方式是，他们说，好吧，所以我们将采取

67
00:04:14,830 --> 00:04:22,390
我们的索引，我们许多任务的组合，我们将把它视为标准的尝试。

68
00:04:22,550 --> 00:04:28,270
我们将看到创建此索引需要多少费用，包括需要的所有代币

69
00:04:28,270 --> 00:04:30,870
为了回答所有这些问题而产生。

70
00:04:30,870 --> 00:04:37,670
这给了这个，这个，这个真的，呃，很好，简单，丰富的方式来比较实际的底部

71
00:04:37,670 --> 00:04:39,590
这些模型的生产线成本。

72
00:04:39,590 --> 00:04:42,590
比只查看输入和输出代币的价格更好。

73
00:04:42,590 --> 00:04:48,230
考虑到这一点，您会发现从成本角度来看，Claude 4.1 作品非常糟糕。

74
00:04:48,270 --> 00:04:53,150
那是因为它做了很多这样的思考，呃，你可以看到它是输入输出和推理

75
00:04:53,150 --> 00:04:59,170
成本 这里显示的是 1,754 美元，显然推理成本是 1,754 美元。

76
00:04:59,210 --> 00:05:00,570
它非常昂贵。

77
00:05:00,610 --> 00:05:02,170
羊乳干酪相当昂贵。

78
00:05:02,170 --> 00:05:05,330
双子座二五Pro确实做了很多思考。

79
00:05:05,370 --> 00:05:06,770
这也是我的经历。

80
00:05:07,090 --> 00:05:13,610
嗯，然后令人惊讶的是，与事实相比，GPT 5 远远落后于这个列表

81
00:05:13,610 --> 00:05:16,370
对我来说，它在智力排行榜上名列前茅。

82
00:05:16,650 --> 00:05:21,210
嗯，从这个角度来看，四五十四行诗在这里也表现得非常好。

83
00:05:21,370 --> 00:05:22,730
呃，然后等等。

84
00:05:23,570 --> 00:05:26,250
米斯特拉尔的裁判官呃，深度探索。

85
00:05:26,530 --> 00:05:34,330
呃，所以这是，嗯，这是，这是一个非常有趣的列表，但是下一个，下一个图表是

86
00:05:34,330 --> 00:05:35,410
一切都汇集于此。

87
00:05:35,450 --> 00:05:35,850
好的。

88
00:05:35,890 --> 00:05:38,010
这就是图表。

89
00:05:38,050 --> 00:05:39,810
这就是一切。

90
00:05:39,850 --> 00:05:42,490
你应该现在就提出来看看它现在是什么情况。

91
00:05:42,610 --> 00:05:50,770
这是一张图表，将情报绘制在 y 轴上的高度和成本上

92
00:05:50,810 --> 00:05:52,360
在 x 轴上。

93
00:05:52,560 --> 00:05:57,240
因此，这个象限中的模型是智能且昂贵的。

94
00:05:57,560 --> 00:06:00,360
这些虽然不聪明，但仍然很昂贵。

95
00:06:00,640 --> 00:06:04,480
这些是便宜但不聪明的。

96
00:06:05,400 --> 00:06:08,680
这个象限以绿色突出显示。

97
00:06:08,880 --> 00:06:12,480
这些型号价格便宜但很智能。

98
00:06:12,640 --> 00:06:14,200
哪一个都很棒。

99
00:06:14,360 --> 00:06:18,320
呃，这就是大多数人的最佳选择。

100
00:06:18,480 --> 00:06:23,320
嗯，而且，你知道，肯定有一个思想流派会说，如果你确定

101
00:06:23,360 --> 00:06:30,840
任何像这里这样的模型，恰好是，呃，GPT oss，那是相当遥远的事情

102
00:06:30,840 --> 00:06:31,680
在这里。

103
00:06:31,880 --> 00:06:37,280
然后你会说你可以想象这样那样画一个盒子。

104
00:06:37,600 --> 00:06:45,840
任何出现在右侧和下方的东西都代表着，呃，更昂贵的东西

105
00:06:45,840 --> 00:06:47,360
而且不那么聪明。

106
00:06:47,600 --> 00:06:53,500
所以有一种观点认为你永远不应该选择右下角的模型

107
00:06:53,540 --> 00:06:55,820
此图表上的任何其他模型。

108
00:06:55,820 --> 00:07:04,300
事实上，甚至 GPT 也被排除在外，因为 grok 4 的 fast 略高于并且相当多

109
00:07:04,340 --> 00:07:04,940
向左转。

110
00:07:04,940 --> 00:07:06,660
它更便宜、更智能。

111
00:07:06,660 --> 00:07:08,380
所以你可以争论，看看那个。

112
00:07:08,380 --> 00:07:13,220
在此线以上的任何模型，您应该始终选择 grok 4 fast。

113
00:07:13,740 --> 00:07:17,740
现在当然有一个小问题，那就是它过于简单化了，因为

114
00:07:17,740 --> 00:07:24,220
人工智能分析指数不一定与您的任务直接相关。

115
00:07:24,260 --> 00:07:26,460
这是所有这些任务的混合体。

116
00:07:26,620 --> 00:07:32,700
因为还有其他因素，例如延迟和其他原因，您可能会倾向于

117
00:07:32,740 --> 00:07:34,260
转向不同的模型。

118
00:07:34,260 --> 00:07:40,780
但作为一个快速的经验法则，这并不是一个坏规则，说，嘿，永远不要选择一个模型，那就是

119
00:07:40,820 --> 00:07:45,380
这张令人惊叹的图表上任何内容的下方和右侧。

120
00:07:45,700 --> 00:07:53,290
呃，所以选择这个象限中的东西，比如 Deep Sea 3.2 和 grok Full Fast 和 GPT OS。

121
00:07:53,610 --> 00:07:56,970
这些将是廉价且智能的模型。

122
00:07:57,330 --> 00:08:02,930
让我们看看这里昂贵的强大的集群。

123
00:08:02,930 --> 00:08:10,130
所以你可以看到，一开始 Claude 4.1 作品非常昂贵，而且甚至不如 Claude 那么聪明

124
00:08:10,130 --> 00:08:11,490
4.5 十四行诗。

125
00:08:11,610 --> 00:08:17,850
因此，除了非常具体的基准之外，很难想象为什么有人会使用 Claude 4.1 opus

126
00:08:17,850 --> 00:08:22,290
如今，4 或 5 首十四行诗更好、更便宜。

127
00:08:22,650 --> 00:08:29,410
环顾四周，您可以看到 GPT 5 和 grok 4 是如何排列的，GPT 5 看起来确实如此

128
00:08:29,410 --> 00:08:33,730
更便宜、更智能，至少在这个总体基准上是如此。

129
00:08:34,010 --> 00:08:40,650
是的，你可以看到，当开源模型就在这里时，真的，呃，

130
00:08:40,690 --> 00:08:45,010
嗯，它非常昂贵，因为它太大了，但它也非常聪明。

131
00:08:45,170 --> 00:08:53,600
因此，环顾这里的集群，享受真正了解不同产品的功率与成本的乐趣

132
00:08:53,600 --> 00:08:54,360
模型。

133
00:08:54,360 --> 00:08:56,160
你会看到一些与我不同的东西。

134
00:08:56,160 --> 00:09:00,480
因此，您将能够得出新的结论，并通过各种方式发布它们，与其他人分享

135
00:09:00,480 --> 00:09:05,160
学生在 Udemy 或 LinkedIn 上或分享此图表。

136
00:09:05,160 --> 00:09:06,600
这是一个令人着迷的图表。

137
00:09:06,600 --> 00:09:08,040
应该让更多人知道。

138
00:09:08,040 --> 00:09:13,760
好的，再向您展示一下人工分析的速度和延迟部分。

139
00:09:13,760 --> 00:09:17,080
这向您展示了模型运行的速度。

140
00:09:17,120 --> 00:09:23,320
他们每秒会向您喷出多少个输出令牌，其中 OSS 120 位于首位。

141
00:09:23,400 --> 00:09:27,120
当我们玩四连棋时，我们亲眼目睹了它的火热。

142
00:09:27,480 --> 00:09:30,720
我之前提到的延迟是一个不同的指标。

143
00:09:30,760 --> 00:09:36,640
这是您获得第一个令牌所需的时间，但不包括思考令牌。

144
00:09:36,640 --> 00:09:37,520
他们不算数。

145
00:09:37,560 --> 00:09:43,320
直到你得到第一个答案令牌才算数，你会发现 Lama4 Maverick 确实做得很好

146
00:09:43,320 --> 00:09:43,720
出色地。

147
00:09:44,080 --> 00:09:52,260
Kimmy K-2 是来自中国初创公司 Moonshot 的模型，GPT 5 是来自阿里云的模型，Quinn 3 是来自阿里云的模型。

148
00:09:52,260 --> 00:09:59,060
它们在速度、端到端响应时间、响应所需的总时间方面都表现出色。

149
00:09:59,300 --> 00:10:01,780
骆驼四在那里也处于好位置。

150
00:10:01,780 --> 00:10:09,020
然后这个漂亮的小图表显示了输出速度和总价格比较的智能

151
00:10:09,020 --> 00:10:14,980
每百万代币的输入和输出价格，不再将其与其分析指数挂钩。

152
00:10:14,980 --> 00:10:16,060
还有另一个规模。

153
00:10:16,060 --> 00:10:20,700
这次是情报与价格的比较，以对数尺度每百万代币的价格。

154
00:10:20,700 --> 00:10:22,980
另一个有用的，但我更喜欢之前的那个。

155
00:10:23,500 --> 00:10:27,060
呃，然后还有一堆其他特定的表格。

156
00:10:27,060 --> 00:10:29,300
OS 120 上有一些东西。

157
00:10:29,340 --> 00:10:31,660
这里有很多东西值得一看。

158
00:10:31,860 --> 00:10:38,060
你应该迷失在人工分析中——我在这里花十分钟你就会知道如何选择

159
00:10:38,100 --> 00:10:41,540
可能适合您的任务的良好模型子集。

160
00:10:41,580 --> 00:10:42,820
这是该去的地方。

161
00:10:43,060 --> 00:10:45,260
这个网站是黄金网站。