1
00:00:00,120 --> 00:00:05,200
因此，一旦您了解了用于选择候选名单的基础知识，

2
00:00:05,200 --> 00:00:09,880
模型，接下来你要做的就是查看基准测试。

3
00:00:09,880 --> 00:00:16,720
现在，正如我将在本周晚些时候介绍的那样，基准测试只能带您到目前为止，基准测试是

4
00:00:16,720 --> 00:00:23,320
这不是验证模型是否适合您的问题的最终方法，但这是一个好的开始

5
00:00:23,320 --> 00:00:23,880
观点。

6
00:00:24,080 --> 00:00:28,440
当我们讨论如何选择正确模型的策略时，我们将详细讨论这一点，

7
00:00:28,440 --> 00:00:34,400
但这些基准为您提供了一种早期指导，允许您选择模型的子集。

8
00:00:34,400 --> 00:00:36,360
并且有许多不同的基准。

9
00:00:36,400 --> 00:00:41,640
评估模型的方法有很多，但有一些确实很难。

10
00:00:41,680 --> 00:00:47,440
有一些确实具有挑战性的测试，使我们能够区分不同的模型

11
00:00:47,440 --> 00:00:47,680
最多。

12
00:00:47,720 --> 00:00:50,960
这些就是我现在要和你们一起经历的，但还有更多，我会

13
00:00:50,960 --> 00:00:56,160
向您展示一大堆，因为出于某种原因，我对基准测试和比较着迷

14
00:00:56,400 --> 00:00:57,080
llms。

15
00:00:57,080 --> 00:01:02,620
但我们现在要讨论这六个，然后我们会看看一大堆，你会得到一个

16
00:01:02,620 --> 00:01:07,820
对于如何判断不同 LMS 的功能，感觉非常好。

17
00:01:07,980 --> 00:01:10,980
所以我们要考虑的第一个指标称为 G。

18
00:01:12,260 --> 00:01:15,380
这代表 Google Proof Q&amp;A。

19
00:01:16,060 --> 00:01:19,180
你可能想知道谷歌证明到底意味着什么。

20
00:01:19,220 --> 00:01:21,180
好像谷歌可以证明这一点。

21
00:01:22,180 --> 00:01:23,300
这有点相反。

22
00:01:23,620 --> 00:01:30,180
这是 448 道困难的物理化学和生物学问题。

23
00:01:30,340 --> 00:01:32,860
当我说困难时，这就是我的意思。

24
00:01:33,300 --> 00:01:41,780
如果你把它交给非博士学位级别的人，比如我自己，我就是一个博士学位级别的人。

25
00:01:41,980 --> 00:01:44,860
呃，你给我这些问题。

26
00:01:44,980 --> 00:01:47,500
呃，也许你也是博士级别的。

27
00:01:47,540 --> 00:01:48,140
也许你是。

28
00:01:48,180 --> 00:01:55,220
但是如果你要回答这些问题，那么平均而言，你会在这些问题上得分 34%，即使

29
00:01:55,740 --> 00:02:02,340
你可以访问谷歌，并在半小时内进行你想要回答这些问题的尽可能多的研究

30
00:02:02,520 --> 00:02:03,200
问题。

31
00:02:03,560 --> 00:02:07,200
分数仍然只有34%。

32
00:02:07,200 --> 00:02:10,000
这就是为什么它们被认为是 Google 证明的原因。

33
00:02:10,000 --> 00:02:12,360
因为即使是谷歌也没有。

34
00:02:12,360 --> 00:02:13,200
你能解决它们吗？

35
00:02:13,520 --> 00:02:22,600
是的，博士水平的人类在这些问题上的能力是 65%，65% 是博士水平。

36
00:02:22,720 --> 00:02:26,960
当他们推出这个测试时，GPT 已经持续了四天。

37
00:02:27,240 --> 00:02:33,040
GPT 4 的得分比非博士水平高出 39%。

38
00:02:33,040 --> 00:02:35,760
这被认为是太棒了。

39
00:02:35,800 --> 00:02:38,360
这被视为一个非常严格的基准。

40
00:02:38,360 --> 00:02:45,120
所以我现在问你的问题是你认为当前的前沿模型正在用 Gpca 做什么。

41
00:02:45,360 --> 00:02:48,640
请记住这些数字，博士学位水平是 65%。

42
00:02:48,680 --> 00:02:54,480
您认为前沿模型已经达到物理、化学、生物学的博士水平了吗？

43
00:02:54,520 --> 00:02:57,520
我会让你做出决定，稍后我们再看看。

44
00:02:57,760 --> 00:02:59,400
下一个指标是 MMA。

45
00:03:00,320 --> 00:03:05,540
Pro MMA 是一个非常常见的基准测试，您随处都可以听到。

46
00:03:05,580 --> 00:03:08,220
它代表大规模多任务语言。

47
00:03:08,220 --> 00:03:14,180
理解大量问题，测试模型展示其对含义的理解的能力

48
00:03:14,180 --> 00:03:14,900
的某事。

49
00:03:15,300 --> 00:03:23,260
但该指标被认为是有缺陷的，因为它太简单且易于建模。

50
00:03:23,260 --> 00:03:25,820
而且它也有歧义。

51
00:03:25,820 --> 00:03:27,780
所以这只是一个糟糕的测试。

52
00:03:27,820 --> 00:03:34,060
曾经被多次引用，直到人们普遍认为这不是一个稳健的测试。

53
00:03:34,060 --> 00:03:38,700
所以他们推出了 MLU Pro，这是不同的。

54
00:03:38,700 --> 00:03:40,620
这是一个更难的问题。

55
00:03:40,740 --> 00:03:45,900
模型不再给出只有四种可能性的多项选择答案，而是得到十种可能性

56
00:03:45,900 --> 00:03:46,820
的可能性。

57
00:03:46,980 --> 00:03:48,700
他们的歧义已被消除。

58
00:03:48,700 --> 00:03:50,220
问题很难。

59
00:03:50,220 --> 00:03:55,180
这是一个可靠的、呃、值得信赖的指标，你应该留意。

60
00:03:55,380 --> 00:04:00,300
然后目标是一个你可能已经知道的测试。

61
00:04:00,300 --> 00:04:01,460
您可能听说过这个。

62
00:04:01,500 --> 00:04:08,920
这是一项由高中生参加的竞争性数学、智力竞赛。

63
00:04:08,920 --> 00:04:10,080
但这不是。

64
00:04:10,680 --> 00:04:14,200
这不是典型的高中考试。

65
00:04:14,280 --> 00:04:16,040
这就像顶部。

66
00:04:16,200 --> 00:04:17,520
表现最佳？

67
00:04:17,760 --> 00:04:19,240
呃数学。

68
00:04:19,280 --> 00:04:20,280
在学校。

69
00:04:20,320 --> 00:04:26,280
他们竞争性地、竞争性地进行这项工作，并参加数学奥林匹克竞赛。

70
00:04:26,280 --> 00:04:28,600
这是非常非常困难的问题之一。

71
00:04:28,600 --> 00:04:32,920
你可以查一下，看看我肯定会问的问题，我也肯定不会问

72
00:04:32,920 --> 00:04:33,840
能够做到其中任何一个。

73
00:04:34,040 --> 00:04:41,720
向模型提出这组问题来衡量他们解决数学问题的能力。

74
00:04:41,720 --> 00:04:42,960
这不像心算。

75
00:04:43,000 --> 00:04:47,040
它们都是数学难题，然后是实时代码台。

76
00:04:47,040 --> 00:04:51,480
实际上，我们将研究许多不同的编码基准。

77
00:04:51,480 --> 00:04:52,480
这是其中之一。

78
00:04:52,480 --> 00:04:58,920
这是评估模型根据问题编写代码能力的基准。

79
00:04:59,080 --> 00:05:03,920
呃，来自 LeetCode 和 Codeforces 等网站上的竞赛。

80
00:05:04,080 --> 00:05:06,130
并且，还有这个特定的基准。

81
00:05:06,170 --> 00:05:12,130
他们努力确保谜题有很大的变化，这样模型就不能只是看到它

82
00:05:12,170 --> 00:05:14,770
他们在训练数据中并熟悉谜题。

83
00:05:14,930 --> 00:05:16,690
它们在不断变化。

84
00:05:17,410 --> 00:05:23,410
然后穆萨是我的最爱之一，因为它有如此美好、有形的部分。

85
00:05:23,410 --> 00:05:30,530
但 Musa 是一种多步骤的软推理，是关于模型思考某事的能力。

86
00:05:30,530 --> 00:05:34,970
所以它的目的是特别将推理模型带入表面。

87
00:05:35,250 --> 00:05:39,050
基本上，该模型会被问到许多不同的问题。

88
00:05:39,050 --> 00:05:46,810
共有三个类别，但我最喜欢的是有关犯罪悬疑的类别。

89
00:05:46,810 --> 00:05:47,730
侦探小说。

90
00:05:47,930 --> 00:05:55,050
呃，特别是它给出了一个一千字的谋杀之谜，它问了一个问题，谁

91
00:05:55,090 --> 00:05:58,770
有办法、有动机、有机会吗？

92
00:05:58,810 --> 00:06:01,650
所以它必须阅读这个故事并得出结论。

93
00:06:01,690 --> 00:06:05,570
我认为这太棒了，因为它有点像现实世界的谜题。

94
00:06:05,570 --> 00:06:08,590
这就是缪斯的工作方式。

95
00:06:08,590 --> 00:06:12,350
这是三类测试之一。

96
00:06:12,590 --> 00:06:16,790
最后但绝对不是最不重要的，最后但也是最重要的。

97
00:06:17,030 --> 00:06:26,790
事实上最后但也是最重要的是一个大家都喜欢的基准，它被称为HL，它代表

98
00:06:26,790 --> 00:06:27,750
你可能知道这一点。

99
00:06:27,910 --> 00:06:31,390
它代表人类的最后考试。

100
00:06:31,750 --> 00:06:36,190
这是为了测试超人的智力水平。

101
00:06:36,190 --> 00:06:40,390
这应该是我们能想到的最难的测试。

102
00:06:40,430 --> 00:06:45,470
这实际上是为了回应这样一个事实：每次我们设置困难测试时，模型似乎只是

103
00:06:45,470 --> 00:06:50,790
在大约一年的时间里，他们似乎找到了如何通过变得更好来粉碎它

104
00:06:50,790 --> 00:06:51,470
更好的。

105
00:06:51,470 --> 00:07:01,750
因此，HL 的想法是建立一个迄今为止尚未完成的测试，它有 2500 个最先进的测试。

106
00:07:01,750 --> 00:07:05,950
你可能想象到的极其复杂的问题。

107
00:07:05,950 --> 00:07:08,930
我们会看看其中的一些，你会想，什么？

108
00:07:09,130 --> 00:07:17,770
呃，HLA 出来的时候，也就是 2024 年晚些时候，嗯，模型就在

109
00:07:17,810 --> 00:07:21,330
得分可能有2%、3%。

110
00:07:21,330 --> 00:07:23,330
所以他们的表现仍然不佳。

111
00:07:23,330 --> 00:07:26,210
但从那时起，这仍然是一个重大举措。

112
00:07:26,330 --> 00:07:32,050
呃，再说一遍，就像 Gpca 一样，我会让你思考你的想法，你认为我们现在处于什么位置。

113
00:07:32,090 --> 00:07:32,850
还不赶紧查一下。

114
00:07:32,850 --> 00:07:35,490
等我们到了再看看你是不是对的。

115
00:07:35,890 --> 00:07:39,650
至此，我们就结束了对这六个硬基准的研究。

116
00:07:39,650 --> 00:07:43,690
还有许多其他更简单的方法可以权衡不同的因素。

117
00:07:43,690 --> 00:07:49,130
但我喜欢这些，因为它们具有挑战性，你真的可以区分什么是最佳性能

118
00:07:49,130 --> 00:07:50,290
看起来像今天。

119
00:07:50,290 --> 00:07:55,330
您可以观察这些指标，了解明年情况如何变化。

120
00:07:55,330 --> 00:08:00,530
也许当你观看这些视频时，当我向你展示数字时，模型将会有

121
00:08:00,570 --> 00:08:04,290
将从现在的位置继续前进，这真的很令人兴奋。

122
00:08:04,290 --> 00:08:08,370
还有一个原因，这是我喜欢观看基准测试的众多原因之一。