1
00:00:00,040 --> 00:00:01,480
好的，你会看到右边这里。

2
00:00:01,480 --> 00:00:03,600
我已经连接到 T4。

3
00:00:03,680 --> 00:00:05,880
您可能需要按该按钮，连接到 T4。

4
00:00:05,920 --> 00:00:07,120
记得往下拉。

5
00:00:07,120 --> 00:00:09,840
确保这表示连接到托管运行时 T4。

6
00:00:09,880 --> 00:00:13,240
如果您不确定它是否不是 T4，请更改运行时类型。

7
00:00:13,240 --> 00:00:21,280
确保选择 T4 并始终转到此处查看资源，以便您获得这张小图片

8
00:00:21,280 --> 00:00:22,600
这是正在发生的事情。

9
00:00:22,640 --> 00:00:23,640
检查你的 GPU 内存。

10
00:00:23,640 --> 00:00:29,040
你可以看到我已经运行了这个并查看了 GPU Ram，但是自从我进入运行时以来我已经

11
00:00:29,040 --> 00:00:34,840
完成重新启动会话，这清除了我所有的内存，但它使我的磁盘保持在一起。

12
00:00:34,880 --> 00:00:39,440
我会把它做得小一点，这样就不会占用太多空间，但我会保持眼睛健康

13
00:00:39,440 --> 00:00:42,080
我总是在右边。

14
00:00:42,400 --> 00:00:42,960
好的。

15
00:00:43,160 --> 00:00:45,600
呃，我又说了一点。

16
00:00:45,800 --> 00:00:50,080
我知道我上周说了很多次，但我只想再提一次

17
00:00:50,080 --> 00:00:54,560
很多人都知道训练和推理之间的区别。

18
00:00:54,800 --> 00:01:00,040
但只是为了强调一下，万一你不这样做，当你第一次使用数据科学模型时，

19
00:01:00,040 --> 00:01:05,700
你需要做的第一件事就是向它提供大量数据和示例来训练它擅长

20
00:01:05,700 --> 00:01:07,020
做你想让它做的事。

21
00:01:07,220 --> 00:01:15,460
当然，对于 GPT，GPT 中的 P 代表预训练，也就是说 OpenAI 花费了大约

22
00:01:15,500 --> 00:01:22,740
花费 1 亿美元将所有数据传输到互联网上，并通过更多数据来尝试使其变得非常好

23
00:01:22,740 --> 00:01:24,420
预测下一个标记。

24
00:01:24,420 --> 00:01:29,220
训练过程是一个巨大的废话，这种情况确实发生了。

25
00:01:29,220 --> 00:01:32,620
完成后，您就拥有了一个预先训练的模型。

26
00:01:32,980 --> 00:01:36,980
从那时起，您所做的活动就称为推理。

27
00:01:36,980 --> 00:01:41,220
你是说我们现在有了一个你以前从未见过的新输入。

28
00:01:41,220 --> 00:01:42,900
你在训练时没有看到这一点。

29
00:01:42,900 --> 00:01:44,340
这是不同的东西。

30
00:01:44,340 --> 00:01:46,740
我们希望您预测接下来会发生什么。

31
00:01:46,780 --> 00:01:51,260
我们希望您针对这个新输入以及整个事情完成您的任务。

32
00:01:51,300 --> 00:01:54,340
运行经过训练的模型称为推理。

33
00:01:54,380 --> 00:01:59,020
这是一个很奇特的词，但它只是说运行模型，我们今天将进行推理。

34
00:01:59,060 --> 00:02:02,540
pipelines API 就是关于推理的。

35
00:02:03,500 --> 00:02:04,100
好的。

36
00:02:04,420 --> 00:02:06,040
然后是第一个单元格。

37
00:02:06,080 --> 00:02:08,040
这是一个 pip 安装。

38
00:02:08,080 --> 00:02:12,800
请记住，顶部单元格始终是您放置 pip 安装的位置，并且您始终必须重新运行此命令，如果

39
00:02:12,800 --> 00:02:14,000
你会被撞倒。

40
00:02:14,240 --> 00:02:18,600
如果你想知道这是做什么的，pip install 减去 q 意味着请保持安静。

41
00:02:18,640 --> 00:02:19,880
别给我太多输出。

42
00:02:19,920 --> 00:02:23,040
否则，pip 安装可能会用信息填满屏幕。

43
00:02:23,200 --> 00:02:30,360
减号升级是说即使你已经安装了这个，我希望你小心地重新安装它

44
00:02:30,360 --> 00:02:32,040
以及我将要给你的指示。

45
00:02:32,400 --> 00:02:38,800
数据集是著名的库之一，它已经安装在每个 colab 上的 Pip 上，

46
00:02:38,800 --> 00:02:44,840
但我想强制它使用版本 3.6.0，这是大约六周前的版本。

47
00:02:44,840 --> 00:02:50,360
因为在那之后，抱脸刚刚发布了更新，他们改变了很多东西，这

48
00:02:50,360 --> 00:02:55,120
意味着某些拥抱面部代码不适用于该版本，等等等等。

49
00:02:55,640 --> 00:02:58,760
此过程称为固定版本。

50
00:02:58,760 --> 00:03:01,480
它将数据集固定到 3.6.0。

51
00:03:01,520 --> 00:03:05,320
当您查看此单元格时，您可能会发现我固定了更多内容，您可能还有更多内容

52
00:03:05,320 --> 00:03:06,360
未来的合作实验室。

53
00:03:06,360 --> 00:03:10,820
这是因为随着时间的推移，事情会发生变化，人们总是会破坏事情。

54
00:03:10,820 --> 00:03:15,980
所以像我这样的穷人必须通过并固定图书馆的版本以确保一切仍然存在

55
00:03:15,980 --> 00:03:16,340
作品。

56
00:03:16,380 --> 00:03:19,100
这是人们非常常见的活动。

57
00:03:19,140 --> 00:03:19,820
好的。

58
00:03:19,820 --> 00:03:22,580
所以要做的第一件事就是运行这个单元。

59
00:03:22,580 --> 00:03:26,340
对我来说，它应该运行得又好又快，因为我已经安装了该版本。

60
00:03:26,340 --> 00:03:30,420
它应该看到，呃，这将立即发生。

61
00:03:30,420 --> 00:03:31,060
完成了。

62
00:03:31,260 --> 00:03:31,860
好的。

63
00:03:31,940 --> 00:03:37,380
因此，下一个单元与我们上次检查 GPU 时所做的单元相同。

64
00:03:37,420 --> 00:03:40,620
如果你做的一切都是正确的，那么我们将进入 T4。

65
00:03:40,820 --> 00:03:43,300
这里应该说特斯拉T4。

66
00:03:43,340 --> 00:03:44,340
就在那里。

67
00:03:44,660 --> 00:03:45,580
伟大的。

68
00:03:45,580 --> 00:03:46,860
我们还有记忆吗？

69
00:03:46,900 --> 00:03:51,420
我们确实有 15GB 的 GPU RAM，我们很喜欢。

70
00:03:51,660 --> 00:03:54,140
接下来是大量进口。

71
00:03:54,300 --> 00:04:00,660
您会在这里看到我们正在从转换器导入管道导入一些管道。

72
00:04:00,820 --> 00:04:03,700
呃，这是我们这里的关键要点。

73
00:04:03,700 --> 00:04:09,500
我们还导入了称为扩散管道的东西，这是另一组管道

74
00:04:09,560 --> 00:04:12,440
对于我们上次第一次遇到的扩散模型。

75
00:04:12,440 --> 00:04:16,320
但它们就像生成图像而不是文本。

76
00:04:16,560 --> 00:04:17,880
好的，运行完毕。

77
00:04:18,200 --> 00:04:20,960
下一个是连接到拥抱脸帐户。

78
00:04:21,000 --> 00:04:23,640
现在，你昨天这样做了，因为你很棒，谢谢你。

79
00:04:23,640 --> 00:04:27,720
但如果你没有这样做，那么你就很糟糕并且感到失望。

80
00:04:28,080 --> 00:04:31,600
但你可以通过拥抱脸部来快速纠正这种情况。

81
00:04:31,640 --> 00:04:33,920
设置免费帐户创建者。

82
00:04:33,960 --> 00:04:36,080
转到头像菜单标记。

83
00:04:36,080 --> 00:04:37,120
创建 API 令牌。

84
00:04:37,160 --> 00:04:38,720
确保它具有写入权限。

85
00:04:38,760 --> 00:04:40,920
如果你不这样做，一切都会出错。

86
00:04:41,160 --> 00:04:44,440
呃，然后呃，记住，你把它添加到你的秘密中。

87
00:04:44,480 --> 00:04:47,960
你按下这里的按钮，实际上你需要这样做。

88
00:04:47,960 --> 00:04:50,880
即使您昨天已经这样做了，您仍然需要激活它。

89
00:04:50,920 --> 00:04:54,360
每次记住令牌时都授予此笔记本访问权限。

90
00:04:54,360 --> 00:04:58,040
您不需要将其粘贴回原处，但需要授予其对此 Colab 的访问权限。

91
00:04:58,400 --> 00:05:03,560
嗯，所以，是的，正如我在这里所说的，即使您已经这样做了，您也确实需要单击该按键

92
00:05:03,560 --> 00:05:04,920
并打开开关。

93
00:05:05,160 --> 00:05:09,000
然后当你运行它时，你应该会看到拥抱面部键到目前为止看起来不错。

94
00:05:09,280 --> 00:05:11,000
它应该登录。

95
00:05:11,000 --> 00:05:11,720
伟大的。

96
00:05:12,340 --> 00:05:13,100
好的。

97
00:05:13,380 --> 00:05:14,100
以后。

98
00:05:14,460 --> 00:05:17,860
正如我之前提到的，使用管道有两个步骤。

99
00:05:17,860 --> 00:05:21,820
第一个是当您创建要使用的管道时。

100
00:05:21,980 --> 00:05:24,980
当您这样做时，您可以通过指定任务来完成。

101
00:05:25,300 --> 00:05:30,660
并且您可以选择为任务指定其他内容，就像我想做总结一样

102
00:05:30,660 --> 00:05:36,020
或者无论你想做什么，你可以指定的模型就是你想要的开源模型

103
00:05:36,020 --> 00:05:37,420
用于此目的。

104
00:05:37,420 --> 00:05:41,260
您不需要指定一个，因为拥抱脸可以自动选择一个。

105
00:05:41,780 --> 00:05:43,580
所以我们首先不指定。

106
00:05:43,860 --> 00:05:49,140
设备是您可以说是否希望它使用 GPU 的地方，我们就是这样做的。

107
00:05:49,180 --> 00:05:54,580
如果您想像我们一样使用 Nvidia GPU，则指定的设备是 Cuda。

108
00:05:54,740 --> 00:06:01,620
Cuda 是 Nvidia 发明的特定技术的名称，该技术运行在显卡上，

109
00:06:01,660 --> 00:06:03,460
允许您并行执行此数学运算。

110
00:06:03,500 --> 00:06:04,180
大规模地。

111
00:06:04,300 --> 00:06:06,180
呃，这就像一种编程语言。

112
00:06:06,180 --> 00:06:11,020
它与 C++ 类似，但它是针对这种并行计算的。

113
00:06:11,660 --> 00:06:16,790
呃，然后呃，如果你正在这样做，如果你在你的计算机上本地尝试这个。

114
00:06:17,070 --> 00:06:22,030
呃，你真是太大胆了，如果你使用的是 PC，那么 Cuda 就是使用 Nvidia 芯片的方式。

115
00:06:22,030 --> 00:06:27,990
如果你使用的是 Mac，你必须使用一种叫做 MPs 的东西，它代表 Metal Performance Shader，

116
00:06:27,990 --> 00:06:35,150
如果您使用的是 Apple Silicon 计算机，这是 Apple Silicon 的 Apple 图形库的名称。

117
00:06:35,510 --> 00:06:40,470
所以，呃，一旦你完成了这个并且设置了这个东西，你就可以像你一样频繁地调用它

118
00:06:40,470 --> 00:06:41,670
想要不同的输入。

119
00:06:41,910 --> 00:06:43,510
而且，呃，它会做到这一点。

120
00:06:43,550 --> 00:06:44,110
好的。

121
00:06:44,190 --> 00:06:45,470
你就像，解释得够多了。

122
00:06:45,710 --> 00:06:46,310
让我们这样做吧。

123
00:06:46,310 --> 00:06:46,790
好的。

124
00:06:47,030 --> 00:06:48,070
那么我们开始吧。

125
00:06:48,230 --> 00:06:49,510
情绪分析。

126
00:06:49,630 --> 00:06:53,270
我的简单情感分析器，你可以随意称呼它。

127
00:06:53,270 --> 00:06:55,230
这只是创建管道。

128
00:06:55,470 --> 00:06:58,030
任务是您传入的第一个东西。

129
00:06:58,070 --> 00:07:01,190
情感分析是任务的一个示例。

130
00:07:01,230 --> 00:07:02,670
稍后我们将获得所有任务。

131
00:07:02,910 --> 00:07:08,230
设备 Cuda 说我想使用我有一个 T4，我想在这里使用这个 Ram，我想要它

132
00:07:08,230 --> 00:07:09,190
进行分类。

133
00:07:09,430 --> 00:07:14,550
我非常高兴能够踏上掌握法学硕士的道路。

134
00:07:14,870 --> 00:07:18,890
所以当我运行这个程序时，它会以一堆文本和警告之类的东西开始。

135
00:07:18,890 --> 00:07:21,170
就像我说的，谁在乎呢？

136
00:07:21,170 --> 00:07:26,650
意思是没有提供默认模型以及使用管道的模型名称和修订版本

137
00:07:26,650 --> 00:07:30,250
如果不指定型号名称，则不建议在生产中进行修改。

138
00:07:30,250 --> 00:07:32,730
好吧，Hugingface 不推荐它对你来说是件好事。

139
00:07:32,770 --> 00:07:35,250
无论如何，我们正在这样做，但现在还没有投入生产。

140
00:07:35,490 --> 00:07:40,770
呃呃，呃，但这就是设置为 Cuda 的设备就像，嘿，我想告诉你我们正在使用

141
00:07:40,770 --> 00:07:41,330
GPU。

142
00:07:41,370 --> 00:07:41,770
好的。

143
00:07:42,010 --> 00:07:48,930
呃，这是结果，呃，这个特定模型的评估是，这是

144
00:07:48,930 --> 00:07:50,650
积极的声明。

145
00:07:50,770 --> 00:07:58,450
呃，这是一个令人高兴的声明，它给它的分数是，99.9% 的可能性是积极的，比如

146
00:07:58,450 --> 00:07:58,930
那。

147
00:07:58,930 --> 00:07:59,850
极好的。

148
00:08:00,010 --> 00:08:06,210
您的第一个任务不是在您的计算机上运行，​​而是在您租用的计算机上运行

149
00:08:06,210 --> 00:08:08,810
谷歌，它运行得相当容易。

150
00:08:08,810 --> 00:08:09,850
恭喜。

151
00:08:09,970 --> 00:08:11,410
好吧，让我们加大一点赌注。

152
00:08:11,410 --> 00:08:13,290
让我们在这里尝试一下这个东西。

153
00:08:13,650 --> 00:08:17,410
请记住，因为我们已经创建了管道，所以我们可以随意调用它

154
00:08:17,410 --> 00:08:18,210
不同的输入。

155
00:08:18,210 --> 00:08:20,390
我们将在这里用这个输入来调用它。

156
00:08:20,790 --> 00:08:24,710
我应该对能够掌握 LM 感到更加兴奋。

157
00:08:25,470 --> 00:08:28,350
这是一件很难的事情，因为人们的情绪当然是有点不确定的。

158
00:08:28,390 --> 00:08:30,030
这可不是什么好心情。

159
00:08:30,030 --> 00:08:32,950
我应该是真的，我应该更兴奋。

160
00:08:33,110 --> 00:08:36,510
呃，但是要看到这一点是非常困难的。

161
00:08:36,510 --> 00:08:42,630
你想象任何正在寻找的明显线索都会将其视为积极的

162
00:08:42,670 --> 00:08:43,550
情绪。

163
00:08:43,550 --> 00:08:47,070
果然，如果我们运行它，它确实会给它带来积极的情绪。

164
00:08:47,230 --> 00:08:50,910
呃，它的几率有点低，不是 99.9。

165
00:08:50,910 --> 00:08:52,630
现在只有90.1。

166
00:08:52,870 --> 00:08:58,070
呃，但是尽管如此，它还是错误分类了，我想，我不知道，也许这是有争议的，但那就是

167
00:08:58,070 --> 00:09:00,150
可能不是正确的答案。

168
00:09:00,310 --> 00:09:02,270
那么让我们尝试一个不同的模型。

169
00:09:02,270 --> 00:09:06,630
请记住，在创建管道时，您可以指定模型。

170
00:09:06,630 --> 00:09:10,390
你放在这里的模型是你可以从拥抱脸部中获得的任何东西。

171
00:09:10,430 --> 00:09:14,790
还记得当我们拥抱平台和轮毂时吗？

172
00:09:15,070 --> 00:09:18,510
选项之一，导航栏项目之一是模型。

173
00:09:18,510 --> 00:09:23,210
当你在那里时，你可以搜索不同任务的不同模型和分类

174
00:09:23,250 --> 00:09:24,970
或情感分析就是其中之一。

175
00:09:24,970 --> 00:09:29,970
然后您可以查看不同的模型，使用它作为浏览模型并阅读它们的方式，

176
00:09:30,010 --> 00:09:34,730
看看谁制造了它们，看看他们的结果，看看他们获得了多少颗星星，并将其用作

177
00:09:34,730 --> 00:09:38,690
选择并尝试一些模型并进行一些实验的方法。

178
00:09:38,890 --> 00:09:45,250
就这个模型的这个名字来说，只是为了说明一下，Bert是一个超级著名的模型，被创建

179
00:09:45,290 --> 00:09:46,850
早期由 Google 提供。

180
00:09:46,850 --> 00:09:49,850
它是最早的变形金刚之一。

181
00:09:50,050 --> 00:09:56,770
嗯，呃，没有大小写的词意味着这个特定的模型不关心某些东西是否

182
00:09:56,770 --> 00:09:58,170
是大写还是小写。

183
00:09:58,170 --> 00:10:00,970
一切都只是转换为小写或其他什么。

184
00:10:01,010 --> 00:10:01,850
它忽略了。

185
00:10:01,890 --> 00:10:02,290
案件。

186
00:10:02,330 --> 00:10:03,130
不区分大小写。

187
00:10:03,170 --> 00:10:04,250
这就是我要找的词。

188
00:10:04,410 --> 00:10:06,730
呃，这是一个情感模型，多语言的。

189
00:10:06,730 --> 00:10:08,570
所以它也可以用不同的语言来做到这一点。

190
00:10:08,570 --> 00:10:09,410
那很有意思。

191
00:10:09,650 --> 00:10:14,410
呃，否则这就是我们现在要探索的，尝试不同的模型。

192
00:10:14,410 --> 00:10:19,170
因此，让我们首先尝试一下，我非常高兴能够踏上掌握法学硕士的道路。

193
00:10:19,170 --> 00:10:25,550
所以这实际上是给予星级评级，而不仅仅是正面和负面的评级。

194
00:10:25,550 --> 00:10:32,390
所以它更精致一点，它说有 60% 的把握这是五星级评级。

195
00:10:32,550 --> 00:10:32,830
好的。

196
00:10:32,870 --> 00:10:33,870
那很有意思。

197
00:10:34,110 --> 00:10:35,710
这是我超级兴奋的一件事。

198
00:10:35,710 --> 00:10:38,190
让我们把它改成更有趣的。

199
00:10:38,350 --> 00:10:40,470
我应该更兴奋。

200
00:10:40,470 --> 00:10:41,470
让我们试试吧。

201
00:10:41,710 --> 00:10:45,710
我应该更兴奋，这可能不太好。

202
00:10:45,870 --> 00:10:47,990
呃，让我们看看它是否能解决这个问题。

203
00:10:48,350 --> 00:10:49,110
是的。

204
00:10:49,270 --> 00:10:52,510
所以它预测这是一个三星级评论。

205
00:10:52,790 --> 00:10:59,070
显然，我们都从评论中知道，在实践中，三星级评论显然是不确定的。

206
00:10:59,270 --> 00:11:01,990
呃，所以我想说这是非常准确的，确实如此。

207
00:11:02,030 --> 00:11:06,350
可见，这里其实只是三星级领地之类的，仅此而已。

208
00:11:06,670 --> 00:11:12,590
所以当然，你的行动是现在去看看拥抱的脸港，去模型，找到

209
00:11:12,630 --> 00:11:16,390
不同的分类模型，进行实验和探索。

210
00:11:16,430 --> 00:11:21,710
通过尝试不同的流行模型来了解您学到了什么，并看看您可以为不同的模型提供什么

211
00:11:21,710 --> 00:11:22,710
结果在这里。

212
00:11:22,710 --> 00:11:25,870
管道的伟大之处在于它很容易进行实验。