1
00:00:00,050 --> 00:00:10,110
GPT是Generative pre-trained Transformer的缩写, 它反映了模型的本质和训练过程

2
00:00:10,130 --> 00:00:15,000
生成性表示其生成文本的能力 

3
00:00:15,020 --> 00:00:23,330
Pre-trained表示在对特定任务进行微调之前已经对大量文本数据进行了训练,

4
00:00:23,330 --> 00:00:32,590
而Transformer表示用于训练模型的底层架构

5
00:00:32,600 --> 00:00:41,600
创建聊天GPT是一个庞大的 多方面的过程, 需要大量的数据收集和大量的训练,

6
00:00:41,600 --> 00:00:47,930
我们将进入, 这是训练大型语言模型（如GPT 3和GPT

7
00:00:47,930 --> 00:00:51,500
4）的关键一步

8
00:00:51,530 --> 00:00:59,360
首先, 数据经过预处理, 包括在Transformer架构上进行基础模型训练之前的标记化,

9
00:00:59,360 --> 00:01:09,050
该架构擅长处理语言模型任务的顺序数据

10
00:01:09,080 --> 00:01:10,430
岗位培训 

11
00:01:10,430 --> 00:01:19,100
该模型使用监督学习对特定任务进行微调, 评估性能, 部署用户可访问性,

12
00:01:19,100 --> 00:01:28,670
然后持续监控和更新, 以确保其准确性, 安全性和相关性

13
00:01:28,670 --> 00:01:35,810
如果所有这些听起来有点混乱, 不要担心, 因为这里是这个过程的高级概述

14
00:01:35,810 --> 00:01:39,800
首先, 我们来谈谈数据收集的过程 

15
00:01:39,800 --> 00:01:51,230
这是通过从各种来源（如书籍, 文章, 网站和已编译的大量数据集）中抓取和聚合文本来完成的

16
00:01:51,230 --> 00:02:05,060
GPT 3是在多个数据集上训练的, 包括Common Crawler数据集, 它基本上是在整个互联网上收集的基于Web的数据的汇编

17
00:02:05,060 --> 00:02:13,310
这个常见的爬虫数据集包含PB的数据, 1 PB相当于100万GB的数据,

18
00:02:13,310 --> 00:02:19,610
这是在12年的网络爬行中收集的

19
00:02:19,610 --> 00:02:26,900
因此, 这些信息集合包含原始网页数据 元数据和文本提取 

20
00:02:26,900 --> 00:02:30,470
如果你说什么是网络爬虫？

21
00:02:30,500 --> 00:02:41,720
网络爬虫是一种计算机程序, 用于搜索和自动索引网站内容和互联网上的其他信息

22
00:02:41,750 --> 00:02:49,580
这些程序和机器人最常用于为搜索引擎索引创建条目 

23
00:02:49,700 --> 00:02:56,630
因此, 网络爬虫本质上是在互联网上获取大量无组织的数据, 并对其进行索引,

24
00:02:56,630 --> 00:03:03,770
扫描, 并将其整理成有组织的信息, 这些信息被分类并更容易导航

25
00:03:03,800 --> 00:03:16,700
最重要的是, GPT也有可能接受了由第三方提供商收集和组织的一些专有和许可数据集的培训

26
00:03:16,700 --> 00:03:23,770
这些数据对于训练像GPT 3和GPT 4这样的LMS至关重要 

27
00:03:23,780 --> 00:03:32,600
例如, GPT 3有45TB的文本数据, 这些数据是从各种来源收集的,

28
00:03:32,630 --> 00:03:44,420
其中1TB的数据相当于8300万页的文本, 而用于训练GPT 4的数据量甚至更高

29
00:03:44,420 --> 00:03:53,870
然后, 所有这些内容都经过预处理, 只有大约570GB的高质量和可用数据 

30
00:03:53,870 --> 00:03:56,930
为什么还要经历这个过程呢？

31
00:03:56,960 --> 00:04:01,100
数据是任何机器学习模型的基础 

32
00:04:01,100 --> 00:04:07,850
它提供了模型学习模式 做出预测和决策的原材料 

33
00:04:07,850 --> 00:04:15,860
因此, 一个多样化的大型数据集对于训练强大而有能力的模型至关重要 

34
00:04:15,860 --> 00:04:24,020
下一个阶段是数据预处理, 这是为了清理和组织收集的所有数据,

35
00:04:24,020 --> 00:04:32,720
确保一致性, 并删除任何不相关或重要的敏感信息

36
00:04:32,720 --> 00:04:42,020
其中一个元素称为标记化, 它涉及将文本分解为称为标记的较小片段

37
00:04:42,020 --> 00:04:52,310
这个过程有助于将原始文本转换为模型可以使用的格式, 以优化的方式进行训练

38
00:04:52,310 --> 00:04:54,110
为什么这很重要？

39
00:04:54,110 --> 00:04:59,780
它会删除所有敏感信息 

40
00:04:59,880 --> 00:05:09,290
模型遵守隐私标准, 并有助于减少数据中的整体噪音, 这将影响模型的性能

41
00:05:09,300 --> 00:05:12,060
这就像在厨房里一样 

42
00:05:12,060 --> 00:05:18,450
你想, 比如说烤一个比萨饼, 你的台面上有数百种配料 

43
00:05:18,450 --> 00:05:24,180
现在, 如果你知道你只需要八种配料就能真正有效地烤出你想要烤的披萨,

44
00:05:24,180 --> 00:05:30,570
在这种情况下, 你会去除多余的噪音, 多余的材料, 以及你不需要的额外内容

45
00:05:30,570 --> 00:05:34,170
所以预处理的过程是类似的 

46
00:05:34,170 --> 00:05:38,190
然后我们继续进行基础模型训练 

47
00:05:38,190 --> 00:05:46,890
这个过程涉及到使用一种无监督学习形式（称为语言建模）在收集和预处理的数据上训练基于Transformer的模型,

48
00:05:46,890 --> 00:05:55,950
如GPT 3和GPT 4

49
00:05:55,950 --> 00:06:07,800
这涉及到调整模型参数, 以最小化预测输出和实际下一个单词（也称为token）之间的差异

50
00:06:07,800 --> 00:06:11,850
在这种情况下, 这是一个特定序列的输出 

51
00:06:11,850 --> 00:06:22,110
别担心, 我们会有一整堂关于ChatGPT的课, 它的预测能力是在写给定的输出时选择下一个单词

52
00:06:22,140 --> 00:06:27,030
我们还将了解到底什么是Transformer架构 

53
00:06:27,210 --> 00:06:29,660
但为什么这很重要？

54
00:06:29,670 --> 00:06:38,250
好吧, 这个基础模型训练的真正目的是获取训练过的数据, 并通过调整模型参数来最大限度地减少预测误差,

55
00:06:38,250 --> 00:06:45,300
从而提供非常重要的高质量输出

56
00:06:45,330 --> 00:06:49,560
这导致了微调阶段 

57
00:06:49,560 --> 00:06:59,280
现在在这个阶段, 我们有一个性能良好的工具, 但它缺乏人类微妙和特征的细微差别

58
00:06:59,280 --> 00:07:07,310
但是, 为了获得一个可以供公众使用的产品, 一个更小 更具体的数据集和监督学习有助于引导模型实现所需的行为,

59
00:07:07,310 --> 00:07:29,810
例如编写更好的格式, 以更容易理解的方式呈现详细信息, 更好的词语选择准确性, 甚至拨打其参数, 以获得更安全 更可控的响应

60
00:07:29,810 --> 00:07:36,170
具体来说, 监督学习类似于老师给学生的作业打分 

61
00:07:36,200 --> 00:07:46,310
学生输出一篇书面论文, 然后教师根据模型的正确性和正确性给出一个值

62
00:07:46,310 --> 00:07:52,520
这个过程一次又一次地发生, 以继续改进模型的输出 

63
00:07:52,520 --> 00:08:00,440
这一切都非常重要, 因为微调调整了基础模型, 使其在特定任务中表现良好,

64
00:08:00,470 --> 00:08:05,990
并使其符合某些安全和道德准则

65
00:08:05,990 --> 00:08:11,150
这导致了我们模型的评估和迭代 

66
00:08:11,150 --> 00:08:18,410
来自人类评估者的各种度量和反馈用于评估模型的性能 

67
00:08:18,410 --> 00:08:26,210
然后, 进一步评估和重申模型, 评估测量模型的性能, 并通过人工评估人员识别需要改进的领域,

68
00:08:26,210 --> 00:08:36,409
并确保模型符合所需的标准

69
00:08:36,409 --> 00:08:44,750
在实际应用中, 这个阶段会一直持续下去, 直到模型可以安全地供公众使用 

70
00:08:44,750 --> 00:08:53,180
最后, 该模型已准备好进行部署和更新, 因此这是收集和分析来自用户和监控系统的反馈的地方,

71
00:08:53,180 --> 00:09:03,680
以识别任何问题, 并允许在必要时更新和重新训练模型

72
00:09:03,680 --> 00:09:13,280
因此, 这种类型的监控有助于识别和解决任何因偏见或任何意外行为而出现的问题

73
00:09:13,280 --> 00:09:22,460
所以每一个步骤都有无数的复杂性, 我们可以花上几周的时间来学习

74
00:09:22,460 --> 00:09:29,720
但这确实是一个高层次的观点, 它需要创造像GPT这样的东西 

75
00:09:29,930 --> 00:09:36,320
这种理解水平真的会让你在接下来的课程中取得成功