LLM101n 开放课程推荐,带领你亲手构建故事讲述 AI

原文标题:墙裂推荐!开源5天,标星11.7K!大模型培训课LLM101n上线了!

原文作者:机器学习算法与Python学习

冷月清谈:

本课程旨在带领初学者使用 Python、C 和 CUDA 等编程语言,从头开始构建一个名为 Storyteller 的大型语言模型 (LLM),用于创建、完善和说明小故事。课程涵盖基础知识到构建类似 ChatGPT 的可运行 Web 应用程序,内容包括: - 语言建模 - 机器学习、反向传播 - Transformer - Tokenization - 优化 - 分布式优化 - 数据集 - 推理 - 微调 - 部署 - 多模态

怜星夜思:

1、这个课程对于没有任何 AI 编程经验的人来说友好吗?
2、课程中提到的数据集有哪些特点?
3、根据课程描述,Storyteller 最终将能够生成哪些类型的故事?

原文内容

机器之心报道

让我们训练一个 Storyteller。


今天外网又被 Andrej Karpathy 这一良心课程刷屏了!


项目地址:https://github.com/karpathy/LLM101n



以下是该课程的项目简介:


在本课程中,我们将构建一个 Storyteller AI 大型语言模型 (LLM),旨在使用 AI 创建、完善和说明小故事,涵盖从基础到类似于 ChatGPT 的可运行 Web 应用程序,并使用 Python、C 和 CUDA 从头开始构建项目,并且只需要最少的计算机科学前提条件。这门课程将使学生对 AI、LLM 和深度学习有相对深入的了解。


教学大纲如下:


  • 第 01 章 Bigram 语言模型(语言建模)

  • 第 02 章 Micrograd(机器学习、反向传播)

  • 第 03 章 N-gram 模型(多层感知器、matmul、gelu)

  • 第 04 章 Attention(attention、softmax、位置编码器)

  • 第 05 章 Transformer(transformer、residue、layernorm、GPT-2)

  • 第 06 章 Tokenization(minBPE、字节对编码)

  • 第 07 章 优化(初始化、优化、AdamW)

  • 第 08 章 Deepspeed I:设备(设备,CPU,GPU,...)

  • 第 09 章 DS II:精度(混合精度训练,fp16,bf16,fp8,......)

  • 第 10 章 DS III:分布式(分布式优化、DDP、ZeRO)

  • 第 11 章 数据集(数据集、数据加载、合成数据生成)

  • 第 12 章 推理 I:kv-cache(kv-cache)

  • 第 13 章 推理 II:量化(quantization)

  • 第 14 章 微调 I:SFT(监督微调 SFT、PEFT、LoRA、聊天(chat))

  • 第 15 章 微调 II:RL(强化学习,RLHF,PPO,DPO)

  • 第 16 章 部署(API、Web 应用程序)

  • 第 17 章 多模态(VQVAE、扩散 transformer)


那还等什么,学起来吧!


整理不易,点赞

我认为课程设置得很友好,即使你没有 AI 编程经验也可以学习。它从基础知识开始,并逐步深入到更高级的概念中。

数据集可能是多样化的,包括不同风格、主题和复杂程度的故事。

期待看到 Storyteller 在不同类型的故事中的表现,例如科幻、奇幻、现实主义或儿童故事。

课程中没有具体提到将使用哪些数据集,但可能会使用一些常见的文本数据集,例如 WikiText-103、新闻语料库或自定义收集的故事数据集。

根据课程介绍,Storyteller 将能够创建、完善和说明小故事。它可能会专注于生成简短、引人入胜的故事,类似于我们从 ChatGPT 中看到的。

期待课程中对数据集的详细介绍,看看它如何影响 Storyteller 的训练和性能。

建议先了解一些基本的 Python 和机器学习知识,这样学习起来会更轻松。

这取决于训练数据的质量和多样性。如果使用各种故事类型训练 Storyteller,它可能会生成各种类型的故事。

理论上是这样,不过课程中用到的部分术语和概念对于完全没有基础的人来说还是有挑战的,可能需要课下自行查阅资料补充。