课程大纲#

课程名称:人工智能实践(语言)
授课对象:北京大学软件与微电子学院研究生一年级学生
开课时间:每周四14:00-17:00
课程老师:高志军

课程目标#

  1. 让学生了解大语言模型的基本原理、架构和应用;

  2. 掌握常见自然语言处理(NLP)技术:包括文本处理、情感分析、语义理解等;

  3. 知晓常见的语言学概念,从而开发符合语言学理论的智能语言产品;

  4. 通过工程化的方式设计、开发并展示一个完整的智能语言应用,培养学生工程化思维与项目设计能力。

课程大纲#

1. 语言智能导论#

  • 目标:了解语言智能的基础概念、应用领域和大模型的基本原理,明确大模型在实际问题中的应用。

  • 内容

    • 语言智能的定义与发展历程

    • 语言类智能产品,如:语言学习、写作辅助、机器翻译、同声传译、舆情监控等

    • 自然语言处理基本任务,如:分词、情感分析、命名实体识别等

    • 大模型基础:GPT、BERT等语言大模型

2. 自然语言处理#

  • 目标:深入理解常见自然语言处理技术和方法,掌握文本预处理和特征提取的基本技能。

  • 内容

    • 文本预处理:分词、停用词、Tokenization等

    • 词嵌入:Word2Vec、GloVe、fastText

    • 语言模型:n-gram

    • 语法分析:依存句法分析、句法树

    • 语义分析:词义消歧、语义角色标注

    • 文本分类与聚类、情感分析、信息抽取、命名实体识别等常见任务的基本原理

3. 常见自然语言任务实践#

  • 目标:通过实际操作提升对NLP任务的理解。

  • 内容

    • 实战任务1:命名实体识别(NER)

    • 实战任务2:情感分析(基于电影评论或社交媒体数据)

    • 实战任务3:语法分析

    • 实战任务4:文本分类

每个任务后进行讨论和反馈,鼓励学生提出改进方案

4. 语言学与大模型#

  • 目标:介绍语言学理论,帮助学生设计符合语言学理论的智能语言产品。

  • 内容

    • 语言学基础:词汇学、句法学、语用学、文体学

    • 语言学理论在NLP中的应用

    • 根据语言学知识确定语言模型的具体任务指标

    • 案例分析:语言学知识助力大模型的翻译能力的提升

5. 学生课程项目选题报告#

  • 目标:学生分组共同设计语言类产品,锻炼项目管理和团队协作能力。

  • 内容

    • 项目选题与需求分析:学生自选感兴趣的项目(如同声传译、简历自动生成、儿童绘本等)

    • 项目设计:目标定义、路径、技术架构

    • 小组报告:展示项目选题、技术难点、开发方案 教师与同学反馈,学生根据反馈调整设计

6. 基于星河社区的大模型开发实践(百度飞桨,2025年4月3日)#

  • 目标:介绍基于飞桨开发智能语言产品所需的技术。

  • 内容

    • 星河社区资源介绍:如何利用社区工具进行模型开发

    • 开发环境配置:如何在云端搭建开发环境

    • 实践任务:基于平台进行简单的大模型训练与优化

7. 大模型产品开发常见工具#

  • 目标:掌握大模型开发所需的常用工具。

  • 内容

    • Streamlit:快速构建大模型的UI

    • FastAPI:学习如何使用FastAPI快速构建高性能的API接口,将训练好的大模型提供给外部服务

    • Google Colab:云端模型训练与协作

    • Hugging Face:大模型部署

    • MLflow:学习如何使用MLflow管理机器学习实验,记录训练过程、调参结果、模型版本等

    • 工具实践:学生动手使用这些工具完成实际任务

8. 提示词工程#

  • 目标:掌握提示词设计的技巧与优化策略,能够独立设计高效的提示词以提高大模型性能。

  • 内容

    • 提示词的定义与应用场景

    • 提示词写作与优化策略

    • 常见提示词开发工具

    • 实践任务:根据任务需求设计不同类型的提示词

9. 微调大模型#

  • 目标:理解微调原理及其应用,能够根据不同任务需求进行大模型的微调。

  • 内容

    • 微调原理与基本方法:自监督学习、监督学习和强化学习

    • 微调示例:多策略微调Phi4

10. RAG 与 Agent#

  • 目标:理解RAG和Agent的基本概念,并能够将其应用于实际任务中。

  • 内容

    • RAG(Retrieval-Augmented Generation)的基本概念与应用场景

    • 使用RAG结合信息检索与生成模型

    • Agent的基本概念与开发方法:自动化任务执行与调度

11. 学生最终作品展示#

  • 目标:学生展示课程成果,授课专家作为评委对学生作品进行评估。

  • 内容

    • 每个小组展示项目成果,分享技术实现、设计思路与创新点

    • 学生通过视频、交互式展示等多元化方式呈现作品

    • 现场报告:学生回答项目相关问题,展示设计的深度与实际应用价值

讲座:大模型大规模分布式训练(待定)#

  • 目标:掌握大模型训练的基本原理,了解分布式训练的实现方式。

  • 内容

    • 大模型技术和深度学习框架的关系

    • 使用深度学习框架开发大模型

    • 动手实践:大模型分布式训练

    • 大模型分布式训练策略

期末分数构成#

  1. 课程项目(50%)

  2. 期末论文(30%)

  3. 课堂参与与讨论(15%)

  4. 考勤(5%)

课程福利#

选修本门课程的同学将同步获赠价值4800元的百度大模型应用开发工程师认证考试。

baidu-cert