课程大纲#
课程名称:人工智能实践(语言)
授课对象:北京大学软件与微电子学院研究生一年级学生
开课时间:每周四14:00-17:00
课程老师:高志军
课程目标#
让学生了解大语言模型的基本原理、架构和应用;
掌握常见自然语言处理(NLP)技术:包括文本处理、情感分析、语义理解等;
知晓常见的语言学概念,从而开发符合语言学理论的智能语言产品;
通过工程化的方式设计、开发并展示一个完整的智能语言应用,培养学生工程化思维与项目设计能力。
课程大纲#
1. 语言智能导论#
目标:了解语言智能的基础概念、应用领域和大模型的基本原理,明确大模型在实际问题中的应用。
内容:
语言智能的定义与发展历程
语言类智能产品,如:语言学习、写作辅助、机器翻译、同声传译、舆情监控等
自然语言处理基本任务,如:分词、情感分析、命名实体识别等
大模型基础:GPT、BERT等语言大模型
2. 自然语言处理#
目标:深入理解常见自然语言处理技术和方法,掌握文本预处理和特征提取的基本技能。
内容:
文本预处理:分词、停用词、Tokenization等
词嵌入:Word2Vec、GloVe、fastText
语言模型:n-gram
语法分析:依存句法分析、句法树
语义分析:词义消歧、语义角色标注
文本分类与聚类、情感分析、信息抽取、命名实体识别等常见任务的基本原理
3. 常见自然语言任务实践#
目标:通过实际操作提升对NLP任务的理解。
内容:
实战任务1:命名实体识别(NER)
实战任务2:情感分析(基于电影评论或社交媒体数据)
实战任务3:语法分析
实战任务4:文本分类
每个任务后进行讨论和反馈,鼓励学生提出改进方案
4. 语言学与大模型#
目标:介绍语言学理论,帮助学生设计符合语言学理论的智能语言产品。
内容:
语言学基础:词汇学、句法学、语用学、文体学
语言学理论在NLP中的应用
根据语言学知识确定语言模型的具体任务指标
案例分析:语言学知识助力大模型的翻译能力的提升
5. 学生课程项目选题报告#
目标:学生分组共同设计语言类产品,锻炼项目管理和团队协作能力。
内容:
项目选题与需求分析:学生自选感兴趣的项目(如同声传译、简历自动生成、儿童绘本等)
项目设计:目标定义、路径、技术架构
小组报告:展示项目选题、技术难点、开发方案 教师与同学反馈,学生根据反馈调整设计
6. 基于星河社区的大模型开发实践(百度飞桨,2025年4月3日)#
目标:介绍基于飞桨开发智能语言产品所需的技术。
内容:
星河社区资源介绍:如何利用社区工具进行模型开发
开发环境配置:如何在云端搭建开发环境
实践任务:基于平台进行简单的大模型训练与优化
7. 大模型产品开发常见工具#
目标:掌握大模型开发所需的常用工具。
内容:
Streamlit:快速构建大模型的UI
FastAPI:学习如何使用FastAPI快速构建高性能的API接口,将训练好的大模型提供给外部服务
Google Colab:云端模型训练与协作
Hugging Face:大模型部署
MLflow:学习如何使用MLflow管理机器学习实验,记录训练过程、调参结果、模型版本等
工具实践:学生动手使用这些工具完成实际任务
8. 提示词工程#
目标:掌握提示词设计的技巧与优化策略,能够独立设计高效的提示词以提高大模型性能。
内容:
提示词的定义与应用场景
提示词写作与优化策略
常见提示词开发工具
实践任务:根据任务需求设计不同类型的提示词
9. 微调大模型#
目标:理解微调原理及其应用,能够根据不同任务需求进行大模型的微调。
内容:
微调原理与基本方法:自监督学习、监督学习和强化学习
微调示例:多策略微调Phi4
10. RAG 与 Agent#
目标:理解RAG和Agent的基本概念,并能够将其应用于实际任务中。
内容:
RAG(Retrieval-Augmented Generation)的基本概念与应用场景
使用RAG结合信息检索与生成模型
Agent的基本概念与开发方法:自动化任务执行与调度
11. 学生最终作品展示#
目标:学生展示课程成果,授课专家作为评委对学生作品进行评估。
内容:
每个小组展示项目成果,分享技术实现、设计思路与创新点
学生通过视频、交互式展示等多元化方式呈现作品
现场报告:学生回答项目相关问题,展示设计的深度与实际应用价值
讲座:大模型大规模分布式训练(待定)#
目标:掌握大模型训练的基本原理,了解分布式训练的实现方式。
内容:
大模型技术和深度学习框架的关系
使用深度学习框架开发大模型
动手实践:大模型分布式训练
大模型分布式训练策略
期末分数构成#
课程项目(50%)
期末论文(30%)
课堂参与与讨论(15%)
考勤(5%)
课程福利#
选修本门课程的同学将同步获赠价值4800元的百度大模型应用开发工程师认证考试。