type
status
date
slug
summary
tags
category
icon
password
comment
💡
2025.11.2
由于在大学期间压根没想过做AI相关的内容,结果就是一毛都没学,东一块西一块地学,一点都不系统,所以今天开个教程,系统学习一下,我将会从最基础开始进行记录。经历了保研期间被老师拷打的知识以及面试多家大厂和中厂算法岗,大概知道要学什么东西,如果缺少什么内容欢迎补充
 

AI Agent 算法工程师学习路线图(研究型)

目标岗位:AI Agent 算法工程师(研究/创新型)
学习时长:9 周(全职投入)
最终产出:1-2 个算法创新型项目 + 1 篇高质量论文/高星开源项目

一、你能获得什么

系统学习:从经典论文到前沿算法,构建坚实的理论体系
每周代码实战:手撕核心算法,将理论转化为代码
2个创新项目:完成从问题定义、算法设计到实验分析、论文撰写的完整科研流程
独享学习路径:专为算法研究岗定制,区别于应用开发岗
顶级面试能力:掌握算法岗面试核心,从容应对深度追问
科研产出能力:完成具备顶会投稿/高星开源水平的创新项目

二、算法岗核心要求

你需要具备的能力

理论深度 - 能徒手推导核心算法 - 精通背后数学原理 - 掌握领域前沿论文 - 能设计创新性算法
实验能力 - 设计严谨的对比实验 - 设计全面的消融实验 - 选择有说服力的 Baseline - 科学分析与验证指标提升
产出能力 - 撰写高质量学术论文 - 开源高影响力代码 - 撰写专业技术报告 - 为顶级算法库贡献代码

算法岗简历必备

至少1篇高质量论文:顶会/顶刊在投或已发表
至少1个高星开源项目:300+ Stars 且有持续维护
2-3个算法深度优化项目:有严谨的实验数据支撑
扎实的理论基础:能从第一性原理层面回答深度问题

三、推荐学习资源与工具

📚 核心课程与书籍

📝 必读论文

🛠️ 研究工具与框架

🌐 学习社区与资源

🎨 可视化学习资源(强烈推荐!)

  • 100+ LLM/RL 算法原理图 ⭐ 算法岗必看!
    • 作者:《大模型算法:强化学习、微调与对齐》作者余昌叶
    • 内容:100+张原创算法原理图,涵盖Transformer、注意力机制、SFT、LoRA/QLoRA、DPO/PPO/GRPO、RLHF、推理优化等
    • 价值:通过可视化图解深入理解算法的数学推导和实现细节,让复杂算法一目了然
    • 书籍:《大模型算法:强化学习、微调与对齐》

四、详细学习计划

第 1 周:大模型必备基础 + 手撕Transformer

基础速通:
  • Python 核心语法、NumPy/Pandas 基础
  • 神经网络核心概念:前向传播、反向传播、损失函数
  • PyTorch 框架速通:Tensor 操作、自动求导、模型搭建
Transformer架构:
  • Transformer 架构详解:Encoder、Decoder 结构、Self-Attention 机制、Multi-Head Attention
  • 核心组件剖析:Attention、Positional Encoding、Layer Normalization、残差连接、FFN
  • MOE架构初探:专家网络、门控网络、Top-K激活
手撕系列:
  • PyTorch 手撕神经网络训练
  • EXCEL实现Transformer矩阵计算
  • 手撕 Multi-Head Attention
  • 手撕 Transformer 关键模块
解锁技能:
  • 熟练运用 Python 和 PyTorch 进行开发
  • 精通 Transformer 模型的核心架构与组件
  • 具备手撕关键模块的能力
  • 完全理解Bert、T5、GPT架构的工作原理
🌟 每日学习计划
天数
学习主题
资源链接
目标
1
Python & PyTorch 基础
掌握 Python 基础语法、PyTorch 张量操作与训练循环
2
手撕神经网络训练
从零实现一个简单的前馈神经网络,理解反向传播
3
Transformer 宏观理解
掌握 Encoder/Decoder 结构、Multi-Head Attention
4
Transformer 矩阵计算
逐个公式推导 Q/K/V 计算流程
5
手撕 Multi-Head Attention
纯 PyTorch 实现 Multi-Head Attention 和 FFN
6
手撕 Transformer 关键模块
组合已实现模块,完成一个完整的 Transformer Block
7
MOE 架构与模型家族
理解 MOE 架构,并梳理 Bert、T5、GPT 架构的差异

第 2 周:Agent 核心理论 + ReAct 框架

Agent 核心概念:
  • 什么是 AI Agent?
  • Agent 的核心组件:Planning、Memory、Tool Use
  • Agent vs. LLM vs. RAG 的本质区别
ReAct 框架:
  • ReAct 核心思想:Reasoning + Acting 交替进行
必读论文:
  • ReAct (必读!): Agent 的 “Hello World” 论文: arXiv.orgarXiv.orgReAct: Synergizing Reasoning and Acting in Language Models
手撕与学习任务:
  • 阅读 ReAct 论文,手绘算法流程图
  • 基于 LangChain 或 LlamaIndex 复现一个基础的 ReAct Agent
面试准备:
  • Q: 请解释 ReAct 框架的工作原理。
  • Q: ReAct 和传统的 Chain-of-Thought 有什么区别?
解锁技能:
  • 深刻理解 Agent 的基本工作范式
  • 掌握 ReAct 框架的算法原理
🌟 每日学习计划
天数
学习主题
资源链接
目标
8
Agent 核心概念
建立 Agent 的宏观认知,理解其与 LLM 的区别
9-10
ReAct 论文精读与复现
论文: ReAct 代码: LangChain ReAct Agent 解读: ReAct解读
深度理解 “Thought, Action, Observation” 循环,并用框架实现
11-12
ReAct 算法复现与思考
总结 ReAct 的优缺点,思考其在复杂任务中的局限性
13-14
预留时间 & 周度复盘
巩固本周知识,完成所有编码任务

第 3 周:高级 Agent 架构:规划、反思与搜索

高级 Agent 架构:
  • Reflexion:自我反思机制
  • Tree of Thoughts:树状思维搜索
  • Self-Consistency:一致性采样
Multi-Agent 协作:
  • Multi-Agent 通信协议与协作策略(辩论、投票、层级)
  • 任务分解与分配算法
必读论文:
  • Reflexion: 核心思想是通过自我反思改进决策。论文: arXiv.orgarXiv.orgReflexion: Language Agents with Verbal Reinforcement Learning
  • Tree of Thoughts: 核心思想是搜索算法 + LLM。论文: arXiv.orgarXiv.orgTree of Thoughts: Deliberate Problem Solving with Large Language Models
  • AutoGen Framework: 对话驱动的多智能体系统。论文: arXiv.orgarXiv.orgAutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
学习任务:
  • 对比 ReAct、Reflexion、ToT 的算法差异,分析各自优缺点
  • 用 Python 实现一个 ToT 节点,并结合 LLM API 设计一个简单的评估函数来解决 24点游戏 问题
  • 使用 AutoGen 框架实现一个简单的 “coder” 与 “critic” 协作的 Multi-Agent 系统
面试准备:
  • Q: Reflexion 的自我反思机制如何实现?它和 RL 中的 “Credit Assignment” 有什么关系?
  • Q: Tree of Thoughts 和传统 MCTS (蒙特卡洛树搜索) 的区别是什么?
  • Q: 在 Multi-Agent 系统中,如何解决 “责任分散” 和 “目标冲突” 的问题?
解锁技能:
  • 掌握 Reflexion, ToT 等高级 Agent 架构的算法思想
  • 能够分析不同 Agent 架构的优缺点和适用场景
  • 理解多智能体系统的设计理念和协作模式
  • 具备初步设计复杂 Agent 系统的能力
🌟 每日学习计划
天数
学习主题
资源链接
目标
15
Reflexion 论文精读
掌握其”Actor -> Evaluator -> Self-Reflection”的算法流程
16
Reflexion 算法分析
分析反思机制如何帮助 Agent 从失败中学习,并尝试用伪代码实现
17
Tree of Thoughts 论文精读
理解如何将 LLM 作为搜索算法的启发式函数
18
ToT 算法实战
实现一个简化的 ToT 搜索策略来解决 24点游戏
19
Multi-Agent 协作模式
论文: MetaGPT 论文: Communicative Agents 论文: AutoGen
学习 MetaGPT 中角色定义 (SOPs) 和协作模式
20
AutoGen 框架实战
使用 AutoGen 搭建一个简单的 Coder 和 Critic Agent
21
周度总结与对比分析
绘制 ReAct, Reflexion, ToT 的算法流程对比图,总结优劣

第 4 周:RAG 核心算法:从密集检索到图检索

检索算法原理:
  • Naive RAG 的算法流程
  • 检索算法:BM25、Dense Retrieval、Hybrid Search
  • Reranker 算法原理
Advanced RAG 算法:
  • GraphRAG 算法创新
  • Agentic RAG 与多跳推理
必读论文:
  • Dense Passage Retrieval (DPR): 现代 RAG 的基础,对比密集检索与稀疏检索。论文: arXiv.orgarXiv.orgDense Passage Retrieval for Open-Domain Question Answering
  • GraphRAG: 基于知识图谱的检索,关注其子图采样、路径排序等创新。报告: Microsoft ResearchMicrosoft ResearchProject GraphRAG - Microsoft Research
  • Self-RAG: 让 Agent 自主规划检索策略。论文: arXiv.orgarXiv.orgSelf-RAG: Learning to Retrieve, Generate, and Critique through...
手撕与学习任务:
  • Python 手撕 BM25 算法
  • 使用 FAISS 构建一个向量索引并进行相似度搜索
  • 使用 RAGAs 或 trulens-eval 对一个基础 RAG 系统进行评估
  • 设计一个简单的 Agentic RAG 查询规划模块伪代码
面试准备:
  • Q: GraphRAG 相比传统 RAG 的算法改进是什么?它适用于什么场景?
  • Q: 如何设计一个 Agentic RAG 的规划策略?如何评估规划的好坏?
  • Q: 密集检索和稀疏检索的优缺点分别是什么?为什么 Hybrid Search 通常效果更好?
解锁技能:
  • 深入理解现代 RAG 系统的检索算法基石
  • 掌握 GraphRAG、Agentic RAG 等前沿 RAG 算法的创新点
  • 具备手撕核心检索算法和评估 RAG 系统的能力
  • 能够设计和评估 RAG 系统的检索模块
🌟 每日学习计划
天数
学习主题
资源链接
目标
22
检索算法基础 (BM25)
教程: BM25 from scratch 论文: TF-IDF
理解 TF-IDF 和 BM25 的原理,并手动实现
23
DPR 与密集检索
论文: DPR 教程: Sentence Transformers 论文: ColBERT
掌握双编码器架构,并使用 Sentence Transformers 训练一个模型
24
Reranker 与混合检索
理解 Reranker 的作用,并实现一个 BM25 + Embedding 的混合检索流程
25
GraphRAG 技术解读
理解其基于图的社群检测、摘要和问答流程
26
RAG 评估体系
学习 Faithfulness, Answer Relevancy 等 RAG 评估指标,并用 RAGAs 进行评估
27
Self-RAG 论文精读
论文: Self-RAG 相关: CRAG, Adaptive-RAG
学习如何通过 “reflection tokens” 让 LLM 自主决定何时检索、检索什么内容
28
Agentic RAG 算法设计
思考如何设计一个能进行多步推理的 Agentic RAG 策略,并绘制流程图

第 5 周:Agent Memory 与上下文工程算法

Memory 算法设计:
  • 短期记忆 vs 长期记忆
  • 记忆重要性评分算法 (语义相似度 + 任务相关性 + 时效性)
  • 记忆压缩与总结策略 (聚类 + 摘要 + 去重)
  • 记忆检索优化 (向量检索 + 时间衰减 + 重要性加权)
上下文工程算法:
  • 上下文选择策略 (语义相关性、逻辑依赖、时效性)
  • 上下文压缩算法 (层级笔记、QA对转换、总结算法)
  • 动态上下文构建
必读论文:
  • Generative Agents: 经典的 Agent Memory 模拟社会行为研究。论文: arXiv.orgarXiv.orgGenerative Agents: Interactive Simulacra of Human Behavior
  • MemGPT: 通过分层记忆和函数调用管理虚拟上下文。论文: arXiv.orgarXiv.orgMemGPT: Towards LLMs as Operating Systems
学习任务:
  • 基于 MemGPT 开源库,修改其配置以处理一个长文档问答任务
  • 实现一个自定义的 NodePostprocessor (LlamaIndex) 来根据关键词或时间戳过滤上下文
  • 设计一个分层记忆架构伪代码,包含评分、压缩、检索的完整 Agent Memory 算法方案
面试准备:
  • Q: 如何设计 Agent 的长期记忆机制?请阐述其写入、更新、读取的全流程。
  • Q: 记忆压缩和检索的trade-off如何平衡?如何通过实验评估你的压缩算法没有损失关键信息?
  • Q: MemGPT 和传统的 RAG 在处理长上下文时有何本质区别?
解锁技能:
  • 掌握 Agent 记忆系统的核心算法设计
  • 能够设计高效的上下文选择与压缩策略
  • 理解如何平衡信息保真度与上下文长度的限制
  • 具备从算法层面优化 Agent 长对话能力的视野
🌟 每日学习计划
天数
学习主题
资源链接
目标
29
Agent Memory 概述
梳理 Agent 记忆的分类和挑战
30
Generative Agents 论文精读
学习其对记忆进行评分 (Recency, Importance, Relevance) 和检索的机制
31
MemGPT 论文精读
论文: MemGPT 代码: MemGPT 开源库 相关: Anthropic Context
学习其分层记忆和函数调用管理虚拟上下文的方法
32
MemGPT 实战
教程: MemGPT Tutorial 扩展: LangMem
运行 MemGPT 官方示例,理解其工作流程
33
上下文压缩技术
学习并实现不同的上下文填充和压缩策略
34
上下文选择与过滤
实现一个自定义的后处理器来优化上下文选择
35
周度总结与方案设计
设计一个包含评分、压缩、检索的完整 Agent Memory 算法方案,并绘制架构图

第 6 周:基于强化学习的 Agent 决策优化

RL 基础理论:
  • RL 基础:MDP、Q-learning、Policy Gradient
  • Agent + RL 的结合点
  • 奖励函数设计 (稀疏奖励 vs 密集奖励, Reward Model)
  • 策略优化算法 (PPO vs DPO vs GRPO)
必读论文:
  • DPO: 无需显式奖励模型的偏好对齐方法。论文: arXiv.orgarXiv.orgDirect Preference Optimization: Your Language Model is Secretly a...
  • GRPO: 最新的 RLHF 算法,核心思想是 Group Relative Policy Optimization,算法创新点在于相对偏好建模。论文: arxiv.org
手撕与学习任务:
  • 推导 DPO 的损失函数
  • 使用 TRL 库中的 DPOTrainer 对一个 SFT 模型进行 DPO 微调
  • 设计一个 Agent 工具调用任务的奖励函数
面试准备:
  • Q: 如何用强化学习优化 Agent 的决策?请举例说明 State, Action, Reward 如何定义?
  • Q: DPO 和 PPO 在 Agent 场景下的选择和优劣势是什么?为什么 DPO 更稳定?
  • Q: 在一个稀疏奖励的 Agent 任务中(例如,只有任务最终成功才有奖励),如何设计 Reward Shaping 或辅助任务来帮助模型学习?
解锁技能:
  • 掌握将 Agent 决策过程建模为 RL 问题的能力
  • 深刻理解 PPO/DPO/GRPO 等主流对齐算法的原理
  • 能够为 Agent 任务设计合理的奖励函数
  • 具备使用强化学习优化 Agent 策略的理论基础
🌟 每日学习计划
天数
学习主题
资源链接
目标
36
RL 基础入门
掌握 MDP, Policy, Value Function 等核心概念
37
Policy Gradient & PPO
博客: Understanding PPO 论文: PPO 教程: RL课程 图解: PPO算法图解
理解 PPO 的目标函数和裁剪机制
38
DPO 论文精读与推导
论文: DPO 博客: DPO 详解 教程: Preference Optimization
掌握 DPO 如何从偏好数据中隐式学习奖励并优化策略,并推导其损失函数
39
DPO 实战
使用 TRL 库完成一次 DPO 训练
40
GRPO 理论解读
论文: GRPO 相关: DeepSeek-R1 综合: Open o1推理
理解 GRPO 如何将 DPO 扩展到组级别的偏好
41
RL for Tool Learning
论文: Toolformer 论文: ReAct RL 资源: Agent+RL项目汇总
学习如何用 RL 思想让模型学会使用工具
42
奖励模型设计
教程: TRL Reward Modeling 框架: RM-Gallery 书籍: RLHF Book
学习如何为 Agent 任务设计奖励函数/训练奖励模型

📚 核心学习资源推荐

精选业界最优质的学习资源,助你快速提升算法能力

🤖 智能体开发

  • 推荐指数: ★★★★★
  • 📖 内容: Agent 开发完整教程,从基础到进阶
  • 🎯 适合: 入门 Agent 算法开发,了解核心原理
  • 💡 亮点: 中文友好、实战导向、Datawhale 出品

📊 RAG 算法优化

  • 推荐指数: ★★★★★
  • 📖 内容: RAG 全流程算法优化,涵盖检索、重排、GraphRAG
  • 🎯 适合: RAG 算法研究、检索优化、算法创新
  • 💡 亮点: 系统化 RAG 教程、算法改进方向、实战案例

🔧 模型微调

  • 推荐指数: ★★★★★
  • 📖 内容: 2-5倍微调加速,显存优化,支持 LoRA/QLoRA
  • 🎯 适合: 高效微调、资源受限场景、快速实验
  • 💡 亮点: 速度快、显存省、易上手
  • 推荐指数: ★★★★★
  • 📖 内容: 支持100+ LLM微调,Web UI + CLI,SFT/DPO/PPO
  • 🎯 适合: 算法实验、Function Call微调、模型对齐
  • 💡 亮点: 功能全面、社区活跃、文档完善

🗃️ 数据处理

  • 推荐指数: ★★★★☆
  • 📖 内容: 数据清洗、格式转换、质量评估
  • 🎯 适合: 微调数据准备、数据质量提升
  • 💡 亮点: 自动化数据处理、提升数据质量

🧠 从零构建大模型(理论深度)

  • 推荐指数: ★★★★★(算法岗必看)
  • 📖 内容: 从零实现 GPT,代码简洁、注释详细
  • 🎯 适合: 深入理解 Transformer、预训练原理
  • 💡 亮点: Karpathy 亲自编写、500行核心代码、理解模型本质
  • 推荐指数: ★★★★★(算法岗必看)
  • 📖 内容: 从零构建对话模型,涵盖训练、推理、部署
  • 🎯 适合: 理解对话系统、端到端模型构建
  • 💡 亮点: 完整的训练流程、实战导向、算法细节

🎯 完整学习路径

  • 推荐指数: ★★★★★
  • 📖 内容: Agent 开发、RAG 系统、上下文工程、面试指南
  • 🎯 适合: 系统化学习、求职准备、技术路线规划
  • 💡 亮点: 算法岗/开发岗双路线、面试题库、简历模板

妙笔生花:AI赋能汉字意象化教学KFC全家桶
Loading...
Samuel Hu
Samuel Hu
沪上985软工在读 喜欢写代码 爱折腾的混子
小红书
统计
文章数:
24
公告

你好呀!👋

🎓 同济大四 + 浙大研0
🔍 我的研究聚焦在 AISE(AI for Software Engineering) 领域✨
🤖 具体方向有两个特别让我着迷的:
  • Code Reasoning 🧠💻
  • Code Generation ✨📝
💡 我相信AI与软件工程的结合会改变未来的开发方式,很开心能在这个交叉领域学习成长~
👥 欢迎大家多多交流!💬
 
2025-2026Samuel Hu.

Samuel Hu’s Blog | 沪上985软工在读 喜欢写代码 爱折腾的混子

Powered bySamuel Hu 4.9.2.