同类推荐
-
-
半小时 Arduino编程
-
¥78.00
-
-
半小时 Arduino编程
-
¥78.00
-
-
半小时 Arduino编程
-
¥78.00
-
-
C++程序设计语言(第4版)(上、下册)
-
¥249.80
-
-
C++程序设计语言(第4版)(上、下册)
-
¥249.80
-
-
C++程序设计语言(第4版)(上、下册)
-
¥249.80
-
-
Web前端开发基础(新编21世纪高等职业教育精品教材·…
-
¥52.00
-
-
Stable Diffusion与ComfyUI工作流…
-
¥79.80
-
-
GESP大通关
-
¥88.00
-
-
Python 程序设计教程(微课版)(上、下册)(阿伦)
-
¥49.80
|
|
图书信息
|
|
|
|
大模型算法:强化学习、微调与对齐:Reinforcement learning, fine-tuning, and alignment
|
| ISBN: | 9787121500725 |
定价: | ¥109.00 |
| 作者: | 余昌叶著 |
出版社: | 电子工业出版社 |
| 出版时间: | 2025年04月 |
开本: | 24cm |
| 页数: | 230页 |
中图法: | TP391 |
相关供货商
|
供货商名称
|
库存量
|
库区
|
更新日期
|
|
北京人天书店有限公司
|
37
|
库区13/库区4/样本13
|
2025-12-15
|
|
其它供货商库存合计
|
615
|
|
2025-12-12
|
图书简介 | | 本书系统地讲解了大模型技术及其后训练(Post-Training)相关的各类算法、实践。全书以大语言模型(LLM)为核心,内容广泛且深入,绝大部分同样适用于视觉语言模型(VLM)和多模态语言模型(MLLM)。本书共10章,第1章介绍SFT,第2章介绍对齐算法宏观架构,第3章介绍强化学习核心算法,第4章介绍PPO算法,第5章介绍RLHF,第6章介绍DPO算法,第7章介绍免训练的对齐和优化方法,第8章介绍对齐算法的衍生和进化,第9章和第10章是两个案例实践。 |
|