同类推荐
-
-
自主无人系统及应用中的问题
-
¥180.00
-
-
循环:AI如何影响人类,人类如何应对AI:how te…
-
¥79.00
-
-
分布式人工智能:原理与应用
-
¥118.00
-
-
人工智能与机器人专业实战训练
-
¥58.00
-
-
计算机人工智能技术发展和应用
-
¥80.00
-
-
向AI提问的艺术:提示工程入门与应用
-
¥69.00
-
-
人工智能:是什么?为什么?怎么做?
-
¥99.80
-
-
人工智能原理及MATLAB实现
-
¥79.80
-
-
透过AI认知世界:an artificial inte…
-
¥99.00
-
-
轻松玩转3D One AI
-
¥79.90
|
|
图书信息
|
|
|
机器学习算法竞赛实战
|
ISBN: | 9787115569592 |
定价: | ¥99.80 |
作者: | 王贺,刘鹏,钱乾著 |
出版社: | 人民邮电出版社 |
出版时间: | 2021年09月 |
开本: | 24cm |
页数: | 12,322页 |
装祯: | 平装 |
中图法: | TP181 |
相关供货商
供货商名称
|
库存量
|
库区
|
更新日期
|
|
|
|
|
其它供货商库存合计
|
352
|
|
2024-04-19
|
图书简介 | 本书分为五部分: 第一部分以算法竞赛的通用化流程为主, 介绍竞赛中各个部分的核心内容和具体工作 ; 第二部分介绍了用户画像相关的问题, 讲解了竞赛案例Elo Merchant CategoryRecommendation ; 第三部分以时间序列预测问题为主, 先讲述这类问题的常见解题思路和技巧, 然后分析天池平台的全球城市计算 AI挑战赛和Kaggle平台的Corporacion Favorita Grocery Sales Forecasting: 第四部分主要介绍计算广告的核心技术和业务, 包括广告召回、广告排序和广告竞价, 其中两个实战案例是2018腾讯广告算法大赛 —— 相似人群拓展和Kaggle平台的TalkingData AdTracking Fraud Detection Challenge: 第五部分基于自然语言处理相关的内容进行讲解, 其中实战案例是Kaggle平台上的经典竞赛Quora Question Pairso。 |
目录 | 目 录r 第 1 章 初见竞赛 1r 1.1 竞台 2r 1.1.1 Kaggle 2r 1.1.2 天池 6r 1.1.3 DF 7r 1.1.4 DC 7r 1.1.5 Kesci 7r 1.1.6 ATA 8r 1.1.7 企业网站 8r 1.2 竞赛流程 8r 1.2.1 问题建模 8r 1.2.2 数据探索 9r 1.2.3 特征工程 9r 1.2.4 模型训练 9r 1.2.5 模型融合 10r 1.3 竞赛类型 10r 1.3.1 数据类型 10r 1.3.2 任务类型 11r 1.3.3 应用场景 11r 1.4 思考练11r 第 2 章 问题建模 12r 2.1 赛题理解 12r 2.1.1 业务背景 12r 2.1.2 数据理解 14r 2.1.3 评价指标 14r 2.2 样本选择 20r 2.2.1 主要原因 20r 2.2.2 方法 22r 2.2.3 应用场景 23r 2.3 线下评估策略 24r 2.3.1 强时序问题 24r 2.3.2 弱时序问题 24r 2.4 实战案例 25r 2.4.1 赛题理解 26r 2.4.2 线下验证 27r 2.5 思考练28r 第3 章 数据探索 29r 3.1 数据初探 29r 3.1.1 分析思路 29r 3.1.2 分析方法 30r 3.1.3 明确目的 30r 3.2 变量分析 32r 3.2.1 单变量分析 33r 3.2.2 多变量分析 37r 3.3 模型分析 39r 3.3.1 学 39r 3.3.2 特征重要分析 40r 3.3.3 误差分析 41r 3.4 思考练42r 第4 章 特征工程 43r 4.1 数据预处理 43r 4.1.1 缺失值处理 44r 4.1.2 异常值处理 45r 4.1.3 优化内存 46r 4.2 特征变换 47r 4.2.1 连续变量无量纲化 47r 4.2.2 连续变量数据变换 48r 4.2.3 类别特征转换 50r 4.2.4 不规则特征变换 50r 4.3 特征提取 51r 4.3.1 类别相关的统计特征 51r 4.3.2 数值相关的统计特征 53r 4.3.3 时间特征 53r 4.3.4 多值特征 54r 4.3.5 小结 55r 4.4 特征选择 55r 4.4.1 特征关联分析 55r 4.4.2 特征重要分析 57r 4.4.3 封装方法 57r 4.4.4 小结 58r 4.5 实战案例 59r 4.5.1 数据预处理 59r 4.5.2 特征提取 60r 4.5.3 特征选择 61r 4.6 练62r 第5 章 模型选择 63r 5.1 线模型 63r 5.1.1 Lasso 回归 63r 5.1.2 Ridge 回归 64r 5.2 树模型 64r 5.2.1 森林 65r 5.2.2 梯度提升树 66r 5.2.3 XGBoost 67r 5.2.4 LightGBM 68r 5.2.5 CatBoost 69r 5.2.6 模型深入对比 70r 5.3 神经网络 73r 5.3.1 多层感知机 74r 5.3.2 卷积神经网络 75r 5.3.3 循环神经网络 77r 5.4 实战案例 79r 5.5 练80r 第6 章 模型融合 81r 6.1 构建多样 81r 6.1.1 特征多样 81r 6.1.2 样本多样 82r 6.1.3 模型多样 82r 6.2 训练过程融合 83r 6.2.1 Bagging 83r 6.2.2 Boosting 83r 6.3 训练结果融合 84r 6.3.1 加权法 84r 6.3.2 Sta 融合 86r 6.3.3 Blending 融合 87r 6.4 实战案例 88r 6.5 练90r 第7 章 用户画像 91r 7.1 什么是用户画像 92r 7.2 标签系统 92r 7.2.1 标签分类方式 92r 7.2.2 多渠道获取标签 93r 7.2.3 标签体系框架 94r 7.3 用户画像数据特征 95r 7.3.1 常见的数据形式 95r 7.3.2 文本挖掘算法 97r 7.3.3 神奇的嵌入表示 98r 7.3.4 相似度计算方法 101r 7.4 用户画像的应用 103r 7.4.1 用户分析 103r 7.4.2 营销 104r 7.4.3 风控领域 105r 7.5 思考练106r 第8 章 实战案例:Elo Merchant Category Recommendation(Kaggle) 107r 8.1 赛题理解 107r 8.1.1 赛题背景 107r 8.1.2 赛题数据 108r 8.1.3 赛题任务 108r 8.1.4 评价指标 109r 8.1.5 赛题FAQ 109r 8.2 探索分析 109r 8.2.1 字段类别含义 110r 8.2.2 字段取值状况 111r 8.2.3 数据分布差异 112r 8.2.4 表格关联关系 115r 8.2.5 数据预处理 115r 8.3 特征工程 116r 8.3.1 通用特征 116r 8.3.2 业务特征 117r 8.3.3 文本特征 118r 8.3.4 特征选择 119r 8.4 模型训练 119r 8.4.1 森林 119r 8.4.2 LightGBM 121r 8.4.3 XGBoost 124r 8.5 模型融合 127r 8.5.1 加权融合 127r 8.5.2 Sta 融合 127r 8.6 提分 128r 8.6.1 特征优化 128r 8.6.2 融合技巧 130r 8.7 赛结 134r 8.7.1 更多方案 134r 8.7.2 知识点梳理 135r 8.7.3 延伸学135r 第9 章 时间序列分析 138r 9.1 介绍时间序列分析 138r 9.1.1 简单定义 138r 9.1.2 常见问题 139r 9.1.3 交叉验证 140r 9.1.4 基本规则方法 141r 9.2 时间序列模式 142r 9.2.1 趋势 142r 9.2.2 周期 143r 9.2.3 相关 144r 9.2.4 144r 9.3 特征提取方式 144r 9.3.1 历移 145r 9.3.2 窗口统计 145r 9.3.3 序列熵特征 145r 9.3.4 其他特征 146r 9.4 模型的多样 146r 9.4.1 传统的时序模型 147r 9.4.2 树模型 147r 9.4.3 深度学 148r 9.5 练150r 第 10 章 实战案例:全球城市计算AI挑战赛 151r 10.1 赛题理解 151r 10.1.1 背景介绍 152r 10.1.2 赛题数据 152r 10.1.3 评价指标 153r 10.1.4 赛题FAQ 153r 10.1.5 baseline 方案 153r 10.2 探索数据分析 157r 10.2.1 数据初探 157r 10.2.2 模式分析 159r 10.3 特征工程 162r 10.3.1 数据预处理 162r 10.3.2 强相关特征 163r 10.3.3 趋势特征 165r 10.3.4 站点相关特征 165r 10.3.5 特征强化 166r 10.4 模型选择 166r 10.4.1 LightGBM 模型 167r 10.4.2 时序模型 168r 10.5 强化学170r 10.5.1 时序sta 170r 10.5.2 Top 方案解析 171r 10.5.3 相 172r 第 11 章 实战案例-Corporación Favorita Grocery Sales Forecasting 174r 11.1 赛题理解 174r 11.1.1 背景介绍 174r 11.1.2 赛题数据 175r 11.1.3 评价指标 175r 11.1.4 赛题FAQ 176r 11.1.5 baseline 方案 176r 11.2 探索数据分析 181r 11.2.1 数据初探 181r 11.2.2 单变量分析 184r 11.2.3 多变量分析 188r 11.3 特征工程 190r 11.3.1 历移特征 191r 11.3.2 窗口统计特征 192r 11.3.3 构造粒度多样 193r 11.3.4 特征选择 194r 11.4 模型选择 195r 11.4.1 LightGBM 模型 196r 11.4.2 LSTM 模型 196r 11.4.3 Wave 模型 198r 11.4.4 模型融合 199r 11.5 赛结 200r 11.5.1 更多方案 200r 11.5.2 知识点梳理 201r 11.5.2 延伸学202r 第 12 章 计算广告 204r 12.1 什么是计算广告 204r 12.1.1 主要问题 205r 12.1.2 计算广告系统架构 205r 12.2 广告类型 207r 12.2.1 合约广告 207r 12.2.2 竞价广告 207r 12.2.3 程序化交易广告 208r 12.3 广告召回 208r 12.3.1 广告召回模块 208r 12.3.2 DSSM 语义召回 210r 12.4 广告排序 211r 12.4.1 点击率预估 211r 12.4.2 特征处理 212r 12.4.3 常见模型 214r 12.5 广告竞价 219r 12.6 小结 221r 12.7 思考练221r 第 13 章 实战案例:2018 腾讯广告算法大赛——相似人群拓展 222r 13.1 赛题理解 222r 13.1.1 赛题背景 223r 13.1.2 赛题数据 224r 13.1.3 赛题任务 226r 13.1.4 评价指标 226r 13.1.5 赛题FAQ 227r 13.2 探索数据分析 227r 13.2.1 竞赛的公开数据集 227r 13.2.2 训练集与测试集 227r 13.2.3 广告属 229r 13.2.4 用户信息 229r 13.2.5 数据集特征拼接 230r 13.2.6 基本建模思路 232r 13.3 特征工程 232r 13.3.1 经典特征 232r 13.3.2 业务特征 234r 13.3.3 文本特征 235r 13.3.4 特征降维 237r 13.3.5 特征存储 238r 13.4 模型训练 238r 13.4.1 LightGBM 238r 13.4.2 CatBoost 238r 13.4.3 XGBoost 239r 13.5 模型融合 239r 13.5.1 加权融合 239r 13.5.2 Sta 融合 239r 13.6 赛结 240r 13.6.1 更多方案 240r 13.6.2 知识点梳理 241r 13.6.3 延伸学241r 第 14 章 实战案例-TaData AdTra Fraud DetectionChallenge 243r 14.1 赛题理解 243r 14.1.1 背景介绍 243r 14.1.2 赛题数据 244r 14.1.3 评价指标 244r 14.1.4 赛题FAQ 244r 14.1.5 baseline 方案 245r 14.2 探索数据分析 247r 14.2.1 数据初探 247r 14.2.2 单变量分析 249r 14.2.3 多变量分析 254r 14.2.4 数据分布 255r 14.3 特征工程 256r 14.3.1 统计特征 256r 14.3.2 时间差特征 257r 14.3.3 排序特征 258r 14.3.4 目标编码特征 258r 14.4 模型选择 259r 14.4.1 LR 模型 259r 14.4.2 CatBoost 模型 259r 14.4.3 LightGBM 模型 260r 14.4.4 DeepFM 模型 261r 14.5 赛结 264r 14.5.1 更多方案 264r 14.5.2 知识点梳理 265r 14.5.3 延伸学266r 第 15 章 自然语言处理 268r 15.1 自然语言处理的发展历程 268r 15.2 自然语言处理的常见场景 269r 15.2.1 分类、回归任务 269r 15.2.2 信息检索、文本匹配等任务 269r 15.2.3 序列对序列、序列标注 269r 15.2.4 机器阅读 270r 15.3 自然语言处理的常见技术 270r 15.3.1 基于词袋模型、TF-IDF.的特征提取 270r 15.3.2 N-Gram 模型 271r 15.3.3 词嵌入模型 271r 15.3.5 上下文相关预训练模型 272r 15.3.6 常用的深度学结构 274r 15.4 练276r 第 16 章 实战案例:Quora QuestionPairs 277r 16.1 赛题理解 277r 16.1.1 赛题背景 277r 16.1.2 赛题数据 278r 16.1.3 赛题任务 278r 16.1.4 评价指标 278r 16.1.5 赛题FAQ 278r 16.2 探索数据分析 279r 16.2.1 字段类别含义 279r 16.2.2 数据集基本量 279r 16.2.3 文本的分布 280r 16.2.4 词的数量与词云分析 282r 16.2.5 基于传统手段的文本数据预处理 284r 16.2.6 基于深度学的文本数据预处理 284r 16.3 特征工程 285r 16.3.1 通用文本特征 285r 16.3.2 相似度特征 287r 16.3.3 词向量一步应用——词匹配 290r 16.3.4 词向量一步应用——词与词的两两匹配 290r 16.3.5 其他相似度计算方式 291r 16.4 机器学和模型的训练 291r 16.4.1 TextN 模型 291r 16.4.2 TextLSTM 模型 292r 16.4.3 TextLSTM with Attention 模型 293r 16.4.4 Self-Attention 层 295r 16.4.5 Transformer 和BERT 类模型 296r 16.4.6 基于 representation 和基于 interaction 的深度学的差异 298r 16.4.7 一种特殊的基于 interaction 的深度学 303r 16.4.8 深度学数据的翻译增强 303r 16.4.9 深度学数据的预处理 304r 16.4.10 BERT 模型的训练 306r 16.5 模型融合 310r 16.6 赛结 310r 16.6.1 更多方案 310r 16.6.2 知识点梳理 310r 16.6.3 延伸学311 |
|