本文针对保研复试进行总复习，对目前的自己针对机器学习、计算机组织，包括数学建模、ACM 等等学科进行自己的理解和概括，以总述为主，内容复习为辅。
目的是为了在复试时更好的吹牛 qwq。

# 机器学习

# 内容复习

# 绪论

无论学习算法 A 多聪明，学习算法 B 多笨拙，期望性能是完全相同的。（NFL 定理）
脱离实际问题，空泛的谈论算法优劣没有意义。
机器学习为交叉学习提供技术支撑，本质上机器学习就是利用大数据
数据库为数据挖掘提供数据管理技术，机器学习和统计学提供数据分析技术。

# 模型评估与选择

过拟合无法彻底避免，我们能做的只有缓解
调参和算法选择没有什么本质区别
泛化误差可分解为偏差、方差和噪声之和。

# 线性模型

形式简单、易于建模。
线性回归：均方误差最小化
线性判别分析：将样本投到一条直线上（更低维的空间）。
多分类问题：一对一、一对多、多对多。

# 决策树

信息增益、希望决策树的样本划分尽可能属于同一类别，数据挖掘里面讲到过。还有剪枝的内容，泛化能力更强。

# 神经网络

感知机（Perception）
BP 算法（误差逆传播）（error BackPropagation)

# 支持向量机

划分的超平面对于训练样本的局部扰动的 “容忍” 性最好
软间隔、正则化（一种罚函数）

# 贝叶斯分类器

基于后验概率

# 集成学习

构建并结合多个学习器来完成学习任务，也被称为多分类器系统。
Boosting：弱学习器提升为强学习器
bagging：自助法啥的

# 聚类

无监督。。。

# 理念概括

利用数据对未来情况进行预测，模型构建的过程中算法从数据提取特征和规律，构建数学模型来表示复杂的关系，希望具有泛化的能力和持续改进的功能。
数据质量，特征提取，模型选择，过拟合欠拟合找到平衡，选用适当的评估指标，模型的可解释性，数据的划分，运行的成本

# 数据挖掘

# 内容

# 绪论

数据挖掘是在大型数据存储库中，自动的发现有用信息的过程。数据挖掘技术用来探查大型数据库，发现先前未知的有用模式。
数据预处理是将未加工的输入数据转换成适合分析的形式
任务：预测任务，描述任务，预测建模

# 数据

数据类型、数据质量、预处理步骤，数据之间的联系。

数据预处理：聚类、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量变换

# 探索数据

对于有序数据，考虑值的百分位数更有意义。第 p 个百分位数 xp 是一个 x 值，使得 x 的 p% 的观测值小于 xp
可视化：直方图、盒状图、饼图、散布图

# 分类

略

# 理念概括

没什么好概括的
实际和机器学习概括的差不多

一坨屎，妈的，我已经足够了解这个方面的知识了，明天问啥答啥，爱要不要。

结果复习一天的内容屁都没用上，面试就是即兴英语口语 + 竞赛经历讲解 + tree new bee。老师问啥我答啥，照这些老师喜欢的方向去回答，最后目测这些老师都挺满意的，应该问题不大（希望不是 flag）。这玩意还是得硬实力够啊，我看前面的都挺折磨，估计是项目经历不真实导致的吧。

就我个人观察而言，面试技巧已经没啥特别加分的作用了，大家都会，老师也都知道，反套路搞你几句你也寄。实际上，在大家都不会面试技巧时，考察的是情商；然而，在大家都会面试技巧时，考察的照样是情商。走捷径是没有用的。

学习笔记

# 机器学习

# 内容复习

# 绪论

# 模型评估与选择

# 线性模型

# 决策树

# 神经网络

# 支持向量机

# 贝叶斯分类器

# 集成学习

# 聚类

# 理念概括

# 数据挖掘

# 内容

# 绪论

# 数据

# 探索数据

# 分类

# 理念概括

现象学导论读书笔记

《蓝色恐惧》观后感