本文针对保研复试进行总复习,对目前的自己针对机器学习、计算机组织,包括数学建模、ACM 等等学科进行自己的理解和概括,以总述为主,内容复习为辅。
目的是为了在复试时更好的吹牛 qwq。

# 机器学习

# 内容复习

# 绪论

无论学习算法 A 多聪明,学习算法 B 多笨拙,期望性能是完全相同的。(NFL 定理)
脱离实际问题,空泛的谈论算法优劣没有意义。
机器学习为交叉学习提供技术支撑,本质上机器学习就是利用大数据
数据库为数据挖掘提供数据管理技术,机器学习和统计学提供数据分析技术。

# 模型评估与选择

过拟合无法彻底避免,我们能做的只有缓解
调参和算法选择没有什么本质区别
泛化误差可分解为偏差、方差和噪声之和。

# 线性模型

形式简单、易于建模。
线性回归:均方误差最小化
线性判别分析:将样本投到一条直线上(更低维的空间)。
多分类问题:一对一、一对多、多对多。

# 决策树

信息增益、希望决策树的样本划分尽可能属于同一类别,数据挖掘里面讲到过。还有剪枝的内容,泛化能力更强。

# 神经网络

感知机(Perception)
BP 算法(误差逆传播)(error BackPropagation)

# 支持向量机

划分的超平面对于训练样本的局部扰动的 “容忍” 性最好
软间隔、正则化(一种罚函数)

# 贝叶斯分类器

基于后验概率

# 集成学习

构建并结合多个学习器来完成学习任务,也被称为多分类器系统。
Boosting:弱学习器提升为强学习器
bagging:自助法啥的

# 聚类

无监督。。。

# 理念概括

利用数据对未来情况进行预测,模型构建的过程中算法从数据提取特征和规律,构建数学模型来表示复杂的关系,希望具有泛化的能力和持续改进的功能。
数据质量,特征提取,模型选择,过拟合欠拟合找到平衡,选用适当的评估指标,模型的可解释性,数据的划分,运行的成本

# 数据挖掘

# 内容

# 绪论

数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。
数据预处理是将未加工的输入数据转换成适合分析的形式
任务:预测任务,描述任务,预测建模

# 数据

数据类型、数据质量、预处理步骤,数据之间的联系。

数据预处理:聚类、抽样、维归约、特征子集选择、特征创建、离散化和二元化、变量变换

# 探索数据

对于有序数据,考虑值的百分位数更有意义。第 p 个百分位数 xp 是一个 x 值,使得 xp% 的观测值小于 xp
可视化:直方图、盒状图、饼图、散布图

# 分类

# 理念概括

没什么好概括的
实际和机器学习概括的差不多


一坨屎,妈的,我已经足够了解这个方面的知识了,明天问啥答啥,爱要不要。


结果复习一天的内容屁都没用上,面试就是即兴英语口语 + 竞赛经历讲解 + tree new bee。老师问啥我答啥,照这些老师喜欢的方向去回答,最后目测这些老师都挺满意的,应该问题不大(希望不是 flag)。这玩意还是得硬实力够啊,我看前面的都挺折磨,估计是项目经历不真实导致的吧。

就我个人观察而言,面试技巧已经没啥特别加分的作用了,大家都会,老师也都知道,反套路搞你几句你也寄。实际上,在大家都不会面试技巧时,考察的是情商;然而,在大家都会面试技巧时,考察的照样是情商。走捷径是没有用的。