INFS5720 26T2|10 个 Topic 搭出两套不同的思维方式
📝 看起来像一门线性课,打开发现是两段
INFS5720 的 10 个教学周列在 syllabus 上很工整:每周一个主题,从导论到 CNN,看起来一条直线推到底。但真正跟着上下来,你会发现 W1-W5 和 W7-W10 几乎在教两种不同的思维方式。
前五周教的方法有一个共同特征:可解释。聚类 (Clustering) 把数据按相似性分堆,PCA 把高维数据压成几个主成分,回归 (Regression) 把目标变量拆成几个输入变量的线性组合。系数多大、分了几组、哪个变量影响最大,全部摊在台面上,你能看清模型在做什么。
后四周的方法反过来:预测更准但更难解释。神经网络 (Neural Network) 是多层非线性叠加,集成学习 (Ensemble) 是把好几棵决策树投票取均值,多臂老虎机 (Multi-Armed Bandit) 是在不确定里反复试错找最优。你很难简单说出一个神经网络为什么给出某个预测。
两段之间的 W6 是充电周、不上课。从学校的角度这是给你消化前 5 周的。从实际操作的角度,W6 是你最后一次有整块时间把前半段理清的机会——W7 一开学就是神经网络,同周还有 Quiz 2。
💡 三根柱子:每个模型都挂在上面
这门课的底层骨架是机器学习的三大范式,后面所有模型都挂在这三根柱子上:
| 范式 | 有没有"标准答案" | 学什么 | 挂的模型 |
|---|---|---|---|
| 监督学习 Supervised | 有(目标变量 y) | 从带标签的数据学映射规律 | 回归、逻辑回归、决策树、神经网络、集成学习 |
| 无监督学习 Unsupervised | 没有 | 自己在数据里找模式 | 聚类 (K-means, 层级聚类)、PCA、Topic Model |
| 强化学习 Reinforcement | 没有标签,有奖励 | 试错 + 奖励反馈 | 多臂老虎机 |
注意监督学习的模型最多——从 W3 到 W10 有 5 个模型都属于监督学习。这也直接对应了 Final 的考法:给你一个业务场景和数据描述,问你「有没有目标变量?有 → 监督学习,从里面选一个;没有 → 无监督,聚类还是降维?」这套判断流程就是这门课反复训练你的东西。
还有一个容易被忽略的细节:无监督学习不只是单独用。原话是 during a predictive analytics project, analysts may use unsupervised learning techniques to understand the data and to expedite the model building process——做预测之前先用聚类或 PCA 摸清数据长什么样,再去建监督模型。这种「无监督打前站、监督做主力」的套路是考试高频考点,也是团队作业分析流程里最容易拿分的结构。




