第 136 号 您需要为人群情感本地模型实施特征工程策略。
你该怎么办?
说明/参考:
解释:
线性判别分析方法只适用于连续变量,不适用于分类或序数变量。
线性判别分析与方差分析(ANOVA)相似,都是通过比较变量的均值来进行分析。
场景
数据科学家必须在本地环境中使用机器学习管道中的自动特征工程和模型构建功能来构建笔记本。
本地人群情感模型的实验必须结合本地惩罚检测数据。
本地模型的所有共享特征都是连续变量。
错误答案:
B:皮尔逊相关系数,有时也称为皮尔逊 R 检验,是衡量两个变量之间线性关系的统计值。通过研究系数值,可以推断出两个变量之间关系的强度,以及它们是正相关还是负相关。
C:斯皮尔曼相关系数设计用于非参数和非正态分布数据。斯皮尔曼系数是衡量两个变量之间统计依赖关系的非参数指标,有时用希腊字母 rho 表示。斯皮尔曼系数表示两个变量单调相关的程度。它也被称为斯皮尔曼等级相关性,因为它可以用于顺序变量。
参考资料
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/fisher-linear- 判别分析
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/compute-linear- 相关性 测试卷 2 案例研究 概述 您是 Fabrikam Residences 公司的数据科学家,该公司专门从事美国优质私人和商业地产业务。Fabrikam Residences 正在考虑将业务扩展到欧洲,并要求您调查欧洲主要城市的私人住宅价格。您使用 Azure Machine Learning Studio 来测量房产的中值。您使用线性回归和贝叶斯线性回归模块创建了一个回归模型来预测房产价格。
数据集
有两个 CSV 格式的数据集,包含伦敦和巴黎两个城市的房产详细信息,列数如下:
这两个数据集已作为独立数据集添加到 Azure Machine Learning Studio,并作为实验的起点。
数据集问题
两个数据集中的 "高速公路可达性 "列都包含缺失值。必须用新数据替换缺失数据,以便在填入缺失值之前,利用数据中的其他变量对其进行有条件建模。
每个数据集中的列都包含缺失值和空值。数据集中还包含许多异常值。年龄列中的异常值比例较高。您需要删除年龄列中有异常值的行。MedianValue 列和 AvgRoomsinHouse 列都包含数字格式的数据。您需要选择一种特征选择算法来更详细地分析这两列之间的关系。
模型匹配
模型有过度拟合的迹象。你需要建立一个更完善的回归模型,以减少过度拟合。
实验要求
您必须设置实验来交叉验证线性回归和贝叶斯线性回归模块,以评估性能。
在每种情况下,数据集的预测因子都是名为 MedianValue 的列。初步调查显示,除 MedianValue 列外,其他数据集的结构完全相同。较小的巴黎数据集包含文本格式的 MedianValue,而较大的伦敦数据集包含数字格式的 MedianValue。您必须确保巴黎数据集 MedianValue 列的数据类型与伦敦数据集的结构相匹配。
您必须优先考虑用于预测结果的数据列。您必须使用非参数统计来衡量关系。
您必须使用特征选择算法来分析 MedianValue 列和 AvgRoomsinHouse 列之间的关系。
模型培训
给定一个训练有素的模型和一个测试数据集,您需要计算特征变量的排列特征重要性得分。您需要设置 "置换特征重要性 "模块,以选择正确的指标来调查模型的准确性并复制调查结果。
您希望在模型学习过程中配置超参数,以便通过使用超参数加快学习阶段。此外,这种配置应取消每个评估间隔中性能最低的运行,从而将精力和资源用于更有可能成功的模型。
您担心模型在调整超参数时可能无法有效利用计算资源。
您还担心该模型可能会阻止总体调整时间的增加。因此,您需要对模型实施一个早期停止准则,在不终止有希望的作业的情况下节省费用。
测试
您必须使用 Azure Machine Learning Studio 中的 "分区和采样 "模块,根据采样情况对数据集进行多个分区。您必须为交叉验证创建三个相等的分区。还必须配置交叉验证过程,以便将测试数据集和训练数据集中的行按每个城市主要河流附近的房产平均划分。确定房产靠近河流的数据保存在名为 NextToRiver 的列中。您希望在数据进入采样流程之前完成这项任务。
当您使用一个显示大城市房地产价格数据的房地产数据集训练线性回归模块时,您需要确定模型中使用的最佳特征。您可以选择所提供的标准指标来衡量特征重要性过程完成前后的性能。您必须确保多个训练模型中的特征分布是一致的。
数据可视化
您需要向 Fabrikam Residences 团队提供测试结果。您需要创建数据可视化来帮助展示结果。
您必须生成接收方工作特性曲线(ROC),以便对模型进行诊断测试评估。您需要选择适当的方法在 Azure Machine Learning Studio 中生成 ROC 曲线,以便将两类决策森林模块和两类决策丛林模块相互比较。