返回
面试宝典:50题基本机器学习面试回答题
末蓝星星
2022-10-23

以下是8pc给大家分享的是机器学习的面试问答,希望能给小伙伴们带来一些干粮,下面请看正文,感兴趣的小伙伴慢慢啃哦~


机器学习面试问题:算法/理论

关于机器学习算法的机器学习面试问题将测试您对机器学习背后的理论的了解。

Q1:什么是之间的权衡b IAS和变化?

答案: 由于您所使用的学习算法中的错误或过于简单的假设,偏差是错误的。这可能会导致模型欠拟合 数据,很难为它具有很高的预测精度,并为您概括从训练集的测试集的知识。

由于您使用的学习算法过于复杂,差异是错误的。这导致算法对训练数据的高度变化高度敏感,这可能导致模型过度拟合 数据。您的模型训练数据会携带太多噪声,因此对测试数据非常有用。

所述偏置方差分解基本上通过将偏压,方差和位不可约误差由于在基础数据集分解噪声从任何算法学习误差。本质上,如果使模型更复杂并添加更多变量,则将失去偏差,但会获得一些方差-为了获得最佳的减少的误差量,您必须权衡 偏差和方差。您既不需要模型中的高偏差也不需要高方差。

问题2:有监督和无监督机器学习有什么区别?

答:监督学习需要训练标记的数据。例如,为了进行分类(一项有监督的学习任务),您需要首先标记要用于训练模型的数据,以便将数据分类到标记的组中。相反,无监督学习不需要显式标记数据。

问题3:KNN与k均值聚类有何不同?

答:  K最近邻居是一种监督分类算法,而k均值聚类 是一种无监督聚类算法。虽然乍一看机制似乎很相似,但这实际上意味着为了使K最近邻居能够正常工作,您需要将未标签点分类为标签的数据(从而使最近的邻居部分)。K均值聚类仅需要一组未标记的点和一个阈值:该算法将获取未标记的点,并通过计算不同点之间的距离的平均值,逐步学习如何将它们分类为组。

这里的关键区别在于,KNN需要标记点,因此是有监督的学习,而k-means则不是,因此是无监督的学习。

问题4:说明ROC曲线的工作方式。

答: ROC曲线是各种阈值下真实阳性率和错误阳性率之间对比的图形表示。它通常被用作模型灵敏度(真阳性)与后果之间的权衡取舍,或模型将触发错误警报的可能性(假阳性)。

Q5:定义精度和召回率。

答案:召回率也称为真实阳性率:与整个数据中存在的实际阳性数量相比,模型所声称的阳性数量。精度也称为正预测值,它是模型要求的准确肯定量与其实际要求的肯定数量相比的度量。在您预测有10个苹果的情况下有10个苹果和5个橙子的情况下,更容易想到召回率和精确度。您将拥有完美的回忆(实际上有10个苹果,并且您预测会有10个),但精度为66.7%,因为在您预测的15个事件中,只有10个(苹果)是正确的。

Q6: 什么是贝叶斯定理?在机器学习环境中它有什么用?

答案:贝叶斯定理给定给定事件的后验概率,即所谓的先验知识。

在数学上,它表示为条件样本的真实阳性率除以总体的假阳性率与条件的真实阳性率之和。假设您在进行流感测试后有60%的机会实际患上流感,但是在患有流感的人中,该测试在50%的时间内是错误的,而整个人群只有5%的机会接受流感测试流感。进行阳性测试后,您实际上有60%的机会感染流感吗?

贝叶斯定理说不。它表示您具有(.6 * 0.05)(条件样本的真实阳性率)/(.6 * 0.05)(条件样本的真实阳性率)+(.5 * 0.95)(a的假阳性率)人口)= 0.0594或5.94%患流感的机会。

贝叶斯定理是机器学习分支背后的基础,其中最著名的是包括朴素贝叶斯分类器。当您面对机器学习面试问题时,考虑这一点很重要。

Q7:为什么“天真”贝叶斯天真?

答: 尽管朴素贝叶斯有实际应用,尤其是在文本挖掘中,但它被认为是“朴素”,因为它做出了一个在现实生活中的数据中几乎看不到的假设:有条件概率是根据单个概率的纯乘积计算得出的。组件。这意味着功能的绝对独立性-在现实生活中可能从未遇到过的条件。

正如Quora评论家异想天开地说的那样,Naive Bayes分类器发现您喜欢泡菜和冰淇淋,可能会天真的向您推荐泡菜冰淇淋。

Q8:解释L1和L2正则化之间的区别。

答:  L2正则化倾向于在所有项中分散误差,而L1则更二进制/稀疏,其中许多变量的权重分配为1或0。L1对应于在条件上设置拉普拉斯先验,而L2对应于高斯先验。

问题9:您最喜欢的算法是什么,您能在不到一分钟的时间内向我解释一下吗?

答:面试官会问这样的机器学习面试问题,以测试您对如何以敏锐的态度传达复杂的技术细微差别以及快速有效地进行总结的能力的理解。在回答此类问题时,请确保您有选择,并确保可以简单有效地解释不同的算法,以使五岁的孩子可以掌握基本知识!

Q10:类型I和类型II错误有什么区别?

答: 不要以为这是一个棘手的问题!许多机器学习面试题将试图向您介绍一些基本问题,以确保您在游戏中处于领先地位,并且已经准备好所有基础知识。

类型I错误为假阳性,而类型II错误为假阴性。简而言之,类型I错误意味着声称某事没有发生,而类型II错误意味着您声称没有事发生,而实际上却是。

考虑这一点的一种聪明方法是将I型错误视为告诉一个男人他已怀孕,而II型错误则意味着您告诉一名孕妇她没有生婴儿。

Q11:什么是傅立叶变换?

答: 傅里叶变换是将通用函数分解为对称函数叠加的通用方法。或者,如本更直观的教程所述 ,给定冰沙,这就是我们找到食谱的方式。傅立叶变换可找到一组循环速度,振幅和相位,以匹配任何时间信号。傅立叶变换将信号从时域转换到频域-这是从音频信号或其他时间序列(例如传感器数据)中提取特征的一种非常常用的方法。

Q12:什么是“内核技巧”,它有什么用?

答: 内核技巧涉及到可以在高维空间中启用的内核函数,而无需显式计算该维内点的坐标:相反,内核函数将计算特征空间中所有数据对的图像之间的内积。这使得它们具有计算较高尺寸的坐标的非常有用的属性,同时在计算上比显式计算所述坐标便宜。可以根据内部乘积来表达许多算法。使用内核技巧可以使我们在具有低维数据的高维空间中有效地运行算法。

问题13: 什么是深度学习?它与其他机器学习算法有何不同?

答: 深度学习是与神经网络有关的机器学习的一个子集:如何使用反向传播和神经科学的某些原理来更准确地建模大型未标记或半结构化数据集。从这个意义上讲,深度学习代表了一种无监督的学习算法,该算法通过使用神经网络来学习数据的表示形式。

问题14:生成模型和判别模型有什么区别?

答案: 生成模型将学习数据类别,而区分模型将仅学习不同数据类别之间的区别。在分类任务上,判别模型通常会胜过生成模型。

问题15:您将在时间序列数据集上使用哪种交叉验证技术?

答: 除了使用标准的k折交叉验证之外,您还必须注意一个事实,即时间序列不是随机分布的数据-它本质上是按时间顺序排序的。例如,如果某个模式在较晚的时间出现,即使您的模型在前几年没有效果,您的模型仍可能会采用这种模式!

您将需要执行诸如前向链接之类的操作,在该模型中,您可以对过去的数据进行建模,然后查看前向数据。

  • 折叠1:训练[1],测试[2]
  • 折叠2:训练[1 2],测试[3]
  • 折叠3:训练[1 2 3],测试[4]
  • 第四折:训练[1 2 3 4],测试[5]
  • 第五折:训练[1 2 3 4 5],测试[6]

Q16:如何修剪决策树?

答案: 修剪是在决策树中发生的情况,当删除具有弱预测能力的分支以降低模型的复杂性并提高决策树模型的预测准确性时。修剪可以采用自下而上和自上而下的方法,例如减少错误修剪和成本复杂性修剪的方法。

减少错误修剪可能是最简单的版本:替换每个节点。如果它不会降低预测准确性,请对其进行修剪。尽管很简单,但是这种启发式方法实际上非常接近于优化以实现最大准确性的方法。

问题17:对您来说哪个更重要:模型准确性或模型性能?

答案:此类机器学习面试问题测试您对机器学习模型性能细微差别的掌握!机器学习面试问题通常关注细节。有一些精度更高的模型在预测能力上可能会表现更差-这有什么意义?

好吧,它与模型精度如何只是模型性能的一个子集有关,并且在那个时候,有时会产生误导。例如,如果您想在具有数百万个样本的海量数据集中检测欺诈,那么,如果只有极少数案件是欺诈,那么更准确的模型很可能根本预测不到欺诈。但是,这对于预测模型(旨在发现断言根本没有欺诈的欺诈模型)将毫无用处!诸如此类的问题可以帮助您证明,您了解模型的准确性 并不是模型性能的全部和全部。

Q18:什么是F1分数?您将如何使用它?

答:  F1分数是对模型性能的度量。它是模型的精度和召回率的加权平均值,结果趋于1最好,趋于0则最差。您可以在分类测试中使用它,真正的否定并不重要。

Q19:您将如何处理不平衡的数据集?

答: 例如,当您进行分类测试并且其中90%的数据在一个类中时,数据集就处于不平衡状态。这就带来了问题:如果您对其他类别的数据没有预测能力,则可能会导致90%的准确度失真!以下是克服困难的一些策略:

  1. 收集更多数据,甚至消除数据集中的失衡。
  2. 重新采样数据集以纠正不平衡。
  3. 在您的数据集上完全尝试其他算法。

在这里重要的是,您对不平衡数据集可能造成的损害以及如何进行平衡具有敏锐的认识。

Q20:什么时候应该使用分类而不是回归?

答: 分类将离散值和数据集划分为严格的类别,而回归则为您提供连续的结果,使您可以更好地区分各个点之间的差异。如果您希望结果反映数据集中数据点对某些显式类别的归属,则可以使用分类而不是回归(例如:如果您想知道一个名字是男性还是女性,而不是他们与男性和女性之间的关联性)女性名字。)问题21:举一个示例,其中合奏技术可能会有用。

答: 集合技术使用学习算法的组合来优化更好的预测性能。它们通常会减少模型的过度拟合并使模型更健壮(不太可能受到训练数据的微小变化的影响)。 

您可以列举一些集成方法的示例(装袋,增强,“模型桶”方法),并演示它们如何提高预测能力。

问题22: 如何确保您不会过度拟合模型?

答: 这是对机器学习中一个基本问题的简单重述:过度拟合训练数据并将该数据的噪声传递到测试集中的可能性,从而提供了不准确的概括。

避免过度拟合的主要方法有三种:

  1. 使模型更简单:通过考虑较少的变量和参数来减少方差,从而消除训练数据中的一些噪声。
  2. 使用交叉验证技术,例如k折交叉验证。
  3. 使用诸如LASSO之类的正则化技术,如果某些模型参数可能会导致过度拟合,则会对它们进行惩罚。

问题23: 您将采用哪些评估方法来评估机器学习模型的有效性?

答: 您首先需要将数据集划分为训练集和测试集,或者可能使用交叉验证技术将数据集进一步细分为数据内的训练集和测试集的复合集。然后,您应该选择性能指标:这是一个相当全面的列表。您可以使用诸如F1得分,准确性和混淆矩阵之类的度量。在这里重要的是要证明您了解如何衡量模型以及如何为正确的情况选择正确的绩效指标的细微差别。Q24:您将如何评估逻辑回归模型?

答: 上述问题的一个小节。您必须证明对逻辑回归的典型目标是什么(分类,预测等),并提出一些示例和用例。

Q25:您如何看待量子计算对机器学习的影响?

答: 随着最近宣布在量子计算方面取得更多突破,这种新格式和通过硬件的思维方式如何用作解释经典计算和机器学习以及某些可能构成某些算法的硬件细微差别的有用代理的问题在量子机器上做起来要容易得多。展示该领域的一些知识有助于表明您对机器学习感兴趣的程度远高于实现细节。

机器学习面试问题:编程

这些机器学习面试问题可测试您对在实践中实现机器学习原理所需的编程原理的了解。机器学习面试问题通常是测试您的逻辑和编程技能的技术问题:本节将重点放在后者。

Q26:如何处理数据集中的丢失或损坏的数据?

答: 您可以在数据集中找到丢失/损坏的数据,然后删除那些行或列,或者决定将它们替换为另一个值。

在Pandas中,有两种非常有用的方法:isull()和dropna(),可帮助您查找丢失或损坏的数据列并删除这些值。如果要用占位符值(例如0)填充无效值,则可以使用fillna()方法。

问题27:您是否有使用Spark或大数据工具进行机器学习的经验?

答: 您将要熟悉不同公司的大数据的含义以及他们想要的不同工具。Spark是目前最需要的大数据工具,能够快速处理庞大的数据集。老实说,如果您没有所需工具的经验,但还要看一下职位描述,看看会弹出哪些工具:您需要投资以熟悉它们。

Q28:选择一种算法。编写用于并行实现的伪代码。

答: 这种问题表明您具有并行思考的能力,以及在处理大数据的编程实现中如何处理并发性。看一下Peril-L等伪代码框架 和Web Sequence Diagrams等可视化工具, 以帮助您证明自己编写反映并行性的代码的能力。

Q29:链表和数组之间有什么区别?

答: 数组是对象的有序集合。链表是一系列带有指针的对象,这些指针指示如何顺序处理它们。数组假定每个元素都具有相同的大小,这与链表不同。链表可以更容易地自然增长:必须预先定义或重新定义数组才能自然增长。对链表进行改组涉及更改指向哪个位置的直接点,同时,对数组进行改组更复杂,并且会占用更多内存。

Q30:描述一个哈希表。

答: 哈希表是一种产生关联数组的数据结构。通过使用哈希函数将键映射到某些值。它们通常用于诸如数据库索引之类的任务。

Q31:您使用哪些数据可视化库?您对最佳的数据可视化工具有何看法?

答: 在这里重要的是定义您的看法,以便正确地可视化数据以及工具方面的个人喜好。流行的工具包括R的ggplot,Python的seaborn和matplotlib以及Plot.ly和Tableau之类的工具。

Q32: 给定长度为n的两个字符串A和B,确定是否可以在同一点切割两个字符串,以使A的第一部分和B的第二部分形成回文。

答: 作为机器学习工程师,您可能会在面试过程中经常遇到标准算法和数据结构问题,这些感觉可能类似于软件工程面试。在这种情况下,这来自Google的采访过程。检查回文的方法有多种,例如,如果您使用的是Python之类的编程语言,则这样做的一种方法是反转字符串并检查其是否仍与原始字符串相等。这里要注意的是您可以预期的问题类别,类似于将深入您的算法和数据结构知识的软件工程问题。确保您完全适应所选择的表达逻辑的语言。

Q33:SQL中的主键和外键如何关联?

答: 大多数机器学习工程师都必须熟悉许多不同的数据格式。SQL仍然是使用的关键之一。您很可能需要证明您了解如何操作SQL数据库的能力。在此示例中,您可以讨论外键如何允许您将表匹配并在对应表的主键上将表连接在一起,但同样有用的是讨论您如何考虑设置SQL表并对其进行查询。 

问题34:如何比较XML和CSV的大小?

答: 实际上,XML比CSV更为冗长,并且占用更多空间。CSV使用一些分隔符将数据分类和组织为整齐的列。XML使用标记来描绘键-值对的树状结构。您通常会获得XML,作为从API或HTTP响应半结构化数据的一种方式。在实践中,您将需要提取XML数据并尝试将其处理为可用的CSV。这类问题可以测试您是否熟悉数据混乱(有时是混乱的数据格式)。

Q35:JSON支持哪些数据类型? 

答: 这将测试您对JSON的了解,JSON是另一种常见的JavaScript打包文件格式。您可以使用六种基本的JSON数据类型:字符串,数字,对象,数组,布尔值和null值。

Q36:您将如何建立数据管道?

答: 数据管道是机器学习工程师的基础,他们采用数据科学模型并找到使它们自动化和扩展的方法。确保您熟悉构建数据管道的工具(例如Apache Airflow)以及可以托管模型和管道的平台(例如Google Cloud或AWS或Azure)。解释正常运行的数据管道中所需的步骤,并讨论您在生产中构建和扩展它们的实际经验。

机器学习面试问题:公司/行业特定

这些机器学习面试问题涉及如何根据特定公司的要求来实现您的一般机器学习知识。系统将要求您创建案例研究,并利用您的机器学习技能来扩展您对所申请的公司和行业的了解。

问题37:您认为我们业务中最有价值的数据是什么?

答案: 这个问题或类似的问题确实尝试在两个维度上对您进行测试。首先是您对业务和行业本身的了解,以及对业务模型的了解。第二个是您是否可以选择总体而言数据与业务成果之间的相关性,然后如何将这种思想应用于有关公司的情况。您将需要研究业务模型并向招聘人员提出好的问题,然后开始考虑他们可能想用其数据解决最多的业务问题。

Q38:您将如何为我们公司的用户实施推荐系统?

答: 许多这类机器学习面试问题都会涉及到针对公司问题的机器学习模型的实现。您必须深入研究公司及其行业,尤其​​是公司拥有的收入驱动因素以及公司所处行业的用户类型。

问题39:我们如何使用您的机器学习技能来创收?

答: 这是一个棘手的问题。理想的答案应显示出有关如何推动业务以及您的技能如何相互关联的知识。例如,如果您正在采访音乐流媒体启动公司Spotify,则可以说,开发更好的推荐模型的技能会增加用户保留率,从长远来看会增加收入。

上面链接的Slideshare的启动指标将帮助您确切地了解哪些绩效指标对于初创公司和科技公司在考虑收入和增长时很重要。

问题40:您如何看待我们目前的数据流程?

答: 这种问题需要您认真聆听并以建设性和有见地的方式提供反馈。面试官正在尝试评估您是否会成为其团队中的宝贵成员,以及您是否了解为什么某些事物是根据公司或行业特定条件在公司数据处理中设置它们的方式的细微差别。他们正在尝试看看您是否可以成为知识分子。按指示行动。

机器学习面试问题:一般的机器学习兴趣

这一系列机器学习面试问题旨在衡量您对机器学习的热情和兴趣。正确的答案将证明您致力于成为机器学习的终身学习者。

问题41:您最近阅读过哪些机器学习论文?

答: 如果您想表现出对机器学习职位的兴趣,那么必须紧跟有关机器学习的最新科学文献。这概述自然深度学习 的深度学习本身(从韩丁到Bengio到LeCun)的接穗可以是一个很好的参考文件和正在发生的事情深度学习的概述-你可能想举纸张的种类。

Q42:您在机器学习方面有研究经验吗?

答: 关于最后一点,大多数招聘机器学习职位的组织将寻找您在该领域的正式经验。由该领域的领导者共同撰写或监督的研究论文可以使您被录用与不录用有所不同。确保您已准备好您的研究经验和论文摘要,并提供背景知识的解释,如果没有,请提供正式的研究经验。

Q43:您最喜欢机器学习模型的用例是什么?

答: 下面的Quora线程包含一些示例,例如决策树,这些决策树根据IQ分数将人们分为不同的智力层次。确保记住一些示例,并描述引起您共鸣的内容。重要的是要表现出对如何实现机器学习的兴趣。

Q44:您将如何参加“ Netflix奖”竞赛?

答:  Netflix奖是一个著名的比赛,其中Netflix提供了1,000,000美元用于更好的协作过滤算法。赢得冠军的团队BellKor取得了10%的进步,并采用了多种不同的方法来取胜。对案例及其解决方案的一些熟悉将有助于证明您一段时间以来一直关注机器学习。

问题45:您通常在哪里采购数据集?

答: 诸如此类的机器学习面试问题试图引起您对机器学习兴趣的关注。真正热衷于机器学习的人将自己离开并完成辅助项目,并且对那里有什么很棒的数据集有个好主意。如果您缺少任何数据,请查看Quandl 以获得经济和金融数据,并 查看Kaggle的Datasets集合以获取另一个好清单。

问题46:您认为Google如何训练自动驾驶汽车的数据?

答: 像这样的机器学习面试问题确实可以测试您对不同机器学习方法的了解,如果您不知道答案,则可以证明您的创造性。Google目前正在使用Recaptcha 来获取店面和交通标志上的标签数据。它们也是基于Sebastian Thrun在GoogleX上收集的训练数据而建立的,其中一些数据是由他的研究生驾驶越野车越野车获得的!

问题47:您如何模拟AlphaGo在Go上击败Lee Sedol的方法?

答:  AlphaGo在五个最佳系列中击败了Go的最佳人手Lee Sedol,这是机器学习和深度学习历史上的真正开创性事件。上面的《自然》杂志描述了“具有深度神经网络的蒙特卡洛树搜索方法是如何实现的,该方法已通过监督学习,人类专家游戏和自学游戏的强化学习进行了训练。”

Q48:您对GPT-3和OpenAI的模型有何看法?

答:  GPT-3是OpenAI开发的一种新的语言生成模型。之所以被标记为令人兴奋,是因为GPT-3只需很少改变架构,并获得大量数据,就可以生成看起来像人类的对话片段,甚至可以包括新颖大小的作品以及从自然界中创建代码的能力。语。整个Internet上都有关于GPT-3的多种观点-如果是在访谈环境中提出的,请准备好聪明地解决该主题(以及类似的趋势主题),以证明您遵循了机器学习的最新进展。

问题49:您训练有趣的是什么模型,以及使用什么GPU /硬件?

答案:此类机器学习面试问题测试您是否在公司角色之外从事机器学习项目,以及是否了解如何为项目提供资源和有效分配GPU时间的基础知识。可能会遇到这样的问题,那就是招聘经理,他们有兴趣在您的投资组合以及您独立完成的工作中获得更大的了解。

问题50: 您最喜欢探索哪些API? 

答:如果您使用过外部数据源,则可能会遇到一些喜欢的API。您可以在这里考虑一下过去运行的各种实验和管道,以及对以前使用过的API的看法。

0
0

末蓝星星

哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

首页
首页
发现
发现
免费获取资料
原价10元
限时特价:3元/篇
如有疑问请关注微信公众号ggq_bm后咨询客服。
付费下载:
面试宝典:50题基本机器学习面试回答题
限时特价:3元/篇原价10元
选择支付方式:
付款成功后即可下载。
如有疑问请关注微信公众号ggq_bm后咨询客服。

您还不是会员

选择会员套餐:

包月(30天)

19.99元

包季(90天)

49.99元

折合

16.66元/月

包月(365天)

99.99元

折合

8.33/月

全站10w+模板资源免费下载,价值99元2G学习干货
选择支付方式:
微信支付
支付宝支付
请确认支付是否已完成
已完成支付
未完成支付
订单查询

零比其

会员有效期至2022-5-23

恭喜您

已成功开通会员

尊享:

·全站资源免费下载

·赠送福利请关注公众号ggq_bm获取