【笔试面试】大型IT公司的数据科学面试问题
发布日期:2021-09-18 21:55:43 浏览次数:1 分类:技术文章

本文共 3340 字,大约阅读时间需要 11 分钟。

一些最常见的数据科学求职面试问题的问题和答案。

 

Glassdoor的一次新鲜尝试使我们对在一些顶级公司的数据科学家访谈中被问到的申请人有了一个很好的了解。对我们来说不幸的是,几乎每家公司都有他们的受访者签署NDAs,但由于Glassdoor允许匿名,一些勇敢的灵魂给了我们一些洞察他们的问题。

以下是Facebook,谷歌和微软等顶级公司在面试过程中提出的一些问题。

如果您发现自己无法回答下面的一些问题,请考虑查看有关该主题的或。

有助于

如果您想分享您对任何问题的答案,或者如果您知道可以找到答案的来源,请留下评论,我会添加它们。

此外,如果您在此列表中没有看到您被问过的特定问题,或者您知道有很多问题,请在下面发表评论。

 

2018年最佳数据科学问题和答案:

目录


 


一般的问题

 

假设您有数百万用户,每个用户拥有数百笔交易,这些数百万笔交易涉及数万种产品。您如何将用户组合在有意义的细分中?

 


你如何处理具有高基数的分类特征?

描述一个你曾经参与过的项目以及它如何产生影响。

您将如何总结Twitter Feed?

在应用机器学习算法之前,对数据进行争吵和清理的步骤是什么?

你如何测量数据点之间的距离?

定义方差。

描述箱形图和直方图之间的差异和用例。


 

您将使用哪些功能为用户构建推荐算法?


 

选择您真正喜欢的任何产品或应用,并描述如何改进它。

您如何在分销中发现异常?

您如何调查分布中的某个趋势是否是由异常引起的?

您如何估计优步对交通和驾驶条件的影响?

您会考虑使用哪些指标来跟踪优步的收购新客户的付费广告策略是否真的有效?那么您将如何确定理想的客户获取成本?


 

(数据工程师)你能解释一下REST是什么吗?


 

机器学习问题

 

为什么使用功能选择?

如果两个预测因子高度相关,那么对逻辑回归系数的影响是什么?系数的置信区间是多少?

高斯混合模型和K-Means有什么区别?

你如何为K-Means选择k?

你怎么知道何时高斯混合模型适用?

假设聚类模型的标签已知,您如何评估模型的性能?


 

您感到自豪的机器学习项目的例子是什么?

选择任何机器学习算法并进行描述。

描述Gradient Boosting的工作原理。

描述决策树模型。

什么是神经网络?

解释偏差 - 方差权衡

你如何处理不平衡的二元分类?

L1和L2正则化之间有什么区别?


 

您可以给优步车手预测他们是否接受乘车请求的具体功能是什么?您将使用什么监督学习算法来解决问题以及如何比较算法的结果?


 

命名并描述三种不同的内核函数以及在每种情况下使用它们的情况。

描述机器学习中使用的方法。

你如何处理稀疏数据?


 

你怎么防止过度拟合?

您如何处理数据中的异常值?

您如何分析回归模型与分类模型生成的预测的性能?

您如何评估逻辑回归与简单线性回归模型?

有监督学习和无监督学习有什么区别?

什么是交叉验证?为什么要使用它?

用于评估预测模型的矩阵的名称是什么?

逻辑回归系数与优势比之间存在什么关系?

主成分分析(PCA)与线性和二次判别分析(LDA和QDA)之间的关系是什么?

如果您有一个分类因变量以及分类和连续自变量的混合,您将使用哪些算法,方法或工具进行分析?

(业务分析)逻辑回归和线性回归之间有什么区别?你如何避免局部极小?


 

您将使用哪些数据和模型来衡量损耗/流失?您如何衡量模型的性能?

解释机器学习算法,就好像您正在与非技术人员交谈一样。


 

您如何构建模型来预测信用卡欺诈?

你如何处理丢失或坏的数据?

您如何从已存在的功能中获取新功能?

如果您试图预测客户的性别,并且您只有100个数据点,那么可能会出现什么问题?

假设您有两年的交易历史记录。您将使用哪些功能来预测信用风险?

为Tic-tac-toe设计AI程序


 

解释过度拟合以及您可以采取哪些措施来防止它。

为什么SVM需要最大化支持向量之间的边际?


统计和概率问题

 

解释交叉验证,就好像您正在与非技术人员交谈一样。

描述非正态概率分布以及如何应用它。


 

解释什么是异方差性以及如何解决它


 

鉴于Twitter用户数据,您将如何衡量参与度?


 

什么是不同的时间序列预测技术?

解释主成分分析(PCA)和PCA使用的方程。

你如何解决多重共线性?

写一个方程式来优化Twitter和Facebook之间的广告支出。


 

你从一个套牌中抽出同一套房的两张牌的概率是多少?


 

什么是p值和置信区间?


 

(数据分析师)如果你有70颗红色大理石,绿色和红色大理石的比例是2到7,那么有多少绿色大理石?

纽约市每日通勤的分布情况如何?

给定一个模具,是否更有可能获得六个卷中的一个六个卷,十二卷中至少两个6卷,或六百卷中至少一个6个卷?


 

什么是中心极限定理,你如何证明它?它的应用是什么?


编程和算法

 

(Data Analyst)编写一个可以确定任意二叉树高度的程序


 

创建一个检查单词是否为回文的函数。


 

建立电源组。

你如何找到一个非常大的数据集的中位数?


 

编写一个计算给定数字的平方根(2点精度)的函数。后续:现在通过缓存机制优化您的功能,避免冗余计算。


 

假设你有两个二进制字符串,写一个函数将它们加在一起,而不使用任何内置的字符串到int转换或解析工具。例如,如果你给你的函数二进制字符串100和111,它应该返回1011.你的解决方案的空间和时间复杂度是多少?

编写一个接受两个已排序列表的函数,并在排序列表中返回它们的并集。


 

编写一些代码来确定字符串中的括号是否平衡

你如何找到二进制搜索树中的第二大元素?

编写一个函数,它接受两个排序的向量并返回一个排序的向量。

如果您有一个传入的数字流,您如何在运行中找到最常见的数字?

编写一个将一个数字提升到另一个数字的函数,即pow()函数。

将大字符串拆分为有效单词并将其存储在字典中。如果字符串无法拆分,则返回false。你的解决方案的复杂性是什么?


 

查找文档最常用单词的计算复杂度是多少?

如果您获得10 TB的非结构化客户数据,您将如何从中获取有价值的信息?


 

你将如何'脱离'两个数组(如JOIN for SQL,但相反)?

创建一个添加功能,其中数字表示为两个链接列表。

创建一个计算矩阵和的函数。

您将如何使用Python读取一个非常大的制表符分隔的数字文件来计算每个数字的频率?


 

写一个带有一个句子的函数,并在O(n)时间内将每个单词向后打印出相同的句子。

编写一个采用数组的函数,将数组拆分为两个数组的每个可能的集合,并在O(n)时间内打印出两个数组的最小值之间的最大差异。

编写一个合并排序的程序。


SQL问题

 

(Data Analyst)定义并解释聚簇索引和非聚簇索引之间的差异。

(Data Analyst)返回表的行数有哪些不同的方法?


 

如果给你一个原始数据表,如何用SQL执行ETL(提取,转换,加载)以获得所需格式的数据?

您如何编写SQL查询来计算涉及两个连接的特定属性的频率表?如果您想要ORDER BY或GROUP BY某些属性,您需要做出哪些更改?您将如何处理NULLS?


脑筋急转弯和单词问题

 

假设你有十袋大理石,每个袋子里有十个大理石。如果一个袋子的重量与其他袋子的重量不同,而且你只能进行一次称量,你怎么能找出哪一个不同呢?


 

你即将搭乘飞往西雅图的飞机,想知道你是否应该携带雨伞。你打电话给住在西雅图的你的三个朋友,独立询问每个人是否在下雨。

你的每个朋友都会告诉你时间的真相,并且说谎时间与你混在一起。如果所有三个朋友回答“是的,正在下雨”,那么在西雅图实际下雨的可能性是多少?

想象一下,等边三角形的每个角落都有三只蚂蚁,每只蚂蚁随机选择一个方向并开始穿过三角形的边缘。没有蚂蚁碰撞的概率是多少?如果有N个蚂蚁坐在等边多边形的N角上怎么办?

100个阶乘(即100!)中有多少尾随零?


 

想象一下,您正在与医院合作。患者以泊松分布到达医院,医生以均匀分布的方式照顾患者。编写一个函数或代码块,输出患者的平均等待时间和随机一天医生照顾的患者总数。


 

想象一下,你正在攀爬一个包含n个楼梯的楼梯,你可以采取任何数量k步。有多少种不同的方式可以到达楼梯的顶部?(这是对原始阶梯问题的修改)

 

 

原文:

 

 

 

 

 

转载地址:https://blog.csdn.net/ChenVast/article/details/82963852 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:【互联网软件设计风格】表现层状态转换(REST)
下一篇:【可视化】Matplotlib类型图像的可选颜色

发表评论

最新留言

留言是一种美德,欢迎回访!
[***.207.175.100]2024年04月08日 22时23分24秒