机器学习面试题第一天
发布日期:2021-06-29 12:25:04 浏览次数:3 分类:技术文章

本文共 1599 字,大约阅读时间需要 5 分钟。

每天几道机器学习、深度学习、计算机视觉的面试题用来充实自己,题不在多,在于能不能理解,如果只是简单的复制粘贴,就是去了意义,我尽量将每道题都能用直接作为回答的答案来写,啦啦啦,开始啦!

1、逻辑回归的优缺点?

优点:

a、简单快速内存小,可在短时间内迭代多个版本的模型。

b、模型的可解释性非常好,可以直接看到各个特征对模型结果的影响,可解释性在某些领域很重要,所以业界很多仍然使用逻辑回归模型。

c、特征工程如果做的好,那么模型的效果不会太差。

d、特征工程可以并行开发,大大加快开发速度。

e、模型结果可以很方便的转化为策略规则,且线上部署简单。

总之:简单、快速、内存小、迭代快、解释性好、依赖于特征工程、结果易用。

缺点:

a、容易欠拟合。

b、相比集成模型,准确度不高。

c、对数据要求高。对缺失、异常、共线性敏感、不能直接处理非线性特征。

d、在数据清洗和特征工程上花费时间。

e、适应能力有限。

总之:过分依赖数据、过分依赖特征工程、比集成模型差、适应力有限。

2、逻辑回归是线性模型吗?

逻辑回归是一种广义线性模型 = 线性模型 + Sigmoid函数,是非线性模型。

3、逻辑回归和线性回归的区别?

a、逻辑回归输出的是离散型变量,用于分类。

      线性回归输出的是连续性变量,用于回归预测。

b、逻辑回归 = 线性回归 + Sigmoid函数,将样本映射到[0,1]之间。

c、逻辑回归假设变量服从伯努利分布、线性回归假设变量服从高斯分布。

d、逻辑回归用最大似然法预测最优参数值、线性回归用最小二乘法去对自变量因变量关系进行拟合。

4、逻辑回归是如何解决过拟合的问题的?

a、减少特征数量。

b、采用正则化策略、L1和L2正则化。

5、在逻辑回归中,为什么常常做特征组合?

特征组合可以引入非线性特征,提升模型的表达能力。

基本特征 = 全局建模、特征组合 = 个性化建模,全局建模会导致对部分样本有偏向性,个性化建模会导致数据爆炸、过度拟合。

基本特征 + 特征组合兼顾了全局和个性化。

6、逻辑回归样本满足什么分布?

伯努利分布,分类标签通过伯努利分布得出,分类器就是为了估计这个分布。

7、什么是特征的离散化?什么是特征交叉?逻辑回归为什么会对特征进行离散化?

a、特征离散化是将数值型特征(一般是连续型的)转变为离散特征。

b、特征交叉也叫作特征组合,是将单独的特征进行组合,使用相乘/相除/笛卡尔积等形成合成特征,有助于表示非线性关系。

c、实际工作中很少直接将连续型变量带入逻辑回归模型中,而是将特征进行离散化后再加入模型。

优点:

a、简化模型,使模型变得更稳定,降低了模型过拟合的风险。

b、离散化之后的特征对异常数据有很强的鲁棒性。实际工作中的很难解释的异常数据一般不会做删除处理,如果特征不做离散化,这个异常数据带入模型,会给模型带来很大的干扰。

c、离散特征的增加和减少都很容易,且稀疏向量的内积乘法运算速度快,易于模型的快速迭代。

d、逻辑回归属于广义线性模型,表达能力有限,特征离散化之后,每个离散变量都有单独的权重,相当于给模型引入了非线性,能够提高模型的表达能力。

f、离散化后的特征可进行特征交叉,进一步引入非线性,提高模型的表达能力。

8、高度相关的特征带入逻辑回归到底有什么影响?为什么逻辑回归要将高度相关特征剔除?

a、在损失函数最终收敛的情况下,就算有很多相关度很高的特征,也不会影响模型的效果。

b、减少特征数量,提高模型的训练速度,减少过拟合的风险。

      去掉高相关特征可以让模型的可解释性更好。

9、逻辑回归的特征系数的绝对值可以认为是特征的重要性吗?

特征系数的绝对值越大,对分类效果的影响越显著,但不能表示系数更大的特征重要性更高。

今天机器学习部分就先这样吧,时间有限啊,还有深度学习和cv知识点需要学习一下,今天还没整理论文呢,哭哭

转载地址:https://bupt-xbz.blog.csdn.net/article/details/102695682 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:手写朴素贝叶斯python3代码
下一篇:每天一道leetecode:3 无重复字符的最长字串(medium)

发表评论

最新留言

初次前来,多多关照!
[***.217.46.12]2024年04月19日 12时19分19秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

效率提升法则:高效人士不会去做的4件事 2019-04-29
8.PostgreSQL约束 2019-04-29
【技术分享】使用AES加密技术保障数据安全 2019-04-29
【应用实例】布线多?成本高?不可靠?泽耀方案没烦恼! 2019-04-29
数据可视化工具:Matplotlib绘图 2019-04-29
用Python写个超级小恐龙跑酷游戏,上班摸鱼我能玩一天 2019-04-29
闺蜜看我用Python画了一幅樱花图,吵着要我给他介绍程序员小哥哥 2019-04-29
【Python爬虫实战】知乎热榜数据采集,上班工作摸鱼两不误,知乎热门信息一网打尽 2019-04-29
自从我学会了数据挖掘Matplotlib、Numpy、Pandas、Ta-Lib等一系列库,我把领导开除了 2019-04-29
Python抓取哔哩哔哩up主信息:只要爬虫学的好,牢饭吃的早 2019-04-29
有个码龄5年的程序员跟我说:“他连wifi从来不用密码” 2019-04-29
领导让我整理上个季度的销售额,幸好我会Python数据分析,你猜我几点下班 2019-04-29
【Python爬虫实战】为何如此痴迷Python?还不是因为爱看小姐姐图 2019-04-29
零基础自学Python,你也可以实现经济独立! 2019-04-29
ElasticSearch与Mysql对比(ElasticSearch常用方法大全,持续更新) 2019-04-29
数字化转型的主干道上,华为云以“三大关键”成企业智能化推手 2019-04-29
数字化为何不走“捷”“径”? 2019-04-29
和总裁、专家交朋友,华为云助推政企智能化升级又做到前面去了 2019-04-29
BCOP章鱼船长,6月22日晚上8点上线薄饼 2019-04-29
为战疫助力,半导体功不可没 2019-04-29