数据科学中的6个基本算法解析 数据算法有哪些

如果想从事数据科学,但是又没有数学背景,那么有多少数学知识是做数据科学所必须的?
统计学是学习数据科学绕不开的一门数学基础课程,但数据科学也经常会涉及数学中的其他领域 。
数据科学使用算法进行预测,这些算法称为机器学习算法,有数百种之多 。有人总结了数据科学中最常用的6种算法,已经掌握它们分别需要哪些数学知识 。
朴素贝叶斯分类器
朴素贝叶斯分类器(Naive Bayes classifier)是一种简单的概率分类器,它基于特征之间相互独立的假设,以贝叶斯定理为基础 。
贝叶斯定理的数学公式为:

数据科学中的6个基本算法解析 数据算法有哪些

文章插图

其中A、B表示两个事件,且P(B)不等于0 。各个部分具体的含义为:
1、P(A|B)是条件概率,它是事件B发生后事件A发生的概率 。
2、P(B|A)也是一个条件概率,它是事件A发生后事件B发生的概率 。事件发生的可能性 发生了 是真的 。
3、P(A)和P(B)是各自发生的概率,A、B两个事件彼此独立 。
需要的数学知识:
如果你想要了解朴素贝叶斯分类器,以及贝叶斯定理的所有用法,只需学习概率课程就足够了 。
线性回归
线性回归是最基本的回归类型,它用来理解两个连续变量之间的关系 。在简单线性回归的情况下,获取一组数据点并绘制可用于预测未来的趋势线 。
线性回归是参数化机器学习的一个例子,训练过程最终使机器学习找到最接近于训练集的数学函数,然后可以使用该函数来预测未来的结果 。在机器学习中,数学函数被称为模型 。在线性回归的情况下,模型可以表示为:
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

a1, a1, ……,an表示对数据集的参数值,x1, x1, ……,xn表示在线性模型中使用的特征值 。
线性回归的目标是找到描述特征值和目标值之间关系的最佳参数值 。换句话说,就是找到一条最适合数据的线,可以外推趋势以预测未来结果 。
为了找到线性回归模型的最佳参数,我们希望让残差平方和(residual sum of squares)最小化 。残差通常被称为误差,它用来描述预测值和真实值之间的差异 。残差平方和的公式可表示为:
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

y的“头顶”加上^用来表示预测值,y表示真实值 。
需要的数学知识:
如果你只想粗略地了解,基础统计学课程就可以了 。残差平方和的公式可以在大多数高级统计课程中学到 。
逻辑回归
逻辑回归(Logistic regression)侧重于二元分类,即输出结果只有两种情况的概率 。
与线性回归一样,逻辑回归是参数化机器学习的一个例子 。因此,这些机器学习算法的训练过程的结果是找到最接近训练集的数学函数模型 。
但是线性回归模型输出的是一组实数,而逻辑回归模型输出的是概率值 。在逻辑回归的过程中还会用到sigmoid函数,它会把所有值压缩到0~1的范围之间 。
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

需要的数学知识:
这一部分包含的知识有指数函数和概率,你需要对代数和概率论有充分的理解 。如果想深入了解,建议学习概率论、离散数学或实分析 。
神经网络
神经网络是一种机器学习模型,它们受到人类大脑中神经元结构的极大启发 。神经网络模型使用一系列激活单元(称为神经元)来预测某些结果 。神经元将输入应用于转换函数,并返回输出 。
神经网络擅长获取数据中的非线性关系,并帮助我们完成音频和图像处理等任务 。虽然存在许多不同类型的神经网络(比如卷积神经网络、前馈神经网络、递归神经网络等),但它们都依赖于转换输入生成输出的基本概念 。
数据科学中的6个基本算法解析 数据算法有哪些

文章插图

在上图中,线条将每个圆圈连接到另一个圆圈 。在数学中,这就是所谓的图,一种由边连接的节点组成的数据结构 。
神经网络的核心是一个系统,它接收数据,进行线性代数运算,然后输出答案 。
线性代数是理解神经网络的关键,它通过矩阵和向量空间来表示线性方程 。因为线性代数涉及矩阵表示线性方程,所以矩阵是理解神经网络核心部分必须知道的基本知识 。