原始数据进行计算参数金沙js333娱乐场官网

当前位置:金沙js333娱乐场 > 金沙js333娱乐场官网 > 原始数据进行计算参数金沙js333娱乐场官网
作者: 金沙js333娱乐场|来源: http://www.qdshidiwei.com|栏目:金沙js333娱乐场官网

文章关键词:金沙js333娱乐场,正规函数

  所谓简单,是指只有一个样本特征,即只有一个自变量;所谓线性,是指方程是线性的;所谓回归,是指用方程来模拟变量之间是如何关联的。 简单线性回归,其思想简单,实现容易(与其背后强大的数学性质相关。同时也是许多强大的非线性模型(多项式回归、逻辑回归、SVM)的基础。并且其结果具有很好的可解释性。

  找到一组参数,使得真实值与预测值之间的差距尽可能地小,是一种典型的机器学习算法的推导思路

  因此,推导思路为: 1.通过分析问题,确定问题的损失函数或者效用函数; 2.然后通过最优化损失函数或者效用函数,获得机器学习的模型 近乎所有参数学习算法都是这样的套路,区别是模型不同,建立的目标函数不同,优化的方式也不同。 回到简单线性回归问题,目标:

  在机器学习中,所有的算法模型其实都依赖于最小化或最大化某一个函数,我们称之为“目标函数”。 最小化的这组函数被称为“损失函数”。什么是损失函数呢?

  损失函数描述了单个样本预测值和真实值之间误差的程度。用来度量模型一次预测的好坏。

  损失函数是衡量预测模型预测期望结果表现的指标。损失函数越小,模型的鲁棒性越好。。 常用损失函数有:

  以上损失函数是针对于单个样本的,但是一个训练数据集中存在N个样本,N个样本给出N个损失,如何进行选择呢? 这就引出了风险函数。

  期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本数据集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险。因此很自然地想到用经验风险去估计期望风险。但是由于训练样本个数有限,可能会出现过度拟合的问题,即决策函数对于训练集几乎全部拟合,但是对于测试集拟合效果过差。因此需要对其进行矫正:

  通过公式可以看出,结构风险:在经验风险上加上一个正则化项(regularizer),或者叫做罚项(penalty)。正则化项是J(f)是函数的复杂度再乘一个权重系数(用以权衡经验风险和复杂度)

  正好是算数平均数(算数平均数是最小二乘法的特例)。 这就是最小二乘法,所谓“二乘”就是平方的意思。 (高斯证明过:如果误差的分布是正态分布,那么最小二乘法得到的就是最有可能的值。)

  向量w和向量v,每个向量的对应项,相乘再相加。其实这就是两个向量“点乘”

  总的来说:向量化是非常常用的加速计算的方式,特别适合深度学习等需要训练大数据的领域。

  对于 y = wx + b, 若 w, x都是向量,那么,可以用两种方式来计算,第一是for循环:

  对于独立的样本,用for循环串行计算的效率远远低于向量化后,金沙js333娱乐场官网用矩阵方式并行计算的效率。因此:只要有其他可能,就不要使用显示for循环。

  2.然后通过最优化损失函数或者效用函数,获得机器学习的模型。然后我们推导并实现了最小二乘法,然后实现了简单线性回归。最后还以简单线性回归为例,学习了线性回归的评价指标:均方误差MSE、均方根误差RMSE、平均绝对MAE以及R方。

  但是,在真实世界中,一个样本通常有很多(甚至成千上万)特征值的,这就是多元线性回归。本篇内容我们学习多元线性回归并实现。

  也就是:第一个特征与参数1相乘、第二个特征与参数2相乘,累加之后再加上截距。就能得到预测值。 求解思路也与简单线性回归非常一致,目标同样是:

  当然了,具体的推导过程不需要了解的,不影响我们的使用,金沙js333娱乐场官网我们只要知道结果思想就行,结果也不用背下来,在网上搜一下就能找到。

  但是这种朴素的计算方法,缺点是时间复杂度较高:O(n^3),在特征比较多的时候,计算量很大。优点是不需要对数据进行归一化处理,原始数据进行计算参数,不存在量纲的问题(多选线性没必要做归一化处理)。

网友评论

我的2016年度评论盘点
还没有评论,快来抢沙发吧!