JackLee

专注,折腾,热爱生活,泳无止境

0%

极大似然估计 (Maximum Likelihood Estimation, MLE) 似然(Likelihood) * 似然指某种事件发生的可能,和概率相似。 二者区别在于:概率用在已知参数的情况下,用来预测后续观测所得到的结果。似然则正相反,用于参数未知,但某些观测所得结果已知的情况,用来对参数进行估计。
阅读全文 »

分类 VS 回归 分类模型 VS 回归模型 最根本的不同:前者是预测一个标签(类型、类别);后者则是预测一个量。 换一个角度来看,分类模型输出的预测值是离散值;而回归模型输出的预测值则是连续值。 也就是说输入一个样本给模型,回归模型给出的预测结果是在某个值域(一般是实数域或其子集)上的任意值;而分类模型则是给出特定的某几个离散值之一。 先验概率和后验概率 * 先验概率(prior probability):指根据以往经验和分析。在实验或采样前就可以得到的概率。 * 后验概率(posterior probability):指某件事已经发生,想要计算这件事发生的原因是
阅读全文 »

初等数学 有理数无理数 三角函数 特殊角度的三角函数值表 正弦 sinΦ = 对边/斜边 正弦定理 正弦函数图像 余弦 cosΦ = 邻边/斜边 余弦定理 三角形中任何一边的平方 = 其它两边的平方和减去这两边与它们的夹角的余弦的积的两倍。 $$ a^2 = b^2 + c^2 – 2bc * cosA $$ $$ b^2 = a^2 + c^2 –2ac * cosB $$ $$ c^2 = a^2 + b^2 – 2ab * cosC $$ 余弦函数图像 * cos x = sin (x + π/2),即余弦函数的图像等于正弦函数向左平移 π/2 个单
阅读全文 »

导数与微分 导数 导函数 特殊函数的导数公式 幂函数的导数公式 幂函数f(x) = xn (n ϵ R ) 的导数公式: (xn)‘ = nxn-1 三角函数的导数公式 * 正弦函数 f(x) = sin x 的导数公式 * (sin x)‘ = cos x 即正弦函数的导数是余弦函数。 * 余弦函数 f(x) = cos x 的导数公式: * (cos x)‘ = -sina x 即余弦函数的导数是负的正弦函数。 * 正切函数 f(x) = tan x 的导数公式:
阅读全文 »

线性回归模型目标函数的一般形式 上图公式中m为样本个数,y为样本真实标签值(如预测年薪与工作年份关系问题中的真实年薪)。 在 y = a + bx 这个模型函数中,a 和 b 是常量参数,x 是自变量,而 y 是因变量。 但到了 J(a,b) 中,x(i) 和 y(i)是常量参数(也就是 m 个样本各自的 x 和 y 值),而 a 和 b 成了自变量,J(a,b) 是因变量。能够让因变量 J(a, b) 取值最小的自变量 a 和 b,就是最好的 a 和 b。 我们要做的,就是找到最好的 a 和 b。 多项式的阶 多项式最高次项的幂次,就是多项式的次数(阶数)。 如下是一个二元四
阅读全文 »

目标函数,损失函数,代价函数 机器学习中的目标函数、损失函数、代价函数有什么区别 凸函数 * 同济大学高等数学定义 设 f(x) 在区间 I 上连续,如果对 I 上任意两点 x_1,x_2 ,恒有 那么称 f(x) 在 I 上的图形是(向上)凹的(或凹弧);如果恒有 那么称 f(x) 在 I 上的图形是(向上)凸的(或凸弧)。 这个定义是直接从几何直观上得来的。如果在曲线弧上面任意取两点,连接这两点的弦总是在弧段的上方,那么曲线就是(向上)凹的,反之也有可类比的结论。取一个特殊的点,即弦的中点,曲线的凹凸性可以用弦的中点与曲线弧上具有相同坐标的点的位置关系来描述。 1
阅读全文 »

分类模型的评判指标 精准率/查准率(Precision) Precision=TP/(TP+FP),即在所有被预测为 Class_A 的测试数据中,预测正确的比率。 如<<机器学习>>(周志华)中的描述,对一堆西瓜进行分类为好瓜和坏瓜,希望选出来认为是好瓜的准确率尽可能高,则这个概念叫精准率/查准率。 召回率/查全率(Recall) Recall=TP/(TP+FN),即在所有实际为 Class_A 的测试数据中,预测正确的比率。 如<<机器学习>>(周志华)中的描述,对一堆西瓜进行分类为好瓜和坏瓜,希望尽可能的选出里面所有的好瓜,则个概念叫召回率/查全率 F1Score F1Sc
阅读全文 »

构建模型的一般步骤 * Step-1:数据准备。 * Step-1.1 数据预处理:收集数据、清洗数据、标注数据。 * Step-1.2 构建数据的向量空间模型(将文本、图片、音频、视频等格式的数据转换为向量)。 * Step-1.3 将构建好向量空间模型的数据分为训练集、验证集和测试集。 * Step-2:训练——将训练集输入给训练程序,进行运算。训练程序的核心是算法,所有输入的向量化数据都会按该训练程序所依据的算法进行运算。训练程序输出的结果,就是模型。 * Step-3:测试——将测试集数据输入给训练获得的模型,得到预
阅读全文 »

向量空间模型(Vector Space Model,VSM) * 向量指一个同时具有大小和方向的几何對象。 * 向量空间模型负责将格式(文字、图片、音频、视频)转化为一个个向量,即将真实世界里的各种对象转换为计算机可以识别的数值。 特征向量(Feature Vector) 描述一份样本数据中所有的特征所转换出来的向量叫做这份数据的特征向量 特征工程 特征工程,包括以下两个步骤: 1. 确定用哪些特征来表示数据; 2. 确定用什么方式表达这些特征。 模型 模型是机器学习的结果,这个学习过程,称为训练(Train)。 一个已经训练好的模型,可以被理解成一个函数: y=f(x)。
阅读全文 »