门户网首页 | 首页 | 公告栏 | 新闻动态 | 科技政策 | 科技工作 | 供求信息 | 部门简介
 
5G时代,AI能走多远?
 
 

  分类算法中还有一类是基于数学数据和统计模型实现分类的算法,包括通过前验概率进行预测的朴素贝叶斯、基于阶跃函数实现二分类的逻辑回归以及基于拉格朗日乘子实现的支持向量机(SVM),这些算法的一个共性特征就是面向二分类问题求解,在训练数据相对较小的情况下,其预测准确度甚至不输于神经网络学习或深度学习。其中,SVM可以对非线性的高维度空间的数据进行分类,泛化性能也较好,曾经一度被认为是前深度学习时代最优秀的机器学习算法。朴素贝叶斯可以针对非结构化数据的二分类问题进行预测,其中一个典型的应用是在邮件系统中识别垃圾邮件,或者对于新闻网站中出现的高频词汇进行统计。逻辑回归算法解决的是典型的二分类问题,虽然预测精度不高,另外算法适合的应用也有一定的局限(注:一般只适用于线性可分的二分类问题),但逻辑回归是一种“在线”学习算法,而且对于训练样本的不同特征(注:或称作属性),都可以通过量化的权重进行表征,这也是它的一个典型特点。

  除了面对离散数据进行处理分析的分类算法,监督式学习阵营还包括回归类型的算法。回归算法一般面向解决连续性数值问题的预测分析,主要分为线性回归以及非线性的树回归。线性回归的核心算法是通过矩阵求逆运算实现的最小二乘法,一般用来进行连续数值的趋势预测,在实际应用中,也可以利用线性回归算法中数据特征的权重来量化分析特征对于标注数据的影响程度进行扩展应用开发。但当数据拥有众多特征并且特征直接关系十分复杂,同时面对非线性问题时,线性回归模型就显得不那么有效了,此时可以采取CART(Classification And Regression Trees,分类回归树)树构建算法,前文提及CART树回归算法,相比决策树属于全局寻优算法,而GBDT是一种更先进的CART树,将损失函数的残差作为目标函数(注:标注CART树采取标注数据的方差作为目标函数),并结合集成学习技术进一步提升了预测的精度。

  神经网络/深度学习是近年来被认为最为流行的“仿生学”机器学习算法,其本质是以逻辑回归作为基础“神经元”细胞,通过输入-输出反复刺激(训练),不断迭代寻优,最终形成预测模型。神经网络可以解决二元分类、多元分类甚至回归问题,业内有一种观点,通过引入非线性架构的神经网络,如果其自身的前馈神经元数量足够庞大,理论上可以模拟任何函数,解决任何问题。尽管神经网络如此强大,但是在实际应用中也存在诸多局限,例如在使用算法前需要对众多的算法参数进行调整,这个过程就比较复杂,另外神经网络可解释性较差,在较小的数据结构中预测精度可能会下降,而且不利于在线扩展。业内最成熟的神经网络/深度学习应用一般针对图像、人脸识别或者语音、语义的处理等领域,在各行各业都进行了应用,例如门禁闸机、互联网的身份认证、翻译器等,这些较成熟的应用都需要预先收集庞大且标注质量较高的数据,通过耗时较长的训练过程将模型固化。

  监督式学习算法目前是机器学习在实际应用中的主流算法,但另一个重要的领域——无监督学习同样不可忽视。无监督学习区别于有监督学习最重要的特点就是采集到的训练样本数据没有明确的标注信息。作为聚类算法的K均值算法、二分K均值算法、DBSAN,占据无监督式学习阵营的主流。聚类算法一般用来对数据进行整理分析,通过将相似的数据进行聚类簇合并从而发现共性特点。在具体应用实现中,一般通过聚类算法将数据进行预先处理,对同一聚类簇的数据进行共性标注,再依据标注信息结合分类算法实现后续预测分析。除此之外,聚类算法还可被用于地图的地理化分布呈现,通过打点坐标的经纬度将距离相近的打点聚合在一起,不同类别冠以不同的颜色呈现区分,这在大数据可视化地图分析中非常直观。关联分析类算法严格来说并不算是机器学习的范畴,而更偏向于大数据统计分析,其经典的应用就是在零售行业的售货记录中发现了“啤酒-尿布”的关联关系,除此之外还有很多有趣的应用,例如可以通过关联分析算法发现美国议会中投票法案之间的潜在关系,也可以应用在互联网关键词热搜当中,该算法在处理数据的时候并不关心特征的样本取值,而将样本出现在数据中比拟为零售清单中的一条记录,只关心在一条记录中该“商品”(特征)是否出现,出现一次就记为1。由于在实际应用分析中往往面临的数据量异常庞大,因此在关联分析中实际关注的焦点问题是如何将计算复杂度降低,Apriori算法、FP(Frequent Pattern)-growth算法应运而生,这些算法可以将搜索量显著降低,FP-growth算法相比Apriori算法数据扫描量更低,计算效率显著提升,而且易于在线扩展,是目前互联网对于关键词热搜的主流算法。

 
津ICP备05001971号-1 网站标识码 :1201160073 天津港保税区管委会 科技发展局 版权所有
 科技和工业创新局电话:022-84906361  津公网安备 12019102000001号  
技术支持 北方网