无监督的12个最重要的学习算法介绍及用例总结

VSole2022-07-29 16:14:23

无监督学习(无监督学习)是和监督学习的另一种数据监督机器的方法,无监督学习是没有的明显学习数据本身。

无学习监督算法有几种类型,以下是其中最重要的12种:

1、智能识别由相似性将点组成的簇

k-means是一种流行的算法,数据划分为k组。

2、降维算法降低了数据的维数,使可视化和处理更容易

主成分分析(PCA)是一种降维算法,将数据投影到低维空间,PCA可以使用将数据降维到其最重要的特征。

3.异常检测算法点识别异常值或异常数据

对向支持机可以用于异常检测(示例)算法[26]。需要方法标注数据集,而无需监督。

基于[20]个无异常数据监控空间中密集区域的点。

一个简单的方法是计算出每个点到最近的邻居的平均距离。发现点非常可能是异常点。

还有很多基础的异常检测算法,包括离群因子(Local Outlier Factor)和支持相关的数据描述(支持向量域描述)。这些算法可以比简单的近邻检测方法更复杂,通常更复杂例如到的可能出现的某些异常程度[21]。大多数检测算法都需要对参数进行异常调整,指定一个过高的参数来对异常进行调整。如果参数过低,算法会漏掉异常。算法可能会产生错误报告(将正常点识别为异常点)。

4、分割算法将]数据段或组[12

分割算法可以将图像分割为背景。

这些算法可以在不需要人工监督的情况下将数据集划分成k-组的距离。这个领域中比较知名的一个算法是手段。 k组。

一种鲁棒的分割算法算法中心是通过另外一种方式,可以通过不同的方式将数据点移向邻近区域的平均偏移量,实现异常值的处理。在大型数据集上运行它计算可能的价格但是。

高混合模式(GMM)可以用于最近的模型类型。以前的gmm模型需要计算来训练它们,但它们的研究进展正在进行中。gmm非常灵活,可以用于数据模型。但有时可以用于任何类型的数据。并且不能总是产生最好的结果。对于数据集,k-means 是一个很好的选择,而 gmm 则更适合于复杂的数据集。均值偏移可以用于一种简单的情况,但在任何大型的情况下数据集上计算的价格会涨。

5、去噪声滤波器或删除数据中的噪声

小波变换可以使用图像无发射数据。但包含可能产生的数据损坏、价值和异常值。去电视通过[10]中的噪声量来提高各种监督学习模型的大小。 。

现有的成分分析有多种成分,包括主分析(PCA)、成分分析(ICA)和非负成分(矩阵)[11]。

6、预测网络节点之间的未来连接预测(例如,预测每个节点之间的未来网络链接)

预测可用于预测哪些人将成为社交网络中的朋友。更常用的链接预测算法之一是优先连接算法[15],如果预测两个节点有多个现有连接,则它们更有可能被连接。

[1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [1] [16] [1] [1] [1] 可能“另一种结构”概念,因此在生物网络中经常使用。

步行者重启算法是一种线性预测算法,它模拟网络上的一个启动点最后移动的人,在不断节点[17]中,步行者到达特定节点的随机排列者。两个节点之间存在连接。

7、强化学习算法通过反复试验来进行学习

Q-learning是基于值的学习算法[1]的一个它实现简单且通用。但是Q-learning有时会收敛到次优解[18]。另一个例子是TD learning,它在计算上Q-学习学习要求更高,但通常可以找到更好的解决方案[19]。

8、生成模型:算法使用训练数据生成新的数据

自编码数据集生成独特的图像,可用于从这些数据集生成的图像。在机器学习中,生成模型属性是一个捕捉器的数据集的统计模型。所用的训练的数据一样。

生成模型任务各种,模型学习,数据压缩和像无像一样使用[很像 22]。生成模型有多种,隐含和可监督的模型机[22]。优缺点,并且适用于不同的任务。

隐马尔可夫擅长模型对顺序建模,而尔兹曼更擅长对高维数据[22]建模。通过在无标记数据上它们,生成可以用于无监督学习。然后模型训练,就可以使用这些过程生成新的数据。然后生成的数据可以由人类或其他机器学习算法进行标记。这个可以重复,直到生成模型生成数据,就像想要的输出。

9、随时森林是一种机器学习算法,可用于监督和无监督学习[9]

对于无监督学习,随时可以找到类似的学习森林,识别异常值,并压缩数据[9]。

和无监督任务经常被证明已被证明使用类似流行的机器学习(如机器)[9]。它们也刚刚过地推广到这意味着它们可以很好的数据。

10、CAN是一种基于数据库的学习算法,可用于无密监督

它基于,也就是每个点的数量很接近。并且具有一些优势,它可以找到不同大小的簇,集供不同和用户预先指定的数量。[23] [28]。没有类似的数据。例如,它可能会在另外一个数据集上增加一个很好的数据集。 ]。

11、用于优先选择关联、A项4项和顺序模式

四月算法也是第一个关联规则算法,使用最经典的算法规则。

Apriori算法有很多种方式,可以根据不同的需求进行定制。例如,可以控制支持度和置信度阈值以找到不同的规则[24]。

22、Eclat 2019 2019 2019 2019-08-20 2019-08-20 2019-08-08 2019-08-08 2019-08-08 11:24:00 来源: 2019-06-08 11:13:01

Eclat算法是一种深度优先算法,纵向数据表示,在格理论的基础上采用基于概念的等价关系搜索空间格)为概念的子空间格(子概念格)。

以上就是无学习中的算法,如果你对他们感兴趣,请详细查看下面的引用(长,建议查看监督的)

Q-Learning简介:强化学习: https ://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/

2. Q-learning视频演练: https ://www.youtube.com/watch?v=4dcgjcuR-1o

3. 无监督学习:使用 DBSCAN 进行聚类: https ://web.cs.dal.ca/~kallada/stat2450/lectures/Lecture15.pdf

4.机器学习中的DBSCAN聚类算法: https ://www.kdnuggets.com/2020/04/dbscan-clustering-algorithm-machine-learning.html

5. 深度生成模型中全局因素的无监督学习。arXiv:2012.08234

6. Harshvardhan GM、Mahendra Kumar Gourisaria、Manjusha Pandey、Siddharth Swarup Rautaray,机器学习中生成模型的全面调查和分析,计算机科学评论,第 38 卷,2020 年,100285,ISSN 1574–0137, https://doi。 org/10.1016/j.cosrev.2020.100285 。

7. 提升: https ://aws.amazon.com/what-is/boosting/

8. 装袋: https ://www.ibm.com/cloud/learn/bagging

9. Breiman, L. (2001)。随机森林。机器学习,45(1),5-32。

10. Hastie, T.、Tibshirani, R. 和弗里德曼, J. (2009)。统计学习的要素:数据挖掘、推理和预测(第 2 版)。施普林格科学与商业媒体。

11. 主教,CM(2006 年)。模式识别和机器学习。施普林格。

12. 功能材料断层图像数据分割的机器学习技术。https://www.frontiersin.org/articles/10.3389/fmats.2019.00145/full

13. 复杂网络中的链接预测:调查。https://arxiv.org/pdf/1010.0725.pdf

14.链接预测。https://neo4j.com/developer/graph-data-science/link-prediction/

15. 在线网络中的偏好依恋:测量和解释。https://arxiv.org/pdf/1303.6271.pdf

16.一种新的相似性度量,用于挖掘长路径网络中的缺失链接。https://arxiv.org/pdf/2110.05008.pdf

17. 带重启的快速随机游走及其应用。https://www.cs.cmu.edu/~christos/PUBLICATIONS/icdm06-rwr.pdf

18. Q-Learning:教程和扩展。https://link.springer.com/chapter/10.1007/978-1-4615-6099-9_3

19. 时间差分学习: https ://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html

20. 异常检测的机器学习技术:概述。https://www.researchgate.net/profile/Salima-Benqdara/publication/325049804_Machine_Learning_Techniques_for_Anomaly_Detection_An_Overview/links/5af3569b4585157136c919d8/Machine-Learning-Techniques-for-Anomaly-Detection-An-Overview.pdf

21. 网络异常检测的机器学习方法。https://www.usenix.org/legacy/event/sysml07/tech/full_papers/ahmed/ahmed.pdf?ref=driverlayer.com/web

22.墨菲,KP(2012 年)。机器学习:概率视角(第 1 版)。麻省理工学院出版社。

23. 一种基于密度的算法,用于在大空间中发现集群……。https://www.osti.gov/biblio/421283 。

24. Rakesh、Agrawal 和 Ramakrishnan Srikant。“矿业协会规则的快速算法”。https://www.researchgate.net/publication/2460430_Fast_Algorithms_for_Mining_Association_Rules

25.帕克,伊克巴尔。机器学习:算法、实际应用和研究方向。https://link.springer.com/article/10.1007/s42979-021-00592-x

26. 使用多代理系统进行异常检测。https://users.encs.concordia.ca/~abdelw/papers/Khosravifar_MSc_S2018.pdf

27. 用于图生成的深度生成模型的系统调查| 深度人工智能。https://deepai.org/publication/a-systematic-survey-on-deep-generation-models-for-graph-generation

28. Hierarchical K-Means Clustering:优化集群——Datanovia。https://www.datanovia.com/en/lessons/hierarchical-k-means-clustering-optimize-clusters/

机器学习无监督学习
本作品采用《CC 协议》,转载必须注明作者和本文链接
监督学习监督学习)是和监督学习的另一种数据监督机器的方法,监督学习是没有的明显学习数据本身。
自从chatgpt发布后一直关注如何和网络安全融合,最近一直在学习GPT相关内容,传统的用文本向量相似度索引的方式局限太大。2019年GPT2发布,对gpt1架构改动了一下,使用40GB文本,包含web爬虫数据,redit等数据,模型参数达到15亿。使用45T文本,参数量达到1750亿,效果炸裂。数据集加载类对每篇文章mask最后一个字用作预测,计算loss用mask第一个字的文本,gpt架构的神奇之处在于此,它只是预测最后一个字,而预测的这个字是根据学习文本的概率计算的。
这篇技术干货 带你了解深信服的AI技术
当今的网络安全行业严重依赖传统方法(主要是人工驱动的方法),随着基于大语言模型的生成式人工智能变革浪潮袭来,首当其冲的网络安全行业正面临一次技术和方法的颠覆性革命,不想被淘汰的网络安全从业人员需要重新点亮技能树。
摘要Docker是目前最具代表性的容器平台之一,它的安全问题引起了产业界和学术界的广泛关注。首先,对Docker架构以及基本安全特性进行介绍,分析了Docker面临的安全威胁。由于Docker拥有轻量化、高效率和易部署的特点,目前已被广泛应用于云计算和微服务架构中。本文对Docker安全相关的研究思路、方法和工具进行比较和分析,并指出未来可能的研究方向。此外,Iptables的限制范围有限,容器网络仍然容易受到数据链路层攻击,如ARP欺骗等。
电力工控系统是关系到电网安全稳定运行的重要领域。目前国网黑龙江电力有限公司已经建立起“安全分区、网络专用、横向隔离、纵向认证”的边界安全防护体系。但在工控系统核心位置保护方面,还需考虑以下两个问题:电力工控系统具有闭源特性,内部函数逻辑调用非开源;攻击数据样本极少,难以构建特征库引擎。针对以上问题,从系统底层数据提取、运行状态学习等方面开展研究,设计了涵盖厂站、主站两侧的安全防御体系架构,为闭源电
工业互联网是新一代信息通信技术与工业控制技术深度融合的新型基础设施,通过对人、机、物、系统等的全面连接,构建起覆盖全产业链、全价值链的全新制造和服务体系,为工业乃至产业数字化、网络化、智能化发展提供了实现途径。
本文介绍了三种主要的威胁检测方法,包括其主要应用场景和优缺点。
当前工业制造业正朝数字化、网络化和智能化方向演进,5G、大数据、工业互联网和人工智能等新一代信息技术与制造业正在加速融合,但同时也给工业自身带来了很多的网络安全风险。通过对工业制造当前现状和发展趋势进行综合分析,科学论证其存在的安全挑战,提出了一种全新的工业信息安全架构,并给出应对建议。
根据 MarketsandMarkets 公司 2018 年发布的《安全市场中人工智能》报告,全球人工智能赋能安全市场规模在 2017 年已达 39.2 亿美元,预计 2025 年将达到 348.1 亿美元,平均每年增长率超过 30%。
VSole
网络安全专家