AI项目开发中最容易犯的10种错误

VSole2023-07-24 11:00:16

训练一个人工智能(AI)模型看起来似乎很简单,但事实并非如此。要成功、安全地驾驭AI模型并不容易,这是一段充满了许多不确定因素和潜在陷阱的旅程,随时都可能导致错误的输出、低效的资源使用,甚至引发重大的安全事件。

安全研究人员表示,只有通过对细节的敏锐观察,对道德实践的承诺,以及对先进技术的有力掌握,我们才可以创造出安全、高效、道德的AI解决方案。企业是在AI项目开发和实施过程中,必须规避以下10种类型的错误。 

糟糕的数据预处理

AI模型的开发需要高质量的数据进行训练,如果数据的质量无法保证,那么AI模型很可能就会出错。不完整的用户数据、错误填充的数据以及未更新的过期数据都可能会让AI模型产生错误的结果,难以实现对数据的深入理解,无法捕捉到数据的潜在属性,进而导致糟糕的用户体验和潜在的应用风险。

模型评估不准确

除了高质量的数据,选择正确的开发模型也很重要。AI项目开发人员需要确保使用正确的模型,并理解哪种模型最适合什么解决什么问题。例如,如果一家银行使用AI模型来预测客户贷款的违约概率,应用程序往往会根据历史客户的准确性对其进行训练。但如果银行只把准确性作为唯一的绩效衡量标准是远远不够的。模型应该结合使用其他性能指标,如精确召回率和F1分数等,进行交叉验证和AUC-ROC分析,以确定模型评估结果(默认和非默认)的可靠性。

模型对齐(Alignment)不准确

 开发人员通常会基于一些关键性技术指标(如准确性、精确度、召回率或F1分数)来优化模型,但是这些指标中很多都没有与业务指标(如创收、成本节约、客户满意度或风险降低)直接相关。然而大量实践表明,将技术性AI指标与业务性AI指标保持一致对于实现预期的业务成果至关重要。

以信用卡欺诈检测模型为例,仅仅强调模型的准确性或F1分数,可能会导致更多的警告交易出现。这会导致大量误报的出现,很多合法交易会被错误地标记为欺诈。这将产生严重的业务影响,降低了AI应用系统的实际可用性。

忽视数据隐私

在AI项目开发过程中,数据隐私保护是一个非常敏感的问题,需要额外的关注和重视,尤其是AI模型中包含有未成年人的数据时,问题就更复杂了。例如,针对青少年的一些借记卡选项,银行必须确保其安全标准符合监管合规要求。所有以任何形式或途径收集客户信息的公司都需要制定数据保护政策。这样,客户就可以知道组织如何处理他们的数据。然而,用户如何知道他们的数据是否流入了人工智能算法的应用中?很少(或者可以说几乎没有)有开发人员会关注这些信息。

我们正在步入人工智能驱动的时代,对于个人来说,了解企业如何使用人工智能、人工智能的功能及其对数据的影响将变得非常重要。企业组织必须定期进行安全审计,并在人工智能开发的所有阶段实施强有力的数据保护实践。隐私风险可能发生在数据生命周期的任何阶段,因此为所有利益相关者制定统一的隐私安全策略非常重要。

扩展能力不足 

今年初,当ChatGPT刚推出的时候,在短短两个月内就拥有了1亿用户。然而OpenAI公司并没有预料到用户数的激增,导致很多用户难以正常访问该服务。AI模型的应用通常会令人兴奋,在系统上线后可能在一夜之间就迅速传播开来,有数千甚至数百万用户会同时访问这个系统。如果我们没有为这种快速的应用规模扩展做好计划,AI模型将无法跟上节奏并导致资源过载。因此,从一开始就做好AI模型的实时扩展计划是非常重要的。要考虑该模型将如何处理大量用户,确保基础设施能够处理激增的数据处理,并管理好不断增加的存储需求。

模型训练过度 

众所周知,AI模型需要通过大量的数据进行训练,然而在训练AI应用模型时,过多的数据训练也会导致过拟合(overfitting)情况的出现。过拟合是指在训练集上达到比较高的精度,但是在实际测试中的精度却很低,也就是缺少泛化能力(指对训练数据以外的数据难以做出准确分析)。当AI模型部署应用后,数据量会日新月异,重新训练模型的时间成本和资金花费都是不可接受的。对AI模型而言,要避免大量的重复训练,而是要通过不断地更新模型参数来适应不断变化的数据分布,从而不断提高模型的可用性。

用非真实的数据训练

当研究人员训练和测试AI模型时,他们经常使用干净、标记良好的数据集,且通常不反映真实世界的数据分布。因此,结果在表面上看起来令人印象深刻,因为模型在测试数据上表现良好,测试数据与训练数据共享相同的分布。这被称为“分布内”(in-distribution)性能。然而,在现实场景中,AI模型所获取的数据会与它所训练的数据有明显不同。这些数据可能比较嘈杂,也没有清晰的标签和特征。因此,当AI模型部署实际部署应用时,它的性能往往会显著降低。这被称为“分布外”(out-of-distribution)性能。而实际上,企业需要面对“分布外”数据也能保持高性能的AI模型。

算法偏见

算法偏见(Bias)是AI模型应用中所面临的一个主要问题。AI模型算法和机器学习程序应该是客观和公正的,但事实却并非如此。因为人工智能模型是由人类训练的,所以它们会继承人类的偏见。当算法由于训练数据或模型设计方式的潜在偏见而产生系统性错误或不公平决策时,就会出现偏见。如果不检查人工智能模型是否存在偏见,它可能会系统性地使某些数据点处于不利地位。对抗偏见的一个有效方法是制定指导方针和规则,并不断监督和审查,以确保算法偏见的影响是已知和可掌控的。

忽略模型的可理解性

为了让AI模型得到充分的信任,其决策的原理必须要透明。因此,对于维护AI模型伦理来说,这需要是可理解和可解释的。科学家们一直致力于使复杂的AI模型(如深度神经网络)更加透明和可理解。他们提出了一些技术来帮助解释为什么这些模型会做出某些决定。事实上,维护透明度和确保AI模型易于理解的最佳方法是维护完整的开发文档。该文档应包括用于训练AI模型数据的详细信息,这有助于使用者更清晰地理解人工智能模型,并为其决策过程注入信心。

忽视持续性监测

随着日常数据和底层模式的变化,AI模型的算法可能会过时或不那么准确。这些变化可能源于不断变化地消费者行为、市场趋势演变、竞争格局的变化、法规政策的修改等因素。这种现象也被称为“概念漂移”(concept drift)。因此,持续性地监控AI模型的性能表现和准确性是至关重要的。尽管该模型最初可能提供了准确的预测,但随着时间的推移,由于上述现实数据的变化,其准确性可能会显著降低。

为了解决这样的问题,公司需要根据实际需求持续跟踪模型的输出,并实时监控性能指标。此外,应用增量学习技术也是至关重要的。这种方法使模型能够从新数据中学习,同时保留从以前观察到的数据中获得的有价值的知识。通过采用这些策略,企业可以有效地适应概念漂移,并确保对AI模型应用需求的准确把握。

人工智能
本作品采用《CC 协议》,转载必须注明作者和本文链接
2月19日,国务院国资委召开“AI赋能 产业焕新”中央企业人工智能专题推进会,提出中央企业要主动拥抱人工智能带来的深刻变革。央企的优势在哪里?发展人工智能的着力点又在哪里?我们又该怎么样紧紧抓住新一轮产业变革的机遇,实现高质量的发展?《新闻1+1》邀请中国科学院科技战略咨询研究院研究员周城雄,共同关注:人工智能,中国的竞争力!
人工智能密码学”为观察人工智能与密码系统的互动、影响提供新视角,也为当下后量子密码技术探索提供新方案,无疑是一个值得探究的新方向。
人工智能的2024年
2024-01-02 14:09:39
步入2024年,人工智能的未来展现出前所未有的潜力。生成式人工智能时代超越了语言界限,拥抱多模式功能,重新定义了创新格局。由先进AI模型提供支持的AIOps和自主运营正在重塑组织管理IT基础设施的方式。生成式人工智能与特定行业的人工智能战略之间的共生关系,意味着一种全面利用人工智能全部潜力的方法。
人工智能正在改变商业建筑,使其在能源使用方面更加智能。想象一下,当周围没有人的时候灯光会变暗,或者空调会根据天气进行调节——这一切都要归功于人工智能。其可以省钱,保护环境,并使建筑物更环保。让我们一起来探索人工智能是如何彻底改变办公室和商店的能源效率的!
人工智能(AI)和机器学习(ML)技术的进步获得了广泛关注,据尼尔森诺曼集团(Nielsen Norman Group)估计,人工智能工具可能会将员工的生产力提高66%,这使得各地公司都想利用这些工具来提高工作效率。
人工智能的发展对网络安全产生的影响
尽管许多人认为人工智能将导致广泛的工作岗位流失,但这还远未确定。事实上,人工智能似乎更有可能继续为工人提供“超人类水平的生产力”,使日常任务自动化,并为工人腾出时间专注于更复杂的项目。此外,除了一些寻求关注的专家之外,大多数人工智能专家都承认,我们距离通用人工智能还很遥远。事实上,基于人工智能的模型在人类参与的情况下效果最好,并且将继续发挥最佳效果。 “人在环人工智能”将继续存在事实上,
想象一下:您正在浏览社交媒体,看到一段名人做了一些令人发指的事情的视频。它看起来很真实,但似乎有些不对劲。只有当你阅读标题时,你才会意识到这是一个使用生成人工智能创建的深度伪造品。从 Deepfake 视频到 ChatGPT 生成的响应,区分人造内容和人工智能生成的内容变得越来越困难。但随着对生成式人工智能的日益依赖,出现了一个新的担忧:个人数据的过度共享。随着我们对人工智能越来越熟悉,我们可能会
GPT技术和人工智能的最新进展彻底改变了我们与机器交互的方式,带来了更加人性化的体验。 Auto-GPT 是一种在 GPT-3.5 架构上训练的语言模型,是该技术的一个典型例子。 为了测试 Auto-GPT,要求它设计一个值得 Masterchef 的食谱生成器网站,该网站可以根据用户的喜好创建新的、独特的菜肴。它会以不同的方式多次执行相同的提示,直到破解代码(毫不夸张地说)。因此,它爬
全球AI产业正进入“强监管”时代,对人工智能安全威胁的监管正在成为各国政府普遍关注的重要议题。
VSole
网络安全专家