5 种云计算所需的机器学习技能
机器学习和人工智能将会继续深入 IT 服务领域,并为软件工程师开发的应用程序提供补充。如果 IT 团队想跟上发展步伐,就需要提高他们的机器学习技能。
云计算服务为构建和部署人工智能和机器学习应用程序所需的一系列功能提供支持。在许多方面,人工智能系统的管理方式与 IT 专业人士在云平台中熟悉的其他软件非常相似。但只是因为可以部署应用程序,并不意味着可以成功地部署机器学习模型。
虽然这些共同点可能会促进过渡,但也存在着显著的差异。除了软件工程技能之外,组织的 IT 团队成员还需要拥有特定的机器学习和人工智能知识。除了技术专长之外,他们还需要了解目前可用的云计算工具来支持他们团队的计划。
IT 专业人士需要探索在云端成功使用人工智能所需的五种机器学习技能,并了解亚马逊、微软和谷歌提供支持这些技能的产品。虽然这些技能有一些重叠,但不会有全能的技能。通过培养具有这些技能的团队成员,可以让组织获得利用基于云计算的机器学习的优势。
1. 数据工程
如果 IT 专业人员想在云平台实施任何类型的人工智能策略,都需要了解数据工程。数据工程包含一系列要求数据整理和工作流开发的技能,以及一些软件架构的知识。
IT 专业知识的不同领域可以分解为 IT 专业人员应该完成的不同任务。例如,数据整理通常涉及数据源标识、数据提取、数据质量评估、数据集成和管道开发,以在生产环境中执行这些操作。
数据工程师应该能够轻松地使用关系数据库、NoSQL 数据库和对象存储系统。Python 是一种流行的编程语言,可以与批处理和流处理平台 (如 apachebeam) 和分布式计算平台 (如 apachespark) 一起使用。即使 IT 人员不是精通 Python 程序的专家,掌握一些 Python 语言的知识将使其能够从大量的开源工具中获取数据工程和机器学习。
数据工程在所有主要云平台中都得到了很好的支持。AWS 公司提供了全面的服务来支持数据工程,例如 AWS Glue,适用于 Apache Kafka 的 Amazon Managed Streaming(MSK)和各种 Amazon Kinesis 服务。AWS Glue 是数据目录以及提取、转换和加载 (ETL) 服务,其中包括对计划作业的支持。MSK 是数据工程管道的有用构建块,而 Kinesis 服务对于部署可扩展流处理管道特别有用。
谷歌云平台提供了 Cloud Dataflow,这是一项托管的 Apache Beam 服务,可以支持批处理和 Steam 处理。对于 ETL 流程,谷歌云平台提供了基于 Hadoop 的数据集成服务。
Microsoft Azure 也提供了几种托管数据工具,例如 Azure Cosmos DB、Data Catalog 和 Data Lake Analytics 等。
2. 建立模型
机器学习是一门正在不断发展和进步的学科,IT 人员可以通过研究和开发机器学习算法来从事自己的职业。
IT 团队使用工程师提供的数据来构建模型和创建可以提出建议,预测值和对项目进行分类的软件。重要的是要了解机器学习的基础知识,即使许多模型构建过程都是在云中自动完成的。
作为模型构建者,需要了解数据和业务目标,制定问题的解决方案,并了解如何将其与现有系统集成的工作。
市场上的一些产品包括谷歌公司的 Cloud AutoML,这是可以帮助组织使用结构化数据以及图像、视频和自然语言来构建自定义模型的服务,而无需对机器学习有更多的了解。 微软 Azure 在 Visual Studio 中提供了 ML.NET 模型构建器,该模型构建器提供了用于构建、训练和部署模型的界面。Amazon SageMaker 是另一项托管服务,用于在云中构建和部署机器学习模型。
这些工具可以选择算法,确定数据中哪些特征或属性最有用,并使用称之为超参数调整的过程优化模型。这些服务扩展了机器学习和人工智能策略的潜在用途。正如人们驾驶汽车不必成为汽车机械工程师一样,IT 专业人员也不需要获得机器学习的研究生学位来构建有效的模型。
3. 公平与偏差检测
算法做出的决策直接而显著地影响个人。例如,金融服务使用人工智能来做出有关信贷的决策,这可能会无意中对特定人群产生偏见。这不仅可能有拒绝信贷对个人带来的影响,而且还会使金融机构面临违反《平等信贷机会法》等法规的风险。
这些看似艰巨的任务对于人工智能和机器学习模型是必不可少的。检测模型中的偏差可能需要具有统计和机器学习技能,但是与模型构建一样,某些繁重的工作可以由机器完成。
FairML 是用于审核预测模型的开源工具,可帮助开发人员识别工作中的偏见。检测模型偏差的经验还可以为数据工程和模型构建过程提供帮助。谷歌云的公平性工具在市场上领先,其中包括假设分析工具、公平性指标和可解释的人工智能服务。
4. 模型性能评估
模型构建过程的一部分是评估机器学习模型的性能。例如,根据准确性和召回率对分类器进行评估。回归模型 (例如那些预测房屋出售价格的模型) 是通过测量平均误差率来评估的。
如今表现良好的模型将来可能会表现不佳。问题不在于该模型是否以某种方式被破坏,而是该模型是根据不再反映其使用环境的数据进行训练的。即使没有突然的重大事件,也会发生数据漂移。重要的是评估模型并在生产中继续对其进行监视。
Amazon SageMaker、Azure Machine Learning Studio 和 Google Cloud AutoML 等服务包括一系列模型性能评估工具。
5. 领域知识
领域知识并不是一种特定的机器学习技能,但它是成功的机器学习策略中最重要的部分之一。
每个行业都有一定的知识体系,必须以某种能力进行研究,尤其对于构建算法的决策者。机器学习模型受到约束以反映用于训练它们的数据。具有领域知识的 IT 人员对于知道在哪里应用人工智能,并评估其有效性至关重要。