票证分类入门
Ivanti Neurons Machine Learning Lab 提供用于创建、训练和部署机器学习模型的环境。 本部分将指导您完成为 Neurons for ITSM 准备和配置票证分类模型的过程。
票证分类有什么作用?
在 Neurons for ITSM 中创建事件后,机器学习模型会根据“主题”字段中的内容自动将事件实时分类为正确的服务、类别和子类别。 您可以在 Neurons 平台上转到 Machine Learning Lab 训练和部署自己的模型,并上传训练数据。
票证分类:
- 与 Neurons for ITSM 的云和本地版本兼容;
- 可供同时具有 Neurons for ITSM 和 Neurons for Healing 的客户使用。
票证分类需要 2021.3 或更高版本的 Neurons for ITSM 实例。
配置票证分类
配置过程由以下步骤组成:
1. 连接 Neurons for ITSM 实例和 Ivanti Neurons 平台
要连接 Neurons for ITSM 实例和 Neurons 平台,请向 Ivanti Cloud 运维团队(支持部门)发起服务请求。 他们会将必要的配置应用到 Neurons for ITSM。
如果您同时具有 Neurons for Healing 和 Neurons for ITSM,但是在 Neurons 平台中看不到软件 > Machine Learning Lab 项目,请联系 Ivanti 支持部门。
2. 导出数据以训练机器学习模型
尽管 Neurons Machine Learning Lab 能够大幅简化机器学习模型的创建,但是结果还取决于您提供的训练数据集的质量。 此数据集将用于训练模型。 训练数据只不过是一组经过验证的先前创建的事件及其分类。
为获得最佳结果,数据集必须涵盖每个可能的类,即 Neurons for ITSM 环境中可用的服务、类别和子类别的组合。
如果您的 Neurons for ITSM 环境(还)使用实际服务、实际类别和实际子类别,并且此数据更准确,那么您可能要考虑改为使用这些实际字段。
要导出训练数据集的事件:
- 在 Neurons for ITSM 中打开事件工作区
- 创建查询,用于返回您要为训练机器学习模型而准备的事件数据。
- 转到更多 > 表单操作 > 导出。
训练数据集要求
- 文件必须为 CSV 格式,使用逗号作为分隔符。
- 文件必须包含:
- 名为主题的列。
- 服务、类别或子类别列中的至少一个,具体取决于您的配置和使用情况。
从 Neurons for ITSM 导出数据后,用户可开始准备训练所用的数据集。
如果您选择了使用实际服务、实际类别和实际子类别中的数据,那么必须分别将这些列重命名为服务、类别和子类别。
Ivanti 建议从导出的 CSV 文件中删除所有其他列。
3. 清理训练数据
确保处理此步骤中的每个环节,因为这可能会对模型的准确度造成很大影响。
为帮助保持概览,请考虑按服务、类别和子类别对您的数据进行排序。 这样能够有效地创建按类排序的列表。
清理训练数据的过程由以下步骤组成:
- 移除个人身份信息。
这样能够防止潜在的数据隐私问题,并且(对此目的同样重要)防止这种数据对模型造成影响。
示例:如果训练数据包含带有电话号码的主题行,那么生成的模型可能会将该号码解释为特定类的信号。 - 移除或重新标记已弃用的类。
训练数据中的所有类都必须在 Neurons for ITSM 中可用。 如果模型提议不可用的类,则会向用户显示错误,并且可能不会保存事件。
如果您的训练数据包含已弃用的类的样本,那么您可以:- 将样本重新标记为正确、可用的类(如果可用)。
- 删除样本。
确保您的训练数据在类和总数方面都包含足够多的样本。
请参阅为获得已训练模型的最高准确度(下文)
- 更正或移除分类过于宽泛的样本。
包含“其他”或“未分类”等值的类可能过于宽泛。
尽可能将这些样本更正为更具体的类,使主题包含有助于对类进行预测的信息。 - 移除主题包含很少或者不包含任何有用信息的样本。
例如, “紧急请求!”或“尽快帮助我”主题不包含任何对模型训练有用的信息。 - 更正任何不正确的分类。
如果主题为“我的键盘按键都脱落了”的事件具有“网络”类,则将类更正为诸如“外围设备” - 移除或拆分主题包含多个不同类问题相关信息的样本。
用户有时候可能会将多个完全不相关的问题合并为一个事件,例如“我的键盘无法工作,我需要虚拟机”。
移除此样本,或者将其拆分为两个单独的事件,为每个事件分配正确的类。 - 验证您的训练数据的一致性并尽可能加以改进。
“主题”字段(的含义)几乎完全相同的事件应具有相同的分类。示例考虑使用以下主题:
- “当我进行视频通话时,我的相机无法工作”
- “当我的网络摄像头变成空白时,我正在进行视频通话”
“视频通话”和“网络摄像头”类都可能是正确的,但重要的是在您的训练数据中为这两个事件分配相同的类。
- 确保用足够多的样本来表示所有可能的类。
Machine Learning Lab 需要使用足够多的样本来获得准确的模型。
如果您的训练数据包含许多只有少数样本的类,那么您必须增加训练数据的量。
或者,考虑合并和/或移除其中某些类。 - 为表示数量高于平均数量的类减少样本数量。
此类“主导类”能够影响准确度,因为模型会更有可能选择主导类。
为获得已训练模型的最高准确度
确保训练数据:
- 仅包含已知良好的分类;
- 保持一致;
- 包含(大致)同等数量的每个类,无论每个类的实际使用频率如何;
-
每个类至少包含 50 个样本。 但是只要样本满足前三个条件,并且已适当清理数据,那么一般而言,越多越好。
示例如果您的环境使用 10 个服务,每个服务具有 5 个类别,则有 10 x 5 = 50 个类。
因此,训练数据集应包含至少 50 个类 x 50 个样本 = 总共 2500 个样本。最低数量是否足以创建准确的模型,这取决于您的数据和您的类。
4. 准备无用词文件(可选)
要提高模型的性能,您可以选择提供无用词文件。 此文件包含模型必须忽略的词。
自动应用来自 NLTK 的一组默认无用词。
无用词文件要求
- 文件必须为 CSV 或 TXT 格式。
- 文件必须每行只包含一个无用词。
5. 创建和训练机器学习模型
在准备好数据之后,您就可以开始创建和训练您的模型。
- 添加新模型。
- 上传您的训练数据文件和(可选)无用词文件。
- 保存更改。
- 训练您的模型。
Machine Learning Lab 会开始训练过程。
在训练完成之后,模型的详细信息选项卡会显示其准确度。 根据这一准确度,您可以决定部署模型。
要提高准确度,请更新您的训练数据和/或无用词。
6. 部署已训练的机器学习模型
在训练模型之后,您就可以将其部署到您的环境。
部署后,模型将开始在 Neurons for ITSM 环境中对事件进行分类。
7. 在 Neurons for ITSM 中启用票证分类
在 Neurons for ITSM 中,启用票证分类。
有关如何进行此操作的信息,请参阅 Neurons for ITSM 配置指南中的配置票证分类。
何时训练新模型
例如,当您已持续清理训练数据集时,您可以选择训练新模型以提高模型准确度。
但是在某些情况下,可能有必要训练新模型,甚至迫切需要:
- 当类已弃用时
如果模型提议不再可用的类,则会在 Neurons for ITSM 中向用户显示错误,并且可能不会保存事件。如何防止此错误- 更新您的训练数据,以便其不再包含使用已弃用类的样本。
要么向样本分配不同的类,要么彻底移除样本。 - 使用训练数据来训练新模型。
- 部署新模型。
- 在 Neurons for ITSM 中弃用类。
- 更新您的训练数据,以便其不再包含使用已弃用类的样本。
- 当类的预期用途变更时
样本:- 某个类以前用于固定电话,但是现在用于移动设备。
- 您的环境中替换了某个程序,或者引入了新程序。
- 某种新产品(例如平板电脑或智能手表)被引入市场,可能会为其创建事件。
如果没有通过也包含能够体现这些变更的事件样本的数据来训练新模型,准确度可能会下降。
- 当引入新类时
模型只能提议其被训练过的类。 如果您不根据包含新类的训练数据来创建新模型,那么模型永远不会提议新的类。