AI 加速器接口 (AI²) – NVIDIA^® TensorRT^™

接口：	TensorRT
修订：	21.05.2.1
日期：	Apr 20, 2023

一般情况
系统要求
Features
安装
局限性
算子
算子 set_dl_device_param
算子 get_dl_device_param
算子 optimize_dl_model_for_inference
算子 query_available_dl_devices
HDevelop 示例
第三方库的使用
发行说明

一般情况

本页提 NVIDIA^® TensorRT^™ SDK 的 HALCON AI² 接口文档。
注册客户可从 MVTec WWW 服务器下载该接口的最新版本。自 HALCON 21.05 版起，该接口已成为 HALCON 软件包本身的一部分。

该 AI² 接口可用于在支持的硬件，尤其是 NVIDIA^® GPUs上执行优化推理。

系统要求

关于支持的硬件（GPU）模型以及目标平台（及其组合）的概述，包括支持的功能（如精度）说明，请参阅 TensorRT^™ 支持矩阵文件。
CUDA^® 发行说明中列出了所需 GPU 驱动程序版本的概览。如有需要，可从 NVIDIA^® 下载页面下载驱动程序。
当前版本的插件是用
- TensorRT^™ 8.0.3.4
- CUDA^® 11.1.0
- cuDNN 8.2.0
必须满足 HALCON 系统要求（HALCON 21.05 或更新版本）。

功能

预训练的交付模型可以优化为 float32 (FP32)、float16 (FP16) 和 int8 (INT8) 精度的推理。不过，支持的精度取决于目标 GPU 模型，有些 GPUs 只支持部分精度（参见 TensorRT^™ 支持矩阵）。

安装

该 AI² 接口可作为 HALCON 软件包的一个组件进行安装。无需额外安装，TensorRT^™ 运行时以及相应的所需 CUDA^® 库将与插件本身一起部署。
有关支持的 GPU 型号和驱动程序版本的信息，请参阅系统要求。

局限性

一旦使用 optimize_dl_model_for_inference 算子在 GPU 设备上对 HALCON 深度学习模型进行了推理优化，就应始终在同一平台上使用同一设备（至少是同一 GPU 模型）执行（apply_dl_model）。这尤其意味着，当序列化优化后的模型以供日后重用时，应在同一 GPU 模型上使用前对其进行反序列化。由 TensorRT^™ 模型生成器执行的设备特定优化一般会妨碍不同 GPU 模型之间的可移植性。
类似的限制可能适用于不同的 TensorRT^™ 版本，在升级到本插件的更新版本时也可能适用。
与其他任务共享 GPU 资源应仔细规划。在优化过程中，假定推理将使用相同数量的 GPU 内存。
在使用内存容量较小（<4GB）的 GPU 时，如果 TensorRT^™ SDK 要求提供过多的 CUDA 内存，某些模型可能会在优化（或推理）阶段失败。这种情况可能无法挽回，需要重启进程。TensorRT^™ SDK 确实提供了一个控制内存使用的参数（参见 max_workspace_size 优化参数），但并未提供任何详细的使用指南，也没有解决上述问题的可靠模式。在可能的情况下，我们建议使用至少 4GB 内存的 GPU。

以下列表概述了 HALCON 中已交付预训练模型的当前模型精度限制：

模型	TensorRT			文件
模型	FP32	FP16	INT8	文件
三维抓取点检测	✔	✔	✖	pretrained_dl_3d_gripping_point.hdl
异常检测大型	✔	✔	✔	initial_dl_anomaly_large.hdl
异常检测中型	✔	✔	✔	initial_dl_anomaly_medium.hdl
分类 AlexNet	✔	✔	✔	pretrained_dl_classifier_alexnet.hdl
分类紧凑型	✔	✔	✔	pretrained_dl_classifier_compact.hdl
分类增强	✔	✔	✔	pretrained_dl_classifier_enhanced.hdl
分类 MobileNetV2	✔	✔	✔	pretrained_dl_classifier_mobilenet_v2.hdl
分类 ResNet50	✔	✔	✔	pretrained_dl_classifier_resnet50.hdl
分类 ResNet18	✔	✔	✔	pretrained_dl_classifier_resnet18.hdl
计数	✔	✔	✖	使用 create_deep_counting_model 创建的模型，骨干网：pretrained_dl_classifier_resnet50.hdl
物体检测紧凑型	✔	✔	✔	使用 create_dl_model_detection 创建的模型，骨干：pretrained_dl_classifier_compact.hdl
分割边缘提取	✔	✔	✔	pretrained_dl_edge_extractor.hdl
全局上下文异常检测	✔	✔	✔	pretrained_dl_gc_anomaly.hdl ('gc_anomaly_networks' = ['local', 'global'])
全局上下文异常检测	✔	✔	✔	pretrained_dl_gc_anomaly.hdl ('gc_anomaly_networks' = ['local'])
全局上下文异常检测	✔	✔	✔	pretrained_dl_gc_anomaly.hdl ('gc_anomaly_networks' = ['global'])
实例分割	✖	✖	✖	使用 create_dl_model_detection 创建的模型，所有骨干网
OCR 检测	✔	✔	✔	pretrained_deep_ocr_detection.hdl
OCR 识别	✔	✔	✔	pretrained_deep_ocr_recognition.hdl
分割紧凑型	✔	✔	✔	pretrained_dl_segmentation_compact.hdl
分割增强	✔	✔	✔	pretrained_dl_segmentation_enhanced.hdl

对于用户创建或读入的其他模型（例如，通过 HALCON 算子 read_dl_model 读入 ONNX 格式的模型），请参阅 TensorRT^™ 的层限制文档（TensorRT^™ 支持矩阵）。

算子

下文将详细介绍 TensorRT^™ 插件在 HALCON 算子集中的使用。本文件重点解释 TensorRT^™ HALCON AI² 接口的特定参数。如需了解更多信息，请参阅 HALCON 算子文档。

算子 set_dl_device_param

本节描述了可使用 set_dl_device_param(..., [], GenParamValue) 配置的插件特定设备控制参数。请注意，可以使用 get_dl_device_param(..., 'settable_device_params', ...) 查询这些参数的当前值（以字典形式）。

参数	值	类型	描述
'log_level'	['info', 'warn', 'error', 'none']	字符串	配置与插件相关的所有操作的当前日志级别。请注意，该配置实际上对整个插件都有效，并不局限于设置该配置的设备。日志还包括 TensorRT^™ SDK 本身生成的信息。日志的默认值（"error"）也可以通过 "HAI2_TENSORRT_LOG "环境变量进行调整。生成的日志将通过 HALCON 的低级错误机制（请参阅 set_system('do_low_error',...)）传送。注意：该参数可（作为字典项）使用 get_dl_device_param(..., 'settable_device_params', ...) 用于读取 set_dl_device_param(..., [], GenParamValue) 用于写入
'verbose_log_enabled'	['false', 'true']	字符串	配置是否启用 TensorRT^™ SDK 的详细日志记录（在使用 "log_level" 参数配置的常规日志记录之外）。在调试与模型优化和/或推理有关的特定问题时，可能会用到冗长日志。请注意，该配置实际上对整个插件都有效，并不局限于通过它进行设置的设备。生成的日志将通过 HALCON 的低级错误机制（请参阅 set_system('do_low_error',...)）传送。注：该参数可（作为字典项目）使用： get_dl_device_param(..., 'settable_device_params', ...) 用于读取 set_dl_device_param(..., [], GenParamValue) 用于写入
'profiler_enabled'	['false', 'true']	字符串	配置是否将推理剖析器信息附加到日志中（"info" 级别）。主要供内部使用，或在调试自建网络架构时使用（与 HALCON 随附的模型相反）。注：该参数可（作为字典项目）使用： get_dl_device_param(..., 'settable_device_params', ...) 用于读取 set_dl_device_param(..., [], GenParamValue) 用于写入

本节介绍插件特定的设备信息参数，这些参数通过字典报告，只读参数使用 get_dl_device_param(..., 'info', ...) 查询，可读写参数使用 get_dl_device_param(..., 'settable_device_params', ...) 查询。
请注意，这些参数的一部分（全部在下文中突出显示）与 optimize_dl_model_for_inference 算子输出的 ConversionReport 字典共享（在这种情况下，字典中包含有关转换所用设备的信息）。这些信息旨在帮助优化后的模型与兼容设备进行匹配——TensorRT^™ 使用特定设备优化的模型应始终在相同的 GPU 模型上执行。当模型只优化一次并将结果序列化/存储以便以后重复使用时，这个问题就变得非常重要——在这种情况下，选择合适的推理设备就变得非常重要。

参数	值	类型	描述
'tensorrt_version'	<version string>	字符串	报告扩展的 TensorRT^™ 版本字符串，包括所用 CUDA 和 cuDNN 库的版本。格式为 TENSORRT-CUDA-CUDNN（例如，8.0.3.4-11.3-8.2 代表 TensorRT^™ 8.0.3.4 以及 CUDA 11.3 和 cuDNN 8.2）。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'plugin_version'	<version string>	字符串	报告正在使用的插件版本。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'device_name'	<device name>	字符串	报告由 CUDA 报告的 GPU 设备名称。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'compute_version'	<version string>	字符串	报告 GPU 设备的 CUDA 计算能力版本。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'device_global_mem_mb'	<megabytes>	整数	报告 GPU 设备上可用的全局内存大小（单位：MB）。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'driver_supported_cuda_version'	<version string>	字符串	报告当前连接到 GPU 设备的驱动程序所支持的最新 CUDA 版本。 Note: available (as a dictionary item) through get_dl_device_param(..., 'info', ...)
'has_fast_fp16'	'false', 'true', 'unknown'	字符串	指示设备是否支持快速本地 fp16 精度计算的标志。注：可通过 get_dl_device_param(..., 'info', ...) 获取（作为字典项）。
'has_fast_int8'	'false', 'true', 'unknown'	字符串	指示设备是否支持快速本地 int8 精度计算的标志。注：可通过 get_dl_device_param(..., 'info', ...) 获取（作为字典项）。
'has_fast_tf32'	'false', 'true', 'unknown'	字符串	指示设备是否支持 tf32 精度计算的标志。注：可通过 get_dl_device_param(..., 'info', ...) 获取（作为字典项）。
'log_level'	['info', 'warn', 'error', 'none']	字符串	配置与插件相关的所有操作的当前日志级别。请注意，该配置实际上对整个插件都有效，并不局限于设置该配置的设备。日志还包括 TensorRT^™ SDK 本身生成的信息。其默认值（"error"）也可以通过 "HAI2_TENSORRT_LOG" 环境变量进行调整。生成的日志将通过 HALCON 的低级错误机制（请参阅 set_system('do_low_error',...)）传送。注：该参数可（作为字典项目）使用： get_dl_device_param(..., 'settable_device_params', ...) 用于读取 set_dl_device_param(..., [], GenParamValue) 用于写入
'verbose_log_enabled'	['false', 'true']	字符串	配置是否启用 TensorRT^™ SDK 的详细日志记录（在使用 "log_level" 参数配置的常规日志记录之外）。在调试与模型优化和/或推理有关的特定问题时，可能会用到冗长日志。请注意，该配置实际上对整个插件都有效，并不局限于通过它进行设置的设备。生成的日志将通过 HALCON 的低级错误机制（请参阅 set_system('do_low_error',...)）传送。注：该参数可（作为字典项目）使用： get_dl_device_param(..., 'settable_device_params', ...) 用于读取 set_dl_device_param(..., [], GenParamValue) 用于写入
'profiler_enabled'	['false', 'true']	字符串	配置是否将推理剖析器信息附加到日志中（"info" 级别）。主要供内部使用，或在调试自建网络架构时使用（与 HALCON 随附的模型相反）。注：该参数可（作为字典项目）使用： get_dl_device_param(..., 'settable_device_params', ...) 用于读取 set_dl_device_param(..., [], GenParamValue) 用于写入

算子 optimize_dl_model_for_inference

本节介绍 optimize_dl_model_for_inference 算子支持的输入/输出参数。
可用于调整优化函数的输入参数通过算子的 "GenParam" 参数（作为名称/值字典）传递给运算子可以使用 get_dl_device_param(..., 'optimize_for_inference_params', ...) 获取这些参数的默认设置——通过实际优化将在哪个设备上执行。
输出参数提供了所执行优化的相关信息，包括所使用的设备/环境，这些参数将从算子（作为名称/值字典）的 "ConversionReport" 参数中返回。请注意，这些参数的一部分与同名设备信息参数 get_dl_device_param(..., 'info', ...) 相对应。

参数	值	类型	描述
'tensorrt_version'	<version string>	字符串	报告扩展的 TensorRT^™ 版本字符串，包括所用 CUDA 和 cuDNN 库的版本。格式为 TENSORRT-CUDA-CUDNN（例如，8.0.3.4-11.3-8.2 代表 TensorRT^™ 8.0.3.4 以及 CUDA 11.3 和 cuDNN 8.2）。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'plugin_version'	<version string>	字符串	报告正在使用的插件版本。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'device_name'	<device name>	字符串	报告由 CUDA 报告的 GPU 设备名称。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'compute_version'	<version string>	字符串	报告 GPU 设备的 CUDA 计算能力版本。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'device_global_mem_mb'	<megabytes>	整数	报告 GPU 设备上可用的全局内存大小（单位：MB）。注意：该输出参数在两种情况下共享（作为字典项）： get_dl_device_param(..., 'info', ...) optimize_dl_model_for_inference(..., ConversionReport)
'max_workspace_size'	<bytes>	整数	配置 TensorRT^™ SDK 在优化模型（准备推理）时使用的工作区大小。默认值是根据我们对实际 GPU 设备（尤其是其内存容量）的最佳猜测选定的。我们建议保留建议的默认值，除非在优化特定型号时遇到内存不足的问题。重要：另见局限性中的相应讨论。注：可通过 optimize_dl_model_for_inference(..., GenParam, ...) 获取该输入参数（作为字典项）。
'parse_verbosity'	[0..3]	整数	配置 TensorRT^™ ONNX 解析器的冗余度。支持的值为 0（内部错误）、1（错误）、2（警告）、3（信息）。还必须使用 set_dl_device_param 算子，通过 "log_level" 参数启用相应的日志级别。注：可通过 optimize_dl_model_for_inference(..., GenParam, ...) 获取该输入参数（作为字典项）。

算子 query_available_dl_devices

要查询所有可用的 TensorRT^™ 插件兼容设备，请指定 "tensorrt" 为所需加速器接口：

参数	值	类型	描述
'ai_accelerator_interface'	'tensorrt'	字符串	以 DLDeviceHandles 的形式返回所有可用的 TensorRT^™ 插件设备。请注意，使用 TensorRT^™ 插件时，每个设备既可用于模型优化，也可用于实际推理。实际上，优化后的模型应始终在同一设备（或基于同一 GPU 模型的设备）上执行。

HDevelop 示例

以下示例说明了 TensorRT^™ 推理插件的使用（参见 HALCON 安装目录树中的 examples/hdevelop/Deep-Learning）：

optimize_dl_model_for_inference_classification.hdev - 演示使用 TensorRT^™ 插件优化用于推理的预训练分类模型。

第三方库的使用

该插件依赖于 NVIDIA^® TensorRT^™ 和 CUDA^® 以及其他第三方库。请参阅与插件包一起分发的 third_party_tensorrt.txt 文件中的完整列表，包括版权和许可信息。
以下链接也可作为获取相应许可证信息的替代方法：

发行说明

修订 21.05.2.1（2023 年 4 月 20 日）：
- 扩展了文档内容，增加了有关深度计数模型的信息。
修订 21.05.2.0（2022 年 11 月 3 日）：
- 在 Windows 下，我们现在还尝试在路径变量中解析 CUDA 和 TensorRT 库。
- 在文档中添加了支持的模型和精度表。
- 以空字典作为参数 GenParam 调用 optimize_dl_model_for_inference 会返回错误。该问题已得到修复。
- 通过 set_dl_model_param 或 optimize_dl_model_for_inference 设置 TensorRT 设备，并在不同线程中使用 apply_dl_model 时，可能会导致错误。该问题已得到修复。
修订 21.05.1.3（2022 年 5 月 6 日）：
- 文档中的某些 HTML 链接不起作用。该问题已得到修复。
修订 21.05.1.2（2022 年 3 月 24 日）：
- 如果同一设备用于不同的模型，优化模型可能会导致崩溃。该问题已得到修复。
修订 21.05.1.1（2021 年 11 月 1 日）：
- 已添加插件文档（本文档）
修订 21.05.1（2021 年 10 月 8 日）：
- 添加了对 Linux AArch64 平台的支持（针对英伟达 Jetson）
- 已升级至 TensorRT^™ 8.0
修订 21.05.0（2021 年 5 月 5 日）：
- TensorRT^™ 推理插件的初始版本
- 适用于 Linux x64 和 Windows x64 平台
- 基于 TensorRT^™ 7.2
- 与 HALCON Progress 21.05 及更高版本兼容
- 支持的模型精度： "float32"、"float16"、"int8"

关于超链接的免责声明：用户可通过本页面的超文本链接访问外部非 MVTec 网站。任何此类访问均应理解，非 MVTec 网站的内容不受 MVTec Software GmbH 的控制，MVTec Software GmbH 对此类网站不作任何陈述，用户应自行承担风险。MVTec Software GmbH 不对外部非 MVTec 网站的隐私保护措施或内容负责。

英特尔®、英特尔®徽标、OpenVINO™ 和 OpenVINO™ 徽标是英特尔®司或其子公司的商标。所有其他国家和国际公认的商标和商号均在此得到承认。

此处提及或使用的所有其他品牌名称、设计、服务标志和商标（无论是否注册）均为其各自所有者的财产。

AI 加速器接口 (AI2) – NVIDIA® TensorRT™