本文是深度学习模型部署框架的第一篇,更多部署框架可以查看本专栏的其他文章。
概念:onnx一种开源模型格式,专注于推理所需的能力。同时,它还是一个中间深度学习框架,用于连接不同深度学习框架之间的转换。
优势:跨平台兼容性好;性能优化;支持多种框架。
坑点:onnx只是一个格式,就和json一样,只要满足规则,就是合法的。因此单纯从pytorch转成onnx格式很简单,但是不同后端框架接受的onnx是不一样的。比如pytorch自带的torch.onnx.export转换得到的onnx,onnxruntime 需要的onnx,TensorRT需要的onnx都是不同的,因此这才是坑的来源。
# pt->onnx
# 示例数据
dummy_input = torch.randn(1,1, 16000*5) # 只有第三个维度可能会变化,前两个都不会变
# 导出模型为 ONNX 格式
torch.onnx.export(
model, # PyTorch 模型
dummy_input, # 示例输入
"denoiser_model_12_3_3_dongtai_5s.onnx", # ONNX 文件的保存路径
input_names=['input'], # 输入层的名字
output_names=['output'], # 输出层的名字
dynamic_axes={
'input': {2: 'audio_length'}, # 设置动态维度,如果输入是三维的,那就是第三个维度是动态的,否则是第二个维度是动态的
'output': {2: 'audio_length'}
}, # 可选,设置哪些维度是动态的
opset_version=12 # ONNX opset 版本,建议使用 11 或更高
)
# tf->onnx
python -m tf2onnx.convert
--saved-model SOURCE_SAVED_MODEL_PATH |
--checkpoint SOURCE_CHECKPOINT_METAFILE_PATH |
--tflite TFLITE_MODEL_PATH |
--tfjs TFJS_MODEL_PATH |
--input | --graphdef SOURCE_GRAPHDEF_PB
--output TARGET_ONNX_MODEL
from onnxruntime.quantization import QuantType, quantize_dynamic
# 模型路径
model_fp32 = 'models/denoiser.onnx'
model_quant_dynamic = 'models/denoiser_quant_dynamic.onnx'
# 动态量化
quantize_dynamic(
model_input=model_fp32, # 输入模型
model_output=model_quant_dynamic, # 输出模型
weight_type=QuantType.QUInt8, # 参数类型 Int8 / UInt8
optimize_model=True # 是否优化模型
)
其实就是使用onnx-simplifier简化模型,例如 Conv+BatchNorm 融合。
pip install onnx-simplifier
python -m onnxsim model.onnx model_optimized.onnx
ONNX Runtime 支持多种硬件加速器,如 CUDA 加速。
import onnxruntime as ort
# 加载模型
sess_options = ort.SessionOptions()
sess = ort.InferenceSession("model_quantized.onnx", sess_options, providers=['CUDAExecutionProvider', 'CPUExecutionProvider'])
ONNX Runtime 支持多线程执行,可以通过设置环境变量或通过 API 设置线程数来控制。
sess_options.intra_op_num_threads = 4 # 设置线程数量
sess = ort.InferenceSession("model_quantized.onnx", sess_options)
import onnxruntime as rt
import onnx
import numpy as np
import time
ONNX_Model_Path = 'path_to_onnx_model'
img = np.ones((1, 3, 0, 0)).astype(np.float32)
# 加载模型,传入模型路径
model = onnx.load_model(ONNX_Model_Path)
# 创建一个SessionOptions对象
rtconfig = rt.SessionOptions()
# 设置CPU线程数为4
cpu_num_thread = 4
# 设置执行模式为ORT_SEQUENTIAL(即顺序执行)
rtconfig.intra_op_num_threads = cpu_num_thread
rtconfig.execution_mode = rt.ExecutionMode.ORT_SEQUENTIAL
# 设置使用的ExecutionProvider为CPUExecutionProvider
providers = ['CPUExecutionProvider']
# 创建一个InferenceSession对象
sess = rt.InferenceSession(model.SerializeToString(), providers=providers, sess_options=rtconfig)
# 模型的输入和输出节点名,可以通过netron查看
input_name = 'audio'
outputs_name = ['output']
# 模型推理:模型输出节点名,模型输入节点名,输入数据
net_outs = sess.run(outputs_name, {input_name: img})
result = np.array(net_outs)
本文介绍了onnxruntime的在应用方面的一些经验总结,更多内容参阅文档。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- how234.cn 版权所有 赣ICP备2023008801号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务