对齐规则

本节内容介绍使用BPU的对齐限制规则。

模型输入要求

BPU不限制模型输入大小或者奇偶。既像YOLO这种416x416的输入可以支持，对于像SqueezeNet这种227x227的输入也可以支持。对于NV12输入比较特别，要求HW都是偶数，是为了满足UV是Y的一半的要求。

对齐和有效数据

BPU对数据有对齐限制。有效数据排布和对齐数据排布用 hbDNNTensorProperties 中的 validShape 和 stride 表示。

validShape 是有效数据的shape。
stride 表示 validShape 各维度的步长，描述跨越张量各个维度所需要经过的字节数。需要注意，NV12或Y类型输入的模型比较特殊，这些类型的输入只要求W方向满足固定的对齐约束即可，其获取到的 stride 均为-1，详细规则可参考动态输入介绍章节的描述。

模型输入输出张量可以通过 validShape 和 stride 获取正确的数据排布，比如获取到的模型某输入属性 hbDNNDataType = HB_DNN_TENSOR_TYPE_U16 ， validShape = [1, 3, 212, 212] ， stride = [301056, 100352, 448, 2] ，这里表示模型有效输入的大小为 1x3x212x212 。

stride[3] = 2 ，表示每个元素 16bit 大小。
stride[2] = 448 = 2 * 224 ，表示 index=3 的维度按照 224 对齐，因此 index=3 的维度步长为 448 。
stride[1] = 100352 = 448 * 224， ，表示 index=2 的维度也按照 224 对齐，因此 index=2 的维度步长为 100352 。
stride[0] = 301056 = 100352 * 3 ，表示 index=1 的维度按照 3 对齐，和有效尺寸一致，因此 index=1 的维度步长为 301056 。

在后续场景使用时，考虑到对齐要求，当 alignedByteSize > 0 时，建议按照 alignedByteSize 大小来申请内存空间。

您可以使用以下方式判断是否需要对模型的输入进行对齐，若公式不成立，您则需要额外对输入数据进行对齐操作。

$\prod_{i=1}^{n-1}validShape.dimensionSize[i] == stride[0]$ ，其中 n=validShape.numDimensions。

模型输入输出内存要求

BPU对模型输入输出内存首地址有对齐限制，要求输入与输出内存的首地址 32 或者 64 对齐，对应不同的计算平台。

注解

使用 hbUCPMalloc 与 hbUCPMallocCached 接口申请的内存首地址默认 64 对齐。
当您申请一块内存，并使用偏移地址作为模型的输入或输出时，请检查偏移后的首地址是否满足对齐要求。

页面目录

PTQ转换工具

hb_compile工具

PTQ转换步骤

PTQ转换示例

常见问题及故障处理

附录

开发指南

深入探索

API参考

QAT

模型导出

Horizon算子

常见问题及常见故障

模型推理开发

模型推理API手册

数据结构

功能接口

模型推理工具介绍

hrt_model_exec工具介绍

hbm_infer工具介绍

UCP通用API介绍

数据结构

功能接口

UCP性能分析工具

常见问题及错误码

模型部署原理及流程

模型部署实践指导实例

HMCT API Reference

工具链算子支持约束列表

算子支持列表

算子BPU约束列表

社区优质文章

对齐规则

模型输入要求

对齐和有效数据

模型输入输出内存要求

hb_compile工具

QAT

模型导出

Horizon算子

模型推理API手册

数据结构

功能接口

模型推理工具介绍

hrt_model_exec工具介绍

hbm_infer工具介绍

数据结构

功能接口

算子支持列表

算子BPU约束列表

#对齐规则

#模型输入要求

#对齐和有效数据

#模型输入输出内存要求

对齐规则

模型输入要求

对齐和有效数据

模型输入输出内存要求