TAO + CUDA 异构并行编程指南

1.环境要求

本机安装NVIDIA驱动+CUDA Toolkit 11.8+/12.x，编译时加 -cuda 参数启用GPU编译。

2.GPU内核函数定义（kernel）

TAO使用 __global__ 标记GPU核函数，语法原生内置，无需分离.cu文件

// GPU并行加法核函数
__global__ fn gpu_add(a:&[f32],b:&[f32],out:&mut[f32]){
    let idx = blockIdx.x*blockDim.x + threadIdx.x;
    if idx < out.len(){
        out[idx] = a[idx]+b[idx];
    }
}

3.GPU内存分配

use std::cuda::DeviceBuf;
// 在GPU显存创建数组
let d_a = DeviceBuf::from_host(&host_array);

4.启动GPU并行计算

// 配置grid/block尺寸并调用kernel
gpu_add<<<(128,64)>>>(&d_a,&d_b,&mut d_out);

5.CPU/GPU数据同步

// GPU数据拷贝回主机内存
d_out.copy_to_host(&mut host_result);

完整示例：矩阵并行乘法、卷积算子、AI张量运算参考项目仓库examples/cuda/