转载请注明出处为KlayGE游戏引擎,本文的永久链接为http://www.klayge.org/?p=342

新的和改进的CUDA库

  • 在Fermi架构的GPU上,CUBLAS中所有类型的矩阵乘法(包括带转置的)性能提升50%至300%
  • 在Fermi架构的GPU上,CUFFT针对基数为3、5、7的转换大小做了性能优化,现在比MKL快2到10倍
  • 新增GPU加速稀疏矩阵函数的CUSPARSE库,对于稀疏/稀疏和实密/稀疏操作,比MKL快5到30倍
  • 新增GPU加速随机数生成(RNG)函数的CURAND库,支持Sobol准随机数和XORWOW伪随机数函数,比MKL中类似的函数快10到20倍
  • H.264编码/解码库现在也包含到CUDA Toolkit中了

CUDA驱动和CUDA C Runtime

  • 支持最新的6GB Quadro和Tesla
  • 对于Windows工作站上的Tesla GPU,现在也可以开启高性能Tesla计算群集(TCC)模式

开发工具

  • cuda-gdb和Parallel Nsight都支持多GPU调试
  • cuda-memcheck扩展到所有Fermi架构的GPU
  • 在64位linux上,NVCC支持Intel C编译器 (ICC) v11.1
  • 支持在显存大于4GB的GPU上调试

其他

  • 支持在CUDA C计算核中使用malloc()和free()进行内存管理
  • 新增NVIDIA System Management Interface (nvidia-smi),可以返回GPU耗用率和多个GPU性能指示器

新增的GPU Computing SDK代码示例

  • 多个代码实例演示了如何使用新的CURAND库,包括MonteCarloCURAND、EstimatePiInlineP、EstimatePiInlineQ、EstimatePiP、EstimatePiQ、SingleAsianOptionP和randomFog
  • Conjugate Gradient Solver,演示了如何在同一个程序中使用CUBLAS和CUSPARSE
  • Function Pointers演示了用函数指针来实现8位单色图的Sobel边缘检测滤镜
  • Interval Computing演示了用C++模板和递归来实现区间运算操作
  • Simple Printf演示了在计算核中使用printf和cuprintf的最佳方法
  • Bilateral Filter,用CUDA C和OpenGL渲染实现的一个保边缘的非线性平滑滤镜,可以用于图像恢复和降噪
  • SLI with Direct3D Texture演示了SLI的使用方法,以及Direct3D与CUDA C之间的交互
  • cudaEncode演示了如何使用NVIDIA H.264编码库来压缩 YUV帧
  • Vflocking Direct3D/CUDA, which simulates and visualizes the flocking behavior of birds in flight
  • simpleSurfaceWrite, demonstrating how CUDA kernels can write to 2D surfaces on Fermi GPUs

下载请见http://developer.nvidia.com/object/cuda_3_2_downloads.html