转载请注明出处为KlayGE游戏引擎,本文的永久链接为http://www.klayge.org/?p=342
新的和改进的CUDA库
- 在Fermi架构的GPU上,CUBLAS中所有类型的矩阵乘法(包括带转置的)性能提升50%至300%
- 在Fermi架构的GPU上,CUFFT针对基数为3、5、7的转换大小做了性能优化,现在比MKL快2到10倍
- 新增GPU加速稀疏矩阵函数的CUSPARSE库,对于稀疏/稀疏和实密/稀疏操作,比MKL快5到30倍
- 新增GPU加速随机数生成(RNG)函数的CURAND库,支持Sobol准随机数和XORWOW伪随机数函数,比MKL中类似的函数快10到20倍
- H.264编码/解码库现在也包含到CUDA Toolkit中了
CUDA驱动和CUDA C Runtime
- 支持最新的6GB Quadro和Tesla
- 对于Windows工作站上的Tesla GPU,现在也可以开启高性能Tesla计算群集(TCC)模式
开发工具
- cuda-gdb和Parallel Nsight都支持多GPU调试
- cuda-memcheck扩展到所有Fermi架构的GPU
- 在64位linux上,NVCC支持Intel C编译器 (ICC) v11.1
- 支持在显存大于4GB的GPU上调试
其他
- 支持在CUDA C计算核中使用malloc()和free()进行内存管理
- 新增NVIDIA System Management Interface (nvidia-smi),可以返回GPU耗用率和多个GPU性能指示器
新增的GPU Computing SDK代码示例
- 多个代码实例演示了如何使用新的CURAND库,包括MonteCarloCURAND、EstimatePiInlineP、EstimatePiInlineQ、EstimatePiP、EstimatePiQ、SingleAsianOptionP和randomFog
- Conjugate Gradient Solver,演示了如何在同一个程序中使用CUBLAS和CUSPARSE
- Function Pointers演示了用函数指针来实现8位单色图的Sobel边缘检测滤镜
- Interval Computing演示了用C++模板和递归来实现区间运算操作
- Simple Printf演示了在计算核中使用printf和cuprintf的最佳方法
- Bilateral Filter,用CUDA C和OpenGL渲染实现的一个保边缘的非线性平滑滤镜,可以用于图像恢复和降噪
- SLI with Direct3D Texture演示了SLI的使用方法,以及Direct3D与CUDA C之间的交互
- cudaEncode演示了如何使用NVIDIA H.264编码库来压缩 YUV帧
- Vflocking Direct3D/CUDA, which simulates and visualizes the flocking behavior of birds in flight
- simpleSurfaceWrite, demonstrating how CUDA kernels can write to 2D surfaces on Fermi GPUs
下载请见http://developer.nvidia.com/object/cuda_3_2_downloads.html
Comments