随着Deferred Rendering的普及,许多人开始研究靠post process完成的anti-alias。从STAKLER的Edge AA,到AMD的Directionally Adaptive Edge AA,到Jimenez's MLAA,到I3D 2011上不是纯post process的SRAA,一路都在谱写着post process anti-alias的新篇章。
最近又有两个新的Post process anti-alias出现:NVIDIA的FXAA和Humus大牛的GPAA。这几乎在预示着,anti-alias已经进入了post process的时代。硬件MSAA虽然方便,但由于需要在所有三角形的边缘都作,实属浪费。
NVIDIA的FXAA实际上可以看成是NV实现的GPU MLAA。它将出现在NV SDK 11中。基本性能是1280x720的分辨率下,在NVS 160M上花3.5ms,在Xbox 360上小于2ms。Jimenez's MLAA ...
上周的帖子刚提到NVIDIA宣布了CUDA 4,昨天就收到NV的邮件说CUDA 4.0 RC可以下载了。developer注册用户可以从http://developer.nvidia.com/object/cuda_4_0_RC_downloads.html找到。
本来不打算说什么,碰巧在某网站看到了一篇所谓的“新特性解析”,典型的一个不懂技术的小编装懂地写软文。所以我不得不在这里拨乱反正,以免国内读者受其误导。
CUDA 4.0的更新主要集中在三方面
简化并行程序的移植
加速多GPU编程
更好的工具链支持
简化并行程序移植
在CUDA(其实还有AMD的stream)出来之前,并行程序移植GPU只能直接用shader,限制诸多,代码不灵活,基本算重写,而不是移植。有了CUDA之后,情况有所好转。在CUDA 4.0下, ...
GDC 2011上GPU Pro 2正式开卖,于是乎备受关注的Jimenez's MLAA也揭开了面纱。在他的网站上不但公开了摘要、截图、视频,甚至还有可执行demo和源代码!
以下是转自http://www.iryoku.com/mlaa/的一些下载:
Precompiled DX10 Demo [14.3 MB]
Additional images [72.1 MB]
HD Movie [164 MB]
Source code
Changelog
1.4 (March 5, 2011): DX9 version, improved pattern blending, better area textures, enhanced the MLAA class interface (now it allows to specify external storage, just in case you have spare render targets) and various minor fixes.
1.3 (February 28, 2011): initial release.
Download
DX9 sou ...
Today NVIDIA announced the upcoming 4.0 release of CUDA. While most of the major CUDA releases accompanied a new GPU architecture, 4.0 is a software-only release, but that doesn’t mean there aren’t a lot of new features. With this release, NVIDIA is aiming to lower the barrier to entry to parallel programming on GPUs, with new features including easier multi-GPU programming, a unified virtual memory address space, the powerful Thrust C++ template library, and automatic performance analysis in the Visual Profiler tool. Full details follow in the quoted press release below.
SANTA CLARA, ...
在今年的I3D上将有一篇名为“Subpixel Reconstruction Antialiasing”的论文,在NVIDIA的网站上找到的简介如下:
Subpixel Reconstruction Antialiasing (SRAA) combines single-pixel (1x) shading with subpixel visibility to create antialiased images without increasing the shading cost. SRAA targets deferred-shading renderers, which cannot use multisample antialiasing. SRAA operates as a post-process on a rendered image with superresolution depth and normal buffers, so it can be incorporated into an existing renderer without modifying the shaders. In this way SRAA resembles Morphological Antialiasing ( ...
NVIDIA的Parallel Nsight 1.51发布了,而且Professional版本也是免费的,不用license。但是,单机调试仍然泥马要求有2个GPU...啥时候能把这个改了就好了。
下载地址在http://developer.nvidia.com/object/nsight.html
在以前的一个帖子里,我还期待NV SDK 11早日到来。结果1月份快过去了,11没到,NV却偷偷摸摸地发布了NV SDK 10.6。更新如下:
An improved version of Instanced Tessellation. This sample implements 3 major schemes for Approximating Catmull-Clark Subdivision Surfaces using instanced tessellation in both DX9 and DX10. In the sample, these three schemes are also compared in terms of their visual quality and performance.
Bug fix for StencilRoutedKBuffer: the previous version would create a DX 10.1 device, resulting in corruption errors. A modification to DXUTCore prevents the DX 10.1 device from bei ...
在有些设备上只有float没有double,比如前几代GPU、部分移动设备等。当非得用到double精度的时候该怎么办?
我记得去年在某个地方见到过用2个float模拟double的作法,经过一番玩命地搜索,得来全不费功夫,就在CUDA SDK的Mandelbrot例子里找到了2个float模拟double乘法的函数。甚至,GTX280上的double也是类似的方法模拟出来的,所以慢的惊人,只有float八分之一的速度。(EDIT: Mandelbrot在GTX480上,float和double都可以到60-70 fps,模拟的话只有20-30 fps,Fermi的double速度上去了)
先show一下模拟乘法的函数dsmul:
// This function multiplies DS numbers A and B to yield the DS product C.
__device__ inline void dsmu ...
前几天,Intel放出了众多渲染的文章和代码,主要是为了表现Sandy Bridge的能力,包括Cloth,Onloaded shadow map,crowd simulation,smoke,Adaptive Volumetric Shadow Maps,volumetric fluid simulation等,还有原先放出来过的Deferred Rendering。AVX指令集挺好,极大地扩展了SSE的能力,有机会我会在Softart里面试试看。
但是在那些demo之中,我还发现了一个极其惨不忍睹的海洋渲染,链接在http://software.intel.com/en-us/articles/ocean-fog-demo-page/,想挑战自己生理极限的可以下载一个运行看看。只要继承显卡就能跑...在这里我就贴一张截图罢了。连续动画其实更明显,可以看到他的悲催网格分布:
artifact众多,水面 ...
来自http://news.mydrivers.com/1/183/183598.htm
AMD今天终于在CES 2011开幕之际正式发布了筹备多年的Fusion APU融合加速处理器,也宣告了融合时代的正式带来。
AMD Fusion APU分为两大系列,现在面世的是基于山猫(Bobcat)处理器架构、DX11 GPU图形核心的低功耗版本,最多两个处理器核心,采用台积电40nm工艺制造。AMD称,山猫是其2003年以来的首个全新x86内核,专为低功耗便携 式设备而设计。
AMD Fusion APU首套平台代号“Brazos”,又称“2011低功耗平台”,芯片组统一采用单芯片设计的Hudson-M1,处理器包括两个子系列:
- Zatcate E系列:E-350 1.6GHz双核心、E-240 1.5GHz单核心,热设计功耗18W,面向主流笔记本、一体机、小型台式 ...