Lesson 2:
1.__syncthreads();
2.速度:local > share >> global >> host
3.coalesce,尽量读相近的memory,也即读写数组不要跳
4.赋值运算一定要小心,如a[i]=a[i]+1; read modified write
这时可用atomic运算,但是没有mod运算,且slow (如何自己改写???)
5.avoid thread diverge (why???)
if...else...
for
6.如何设置grid & block???
时间: 2024-10-01 09:48:38