读书笔记_科学计算与企业级应用的并行优化
来源:互联网 发布:java金融系统开发实例 编辑:程序博客网 时间:2024/06/06 03:28
【科学计算与企业级应用的并行优化】
1、并行:指令并行、数据并行和线程并行;
2、一级缓存单核心独享,二级缓存多核心共享;
3、一个内核访问数据时,另一个内核进行计算,提高了设备的利用率;
4、CUDA编程中warp对齐;
5、全局存储器合并访问;
6、减少全局存储器的操作,使用局部存储器代替;
7、常量存储器/纹理存储器:const __restrist__指针;
8、减少非合并访问的影响,存储方式的优化:__constant__、const __restrist__关键字;
9、AVX向量指令集:__m256、__m128前缀;
10、线程同步:__syncthreads()
11、NEON指令集;
12、合理安排指令顺序,更好地使用预取技术;
13、CUDA:__shared__、__global__、__constant__、...
14、动态负载均衡,OpenMP;
15、存储器合并访问;
16、<<<、>>>是什么操作?:cuda核函数运行参数;
17、反汇编看优化代码;
18、Caffe卷积软件;
1、并行:指令并行、数据并行和线程并行;
2、一级缓存单核心独享,二级缓存多核心共享;
3、一个内核访问数据时,另一个内核进行计算,提高了设备的利用率;
4、CUDA编程中warp对齐;
5、全局存储器合并访问;
6、减少全局存储器的操作,使用局部存储器代替;
7、常量存储器/纹理存储器:const __restrist__指针;
8、减少非合并访问的影响,存储方式的优化:__constant__、const __restrist__关键字;
9、AVX向量指令集:__m256、__m128前缀;
10、线程同步:__syncthreads()
11、NEON指令集;
12、合理安排指令顺序,更好地使用预取技术;
13、CUDA:__shared__、__global__、__constant__、...
14、动态负载均衡,OpenMP;
15、存储器合并访问;
16、<<<、>>>是什么操作?:cuda核函数运行参数;
17、反汇编看优化代码;
18、Caffe卷积软件;
0 0
- 读书笔记_科学计算与企业级应用的并行优化
- 并行计算种类---读书笔记
- 云计算与并行计算的关系
- 并行计算与分布式计算的区别
- MATLAB科学计算应用
- 科学计算应用随想
- 【走近CUDA】_并行计算与CUDA简介
- Python学习_科学计算
- 程序的并发与并行(读书笔记)
- 算法与数据结构:计算的科学
- 企业级的业务系统与互联网应用
- 世界是并行的:并行计算的机遇与挑战
- 信息与计算科学
- 信息与计算科学
- 并行计算,网格计算与分布式计算的…
- Linux集群的安装与并行计算
- Linux集群的安装与并行计算
- Linux集群的安装与并行计算
- C++作业5
- I/O端口和I/O内存
- iOS开发实战——CollectionView点击事件与键盘隐藏结合案例(二)
- Spring之IOC与DI的不同
- poj1742翻译
- 读书笔记_科学计算与企业级应用的并行优化
- 190_ViewPager动画
- Retrofit 泛型解析遇到com.google.gson.internal.LinkedTreeMap cannot be cast to object
- 李敖语录
- android中的像素单位dp、px、pt、sp
- 算法设计 -- 初步感想
- java的注释以及编码规范
- 使用服务注册广播接收者
- c++作业7