张云泉----处理器芯片全国重点实验室

研究员/正高级工程师

张云泉

职称: 研究员
研究方向:
高性能计算
导师类别: 博士生导师
电子邮件: zyq@ict.ac.cn

简历

张云泉，博士，中科院计算所研究员，博士生导师，并行软件实验室主任。中国计算机学会高性能计算专业委员会秘书长，中国智能计算产业联盟执行理事长，ACM中国高性能计算专家委员会主席，中国软件行业协会常务理事。主要研究方向为大数据并行处理、并行计算模型、高性能数学库、大规模并行软件等，已在国内外学术刊物上发表论文二百余篇，包括PPoPP（国内首次连续两年在PPoPP上发表学术论文）、SC（团队论文数量国内第一）等CCF A类会议和Proceeding of the IEEE、TPDS等A类期刊，出版专著两部，译著七部。获2021年ACM戈登贝尔奖提名，2000年和2019年国家科技进步奖二等奖各一项，2017年首届CCF青竹奖获得者，2017年中科院科教成果一等奖，2017年中科院杰出科学与技术成就奖，2017年度国际艾奇奖，2016年中国计算机学会科学技术二等奖，2000年中科院院长奖学金优秀奖，1998年获中科院科技进步二等奖。主持国家自然科学基金重点项目，获得中科院软件所首批杰出青年人才专项计划支持。中国高性能计算机TOP100排行榜创始人和发布者，PAC，CPC和ACM中国IPCC大赛创始人。一百多次担任国际会议程序委员会委员和共同主席。一级学报《数值计算与计算机应用》编委，《数据与计算发展前沿》副主编，中国计算机学会会刊《中国图象图形学报》、《计算机科学》、《计算机工程与科学》和《计算机科学与探索》编委。中办信创专家委成员，光明日报科普专家委员会委员，国家基因库高级顾问，青海省大数据与云计算咨询专家委员会委员，贵州省农业大数据专家委会会委员，内蒙古环球智库大数据发展中心专家委员会委员，郑州市智慧城市专家委员会委员，吕粱市大数据专家咨询委员会委员和政府转型专家顾问，江西抚州市算力专家咨询委员会执行主任。九三学社中央科技专委委员，中央科普工委委员，中央促进技术创新工作委员会委员。曾任国家超算济南中心主任、中国计算机学会常务理事、国家自然科学基金委第十四届信息科学部专家评审组成员、中国计算机学会YOCSEF学术委员会主席(2010.5-2011.5)。
1995年毕业于北京理工大学，获工学学士学位，2000年中国科学院软件研究所计算机软件与理论专业硕博连读，获工学博士学位。谷歌引用1500次，H-Index指数19。IEEE TC、ACM TACO、IEEE TPDS、JPDC、Parallel Computing、Concurrency and Computation Practice and Experience和SCIENCE CHINA等著名国际期刊审稿人，ICPADS’08、ICS’10、EuroPar’11、FGC’11、IPDPS’11、CGC’11、SC’11、ICPADS’12、CCGrid’12、EuroPar’12、FGC’12、IPDPS’13、CGO’13、CCGrid’14和IPDPS’14等50多次国际会议程序委员会委员, IEEE CSE 2010、IEEE HPCC 2013、FCST2015，NPC2015和HPC China 2016等程序委员会共同主席, ISC 2011 HPC in Asia Workshop共同主席， ISC’12 Steering Committee Member，ScalCom 2015大会共同主席。

获奖及荣誉：

获得2017年中国科学院杰出科技成就奖一项，2017年中国科学院教育教学成果奖一等奖一项（排名第二），2017年首届CCF青竹奖，2016年中国计算机学会CCF科学技术二等奖（排名第一）一项，2016年华为优秀合作成果奖一项，2000年国家科技进步奖二等奖以及1998年中国科学院科技进步奖二等奖各一项，2000年中国科学院院长奖学金优秀奖一项。获得中科院软件所首批杰出青年人才专项计划支持。连读六年（2004年度到2009年度）获中国软件行业协会全国先进个人。

代表论著：

1. Honghui Shang, Xin Chen, Xingyu Gao, Rongfen Lin, Lifang Wang, Fang Li, Qian Xiao, Lei Xu, Qiang Sun, Leilei Zhu, Fei Wang, Yunquan Zhang, and Haifeng Song. TensorKMC: Kinetic Monte Carlo Simulation of 50 Trillion Atoms Driven by Deep Learning on a New Generation of Sunway Supercomputer. SC 2021.(CCF A)
2. Honghui Shang, Fang Li, Yunquan Zhang, Ying Liu, Libo Zhang, Mingchuan Wu, Yangjun Wu, Di Wei, Huimin Cui, Xin Liu, Fei Wang, Yuxi Ye, Yingxiang Gao, Shuang Ni, Xin Chen, and Dexun Chen. Accelerating all-electron ab initio simulation of raman spectra for biological systems. SC 2021.(CCF A)
3. Honghui Shang, Fang Li, Yunquan Zhang, Libo Zhang, You Fu, Yingxiang Gao, Yangjun Wu, Xiaohui Duan, Rongfen Lin, Xin Liu, Ying Liu, and Dexun Chen. Extreme-scale ab initio quantum raman spectra simulations on the leadership HPC system in China. SC 2021.(CCF A)
4. Liang Yuan, Hang Cao, Yunquan Zhang, Kun Li, Pengqi Lu, Yue Yue. Temporal Vectorization for Stencils. SC 2021.(CCF A)
5. Kun Li, Liang Yuan, Yunquan Zhang, Yue Yue. Reducing Redundancy in Data Organization and Arithmetic Calculation for Stencil Computations. SC 2021. (CCF A)
6. Kun Li, Liang Yuan, Yunquan Zhang, Gongwei Chen. An Accurate and Efficient Large-scale Regression Method through Best Friend Clustering. TPDS. Accepted. (CCF A)
7. Mingchuan Wu, Yangjun Wu, Honghui Shang, Ying Liu, Huimin Cui, Fang Li, Xiaohui Duan, Yunquan Zhang, and Xiaobing Feng. Scaling Poisson Solvers on Many Cores via MMEwald. IEEE TPDS 2021.(CCF A)
8. Kun Li, Liang Yuan, Yunquan Zhang, Yue Yue, Hang Ca. An Efficient Vectorization Scheme for Stencil Computation. IPDPS 2022.(CCF B)
9. Zhihao Li, Haipeng Jia, Yunquan Zhang, Tun Chen, Liang Yuan, Luning Cao, and Xiao Wang. Automatic Generation of High-Performance FFT Kernels on Arm and x86 CPUs. IEEE TPDS 2020. (CCF A)
10. Hang Cao, Liang Yuan, He Zhang, Baodong Wu, Shigang Li, Pengqi Lu, Yunquan Zhang, Yongjun Xu, and Minghua Zhang. A Highly Efficient Dynamical Core of Atmospheric General Circulation Model based on Leap-Format. IPDPS 2020 (CCF B)
11. Honghui Shang, Lei Xu, Baodong Wu, Xinming Qin, Yunquan Zhang, Jinlong Yang. The dynamic parallel distribution algorithm for hybrid density-functional calculations in HONPAS package. Comput. Phys. Commun. 2020 (SCI，IF 3.9)
12. Kun Li，Shigang Li，Shan Huang, Yifeng Chen, Yunquan Zhang, FastNBL: fast neighbor lists establishment for molecular dynamics simulation based on bitwise operations. J. Supercomput. 76(7): 5501-5520 (2020) （SCI）
13. Daning Cheng, Shigang Li，Yunquan Zhang，WP-SGD: Weighted parallel SGD for distributed unbalanced-workload training system. J. Parallel Distributed Comput. 145: 202-216 (2020)。（SCI IF 2.296）
14. Xinming Qin, Honghui Shang, Lei Xu, Wei Hu, Jinlong Yang, Shigang Li, Yunquan Zhang. The static parallel distribution algorithms for hybrid density-functional calculations in HONPAS package. Int. J. High Perform. Comput. Appl. 34(2) 2020. (SCI，IF 2.3)
15. Zhihao Li, Haipeng Jia, Yunquan Zhang, Tun Chen, Liang Yuan, Luning Cao, and Xiao Wang. Auto t: A template-based t codes auto-generation framework for arm and x86 cpus. In Proceedings of the International Confer- ence for High Performance Computing, Networking, Storage and Analysis, SC ’19, pages 25:1–25:15, New York, NY, USA, 2019. ACM.
16. Kun Li, Honghui Shang, Yunquan Zhang, Shigang Li, Baodong Wu, Dong Wang, Libo Zhang, Fang Li, Dexun Chen, and Zhiqiang Wei. Openkmc: A kmc design for hundred-billion-atom simulation using millions of cores on sunway taihulight. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC ’19, pages 68:1–68:16, New York, NY, USA, 2019. ACM.
17. Liang Yuan, Chen Ding, Wesley Smith, Peter Denning, and Yunquan Zhang. A relational theory of locality. ACM Trans. Archit. Code Optim., 16(3):33:1– 33:26, August 2019.
18. Liang Yuan, Shan Huang, Yunquan Zhang, and Hang Cao. Tessellating star stencils. In Proceedings of the 48th International Conference on Parallel Processing, ICPP 2019, pages 43:1–43:10, New York, NY, USA, 2019. ACM.
19. Zhihao Li, Haipeng Jia, Yunquan Zhang, Shice Liu, Shigang Li, Xiao Wang, and Hao Zhang. E cient parallel optimizations of a high-performance sift on gpus. Journal of Parallel and Distributed Computing, 124:78 – 91, 2019.
20. Kun Li, Shigang Li, Shan Huang, et al. FastNBL: fast neighbor lists establishment for molecular dynamics simulation based on bitwise operations[J]. The Journal of Supercomputing, 2019: 1-20.
21. Xinming Qin, Honghui Shang, Lei Xu, Wei Hu, Jinlong Yang, Shigang Li and Yunquan Zhang，The static parallel distribution algorithms for hybrid density-functional calculations in HONPAS package， Int. J. High Perform. Comput. （2019）
22. S. Li, Y. Zhang, and T. Hoefler. Cache-oblivious mpi all-to-all communications based on morton order. IEEE TPDS, 29(3):542–555, March 2018.(CCF A)
23. Zhihao Li, Haipeng Jia, Yunquan Zhang, Shice Liu, Shigang Li, Xiao Wang, and Hao Zhang. Efficient parallel optimizations of a high-performance sift on gpus. JPDC, (CCF B)
24. Shigang Li, Baodong Wu, Yunquan Zhang, Xianmeng Wang, Jianjiang Li, Changjun Hu, Jue Wang, Yangde Feng, and Ningming Nie. Massively scaling the metal microscopic damage simulation on sunway taihulight supercomputer, ICPP 2018, (CCF B)
25. Junmin Xiao, Shigang Li, Baodong Wu, He Zhang, Kun Li, Erlin Yao, Yunquan Zhang, and Guangming Tan. Communication-avoiding for dynamical core of atmospheric general circulation model., ICPP 2018 (CCF B)
26. Y. Zhang and T. Cao and S. Li and X. Tian and L. Yuan and H. Jia and A. V. Vasilakos. Parallel Processing Systems for Big Data: A Survey. Proceedings of the IEEE. 2016,PP(99):1-23
27. Yunquan Zhang, Shigang Li, Shengen Yan, Huiyang Zhou: A Cross-Platform SpMV Framework on Many-Core Architectures. TACO 13(4): 33:1-33:25 (2016)
28. Wang, Qian and Zhang, Xianyi and Zhang, Yunquan and Yi, Qing. AUGEM: Automatically Generate High Performance Dense Linear Algebra Kernels on x86 CPUs. Proceedings of SC13: International Conference for High Performance Computing, Networking, Storage and Analysis. 2013,1—12
29. Liang Yuan, Yunquan Zhang, Peng Guo, Shan Huang，Tessellating Stencils，SC 2017, Colorado Convention Center，November 12-17, 2017.
30. Yan, Shengen and Li, Chao and Zhang, Yunquan and Zhou, Huiyang. yaSpMV: Yet Another SpMV Framework on GPUs. Proceedings of the 19th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. 2014,107-118
31. Yan, Shengen and Long, Guoping and Zhang, Yunquan. StreamScan: Fast Scan Algorithms for GPUs Without Global Barrier Synchronization. Proceedings of the 18th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. 2013,229--238
32. Shigang Li and Yunquan Zhang and Torsten Hoefler. Cache-Oblivious MPI All-to-All Communications on Many-Core Architectures. PPoPP’17(poster). 2016,
33. Lama, Palden and Li, Yan and Aji, Ashwin M. and Balaji, Pavan and Dinan, James and Xiao, Shucai and Zhang, Yunquan and Feng, Wu-chun and Thakur, Rajeev and Zhou, Xiaobo. pVOCL: Power-Aware Dynamic Placement and Migration in Virtualized GPU Environments. Distributed Computing Systems (ICDCS), 2013 IEEE 33rd International Conference on. 2013,145-154
34. Xiangzheng Sun, Yunquan Zhang, Ting Wang, Xianyi Zhang, Liang Yuan, Li Rao: Optimizing SpMV for Diagonal Sparse Matrices on GPU. ICPP 2011: 492-501.
35. Liang Yuan, Chen Ding, Daniel tefankovic, Yunquan Zhang: Modeling the Locality in Graph Traversals. ICPP 2012: 138-147
36. Mengran Fan, Haipeng Jia, Yunquan Zhang, Xiaojing An, Ting Cao:Optimizing Image Sharpening Algorithm on GPU. ICPP 2015: 230-239.
37. Baodong Wu, Shigang Li, Yunquan Zhang, Ningming Nie: Hybrid-optimization strategy for the communication of large-scale Kinetic Monte Carlo simulation. Computer Physics Communications 211: 113-123 (2017)
38. Shigang Li, Changjun Hu, Junchao Zhang, Yunquan Zhang:Automatic tuning of sparse matrix-vector multiplication on multicore clusters. SCIENCE CHINA Information Sciences 58(9): 1-14 (2015).
39. Yan Li, Yunquan Zhang, Haipeng Jia, Guoping Long, Ke Wang: Automatic FFT Performance Tuning on OpenCL GPUs. ICPADS 2011: 228-235.
40. Xiangzheng Sun, Yunquan Zhang, Ting Wang, Guoping Long, Xianyi Zhang, Yan Li: CRSD: Application Specific Auto-tuning of SpMV for Diagonal Sparse Matrices. Euro-Par (2) 2011: 316-327.
41. Xianyi Zhang, Qian Wang, Yunquan Zhang, Model-driven Level 3 BLAS Performance Optimization on Loongson 3A Processor, ICPADS 2012, Singapore.
42. Liang Yuan, Yunquan Zhang: A Locality-based Performance Model for Load-and-Compute Style Computation. CLUSTER 2012: 566-571
43. Haipeng Jia, Yunquan Zhang, Guoping Long, Jianliang Xu, Shengen Yan, Yan Li: GPURoofline: A Model for Guiding Performance Optimizations on GPUs. Euro-Par 2012: 920-932
44. Zhang, Yunquan. Perspectives of China's HPC system development: a view from the 2009 China HPC TOP100 list. Frontiers of Computer Science in China. 2010,4(4):437--444
45. Zhang, Yunquan and Chen, Guoliang and Sun, Guangzhong and Miao, Qiankun. Models of parallel computation: a survey and classification. Frontiers of Computer Science in China. 2007,1(2):156--165
46. Zhang, Yun-Quan. DRAM(h): A parallel computation model for high performance numerical computing. Chinese Journal of Computers. 2003,26(12):1660--1670
47. Zhang, Yun-Quan. Memory Complexity Analysis on Numerical Programs. Chinese Journal of Computers. 2000,23(4):363–373
48. Tao Luo and Yin Liao and Guoliang Chen and Yunquan Zhang. P-DOT: a model of computation for big data. International Journal of Parallel, Emergent and Distributed Systems. 2016,31(3):233-253
49. Liu, Yiqun and Li, Yan and Zhang, Yunquan and Zhang, Xianyi. Memory Efficient Two-Pass 3D FFT Algorithm for Intel Xeon PhiTM Coprocessor. Journal of Computer Science and Technology. 2014,29(6):989-1002
50. Li, Yan and Zhang, Yunquan and Liu, Yiqun and Long, Guoping and Jia, Haipeng. MPFFT: An Auto-Tuning FFT Library for OpenCL GPUs. Journal of Computer Science and Technology. 2013,28(1):90-105
51. Chen, Guoliang and Sun, Guangzhong and Zhang, Yunquan and Mo, Zeyao. Study on parallel computing. Journal of Computer Science and Technology. 2006,21(5):665-673
52. Li, ShiGang and Hu, ChangJun and Zhang, JunChao and Zhang, YunQuan. Automatic tuning of sparse matrix-vector multiplication on multicore clusters. Science China Information Sciences. 2015,58(9):1-14
53. Di Zhang, Yunquan Zhang，and Jing Chen, Efficient Construction of FM-index Using Overlapping Block Processing for Large Scale Texts, Advances in Information Retrieval, 29th European Conference on IR Research, ECIR 2007, Rome, Italy, April 2-5, 2007, Proceedings. G. Amati, C. Carpineto, and G. Romano (Eds.), LNCS 4425, pp. 113–123, 2007. Springer-Verlag Berlin Heidelberg New York, 2007. (acceptation rate: 42/220).
54. Zhang Yunquan, Chen Guoliang, Sun Guangzhong, Miao Qiankun, Models of Parallel Computation: A Survey and Classification, Frontiers of Computer Science in China, Vol.1, No.2,pp.156-165, Higher Education Press and Springer-Verlag, May 2007.

承担科研项目情况：

百万处理器核可扩展并行共性算法与性能优化关键技术研究与开发，国家重点研发计划，1225万，201607-202012，项目负责人；
大规模异构并行系统的调度理论与方法，国家自然科学基金重点项目，280万，201201-201612，项目负责人；
面向众核体系架构的并行计算模型与性能自适应优化研究，国家自然科学基金面上项目，60万，202101-202312，项目负责人；
众核体系架构并行计算模型与算法自适应调优框架研究，国家自然科学基金面上项目，82万，201301-201612，项目负责人；
面向深度学习的GPU虚拟化关键方法与技术研究，北京市自然科学基金-海淀原始创新联合基金重点研究专题，98万，201812-202112，项目负责人。