一
简介
处理器芯片全国重点实验室为提高实验室的开放层次,提高学术水平和技术水平,增进国内外学术交流与合作,促进人才流动与学科交叉渗透,按照相关规定特设开放研究课题。欢迎国内外相关领域的科研工作者参与实验室的开放课题研究。
二
指南的制定原则
1、根据我国处理器芯片领域的发展战略,着眼于国民经济建设的当前和长远的需要和国际学科发展的前沿;
2、鼓励具有开拓性、前瞻性、创造性和高层次理论和技术的自主创新研究及具有重大应用前景的项目;
3、利于促进多学科的交叉渗透和多部门的联合攻关,有利于建立和发展国际合作的新格局,有利于人才培养和学科的发展;
4、鼓励和支持具备博士学位、高级职称的国内外科技工作者申请;
5、资助项目的申请者要求与本实验室科研人员协同工作。
6、项目资助5万/项,资助周期一般不超过2年。
三
建议开放课题的研究方向
本年度建议开展课题如下(可不限于以下课题):
题目1
面向数据库应用的RISC-V架构数据硬件预取技术
题目2
基于忆阻器的存算一体集成芯片可靠性关键技术研究
(1)高可靠性保障的基于忆阻器的存算一体集成芯片架构设计。
(2)基于忆阻器的集成芯片的测试方法,包括但不限于器件级别的电气特性测试以及系统级别的功能验证。
(3)设计并实现高效的容错机制,以提升基于忆阻器的存算一体集成芯片的可靠性和稳定性。
题目3
深度神经网络结构化剪枝与高效并行方法研究
(1)对卷积神经网络和基于Transformer的神经网络进行结构化剪枝,提高神经网络的稀疏度。针对卷积神经网络,提出通道级的剪枝方法,根据各个通道的重要性去除其中不重要的通道,降低参数量。针对基于Transformer的神经网络,提出动态的token剪枝方法,根据每个token的重要性减少序列长度,只保留最具信息的token,降低硬件资源需求的同时可最大限度地保证精度。
(2)由于深度学习算法具有较高的稀疏度,可采用稀疏格式存储数据以减少计算量,这使得在多核/众核结构上并行计算时,线程之间的任务分配更为复杂,难以达到不同线程之间的计算负载均衡。通过分析深度学习算法的并行性,将其划分为不同的并行粒度,结合算法稀疏特征以选取最佳并行策略,使算法并行度与众核硬件计算能力达到最佳匹配,不同线程之间的计算量达到负载均衡,充分利用计算资源获得最好的计算性能。
题目4
基于算法稀疏性和众核结构特征的卷积神经网络加速方法研究
(1)卷积神经网络中计算量最大的部分是卷积层,通过加速卷积层可实现对整个模型性能的有效提升。卷积层中的特征图具有一定稀疏性,剪枝和激活函数的应用导致更多零值的产生。利用特征图的稀疏性来提高卷积层的性能,将特征图直接转换为压缩格式的稀疏矩阵,以减少对非零值的运算和存储空间消耗,然后将卷积核转换为向量,最终通过稀疏矩阵向量乘法获得卷积结果。
(2)通过设计一种新的数据稀疏存储格式,将卷积与池化融合在一起,减少片外访存开销,同时对特征图进行压缩,减少非零值计算,实现对卷积和池化的整体加速效果。此外,针对深度学习算法数据访问的时间局部性和众核体系结构特征,通过线程内部的数据重用和线程之间的数据共享减少片外存储的访问次数。
题目5
面向大尺度材料计算的第一性原理求解加速微结构研究
研究内容: 大尺度材料计算中第一性原理的高性能求解一直是困扰学术界的难题。电子结构量化模拟计算的精度和尺度仍无法取得平衡。密度泛函理论是求解第一性原理的有效手段,这一方法能有效提升电子结构模拟尺度,但量子计算的精度仍有待提高。本课题期望针对密度泛函理论开展专用的加速微结构研究:
(1)研究交换关联泛函优化方案,在不同密度泛函层级研究密度线性代数归一化,在降低计算复杂度的同时,提升计算尺度和精度;
(2)研究微处理器指令集扩展方案,缩短加速计算芯片的研发周期;3)研究核间及片间计算并行优化机制,将材料量化计算对高吞吐和高性能的需求尽可能地通过并行挖掘发挥到极致。
题目6
基于GPU的键值数据隐私信息检索技术研究
(1)研究适用于真实应用场景的私有信息检索(PIR)协议,考虑数据集的存储布局和合适的同态加密方案,实现PIR计算过程的协同设计与优化。
(2)探索针对GPU集群的PIR协议加速方法,包括同态运算硬件加速的实现、负载平衡及并行度与通信成本的优化,以提高PIR方案在硬件上的性能表现。
题目7
以数据为中心的新型操作系统架构
(1)数据密集型应用在现有操作系上的性能瓶颈定量分析。
(2)提出以数据为中心的新型系统架构,将数据作为关键资源进行管理和调度。
(3)提出新的数据处理的方式,提高系统的整体性能,改善系统的资源利用率。
题目8
大模型驱动的开源EDA软件自动化并行加速方法
(1)结合并行计算经验知识与EDA软件的典型执行流程,构建一套高效的混合粒度并行计算策略,覆盖任务级、线程级以及指令级并行加速,形成基于思维链的并行代码生成框架。
(2)利用大模型的代码理解能力,分解复杂的EDA软件,适配现有的任务级并行计算框架,挖掘任务间并行和任务内流水并行。针对不同的代码模式,进一步通过检索增强并行代码的生成质量。
(3)利用大语言模型的代码理解能力,识别EDA软件中的典型计算模式,结合算子库进行向量化改造,构建基于处理向量加速协处理器的自动化并行优化方法。
题目9
硬件感知的大模型压缩方法
题目10
基于超导单磁通量子电路的国密算法SM4处理器研究
目前,国密算法SM4的硬件加速主要依赖于CMOS技术。然而,CMOS技术在速度和功耗方面存在瓶颈。近年来,SFQ技术逐渐成为研究热点,已在一些加密算法和高速计算领域展现出巨大潜力。鉴于基于SFQ技术的加密电路研究尚处于起步阶段,国内外相关研究较少,因此,设计针对SM4算法的SFQ处理器具有重要的创新价值。本课题拟进行以下五个方面的研究:SFQ电路基础研究、SM4算法分析、SFQ SM4处理器设计、仿真与验证以及优化。
首先,我们需要深入掌握SFQ电路的基本原理和设计方法,以及SFQ电路的仿真工具和优化技术。其次,我们将分析SM4算法的结构和运算特点,进而提出适合SFQ电路实现的SM4算法优化方案。接下来,设计的重点将放在基于SFQ电路的SM4处理器架构上,并完成关键模块的SFQ电路设计。然后,我们将使用SFQ电路仿真工具对设计进行仿真验证,并分析仿真结果以评估电路性能和功耗。最后,根据仿真结果对电路进行优化,并完成最终设计,进行综合测试与验证。
本项目旨在探索基于SFQ电路的国密算法SM4处理器的设计、仿真与验证,具有重要的理论意义和应用价值。我们希望通过本项目的研究,为信息安全领域提供一种高效、低功耗的解决方案,并推动超导SFQ电路技术在密码学与信息安全领域的应用和发展。
题目11
面向国产智能芯片的大模型的编译优化研究
(1)研究深度学习大模型在低精度(如INT8、FP16等)下的运行时编译优化策略;设计面向国产智能芯片的高性能低精度编译优化算;分析低精度编译优化对模型精度和性能的影响,提出平衡精度和性能的解决方案。
(2)研究针对访存瓶颈的大模型编译优化方法,分析大模型推理的访存特性,识别导致访存瓶颈的关键因素;设计并实现针对访存瓶颈的编译优化策略,如数据布局优化、内存访问合并、数据重用等,提出针对性的编译优化方案。
(3)研究面向国产智能芯片硬件的统一中间表示方法,支持张量计算的灵活表达,实现计算图及算子层次的语义分析;探索深度学习大模型结构和编译器协同设计,提出跨平台的智能硬件适配方案和自适应优化策略。
题目12
高效量子电路映射与电路优化算法研究
(1)量子电路映射算法设计:研究并设计高效的量子电路映射算法,将抽象的量子电路映射到具体的量子处理器架构上,最小化量子比特间的交换操作和误差积累。
(2)量子电路调度算法优化:探索并优化量子电路的量子操作的执行顺序和资源分配方法,提高量子处理器的计算效率。
(3)量子逻辑门结构优化策略研究:包括量子电路简化、量子门操作融合和并行执行优化等,以提升编译后的量子电路的性能。
四
申请书提交时间及联系方式