一、基于DSP的通用资源处理平台的研究和开发(论文文献综述)
姜康[1](2021)在《基于多核DSP的图像重建算法研究》文中研究说明计算机层析成像技术(Computed Tomography,CT)由于其无损、精准和直观等优势已被大范围的应用到各种领域,例如工业检测、医学等。CT技术的关键部分便是图像重建算法,对于二维断层成像技术大体有两种算法:分别被称为为解析法和迭代法。迭代算法中比较常用是ART(algebraic reconstruction technique)算法,ART算法适用于投影数据不完全的应用场景中,优点是抗噪声干扰能力强,还可以结合一些先验知识求解;缺陷是较大的计算体量造成较长的重建耗时,这已成为该算法应用发展中的桎梏。嵌入式DSP技术是基于硬件加速的新兴产物,DSP集成度高便携性好,在处理复杂算法中有得天独厚的优势,为此特提出了基于多核DSP实现ART算法的解决方案。论文首先介绍了CT图像重建的国内外现状,研究分析了二维ART算法的原理和存在的问题;然后对论文中所采用的TI DSP(数字信号处理器)TMS320C6678的优势特点进行了论述,并对论文中开发算法工程有所涉及的DSP片内资源进行研究分析;编写建立了基于DSP实现ART二维重建算法的系统工程,并对基于DSP硬件特性进行算法优化的方法进行了研究,研究内容主要包括:代码优化、缓存优化以及基于DSP编译环境CCS的编译器选项优化等;其次,在多核DSP的基础上结合并行编程模型OpenMP对ART算法实现多核DSP的并行处理。最终真实投影数据的实验结果显示本文在保证重建图像质量的前提下,有效的提高了ART二维图像重建的计算速度,证实了方案的可行性。
王晨[2](2021)在《基于FPGA的电力电子控制器设计与实现》文中研究指明现代电力电子装置在设备控制实时性、开关频率、集成度等方面均面临着更高的要求,传统串行电力电子控制器往往无法满足需求。随着现场可编程门阵列(Field Programmable Gate Array,FPGA)工艺的不断进步并逐步发展为可编程系统级芯片,其特有的硬件并行优势在数字系统的设计中逐渐表现出来。基于硬件电路实现不同层次的软件功能成为了电力电子控制器新的发展方向,与此同时电子设计自动化(Electronic Design Automation,EDA)技术也为这种硬件实现带来设计上的方便。因此,FPGA在电力电子领域中的应用是一种相当有前景的技术。本文针对FPGA电力电子控制器,研究基于FPGA的电力电子控制器设计原则、设计方法与设计实现,并在所搭建的硬件平台上进行验证。本文主要研究内容如下:(1)通过对国内外FPGA在电力电子控制器设计领域的研究与应用分析,阐述以FPGA为核心的电力电子控制器的特点;针对FPGA设计难点问题,提出了具有指导意义的包括三项基本设计原则与四项基本设计方法在内的FPGA全数字电力电子控制器设计理论。(2)基于提出的设计理论,对电力电子知识产权核(Intellectual Property Core,IP)库中的IP核给出了类型划分准则,考虑IP核通用性,搭建了基础逻辑级、计算功能级、控制环路级三级参数化电力电子通用IP核库。(3)设计了采样控制与数据读取为主从式执行关系的高速不间断采样控制状态机、动作时间可调的纳秒级硬件保护机制等FPGA在电力电子实际工程应用中经常承担的辅助控制任务逻辑,进而设计出通用辅助逻辑控制板卡,可直接应用于电力电子项目设计中承担辅助控制任务,从而大幅提升电力电子控制系统设计效率。(4)研究了有源电力滤波器(Active Power Filter,APF)控制策略,搭建了仿真模型及T型三电平FPGA电力电子控制器平台,以搭积木的方式结合所构建的电力电子通用IP核实现了APF控制策略,并给出了实验结果,验证了所提出的设计理论可行性;在同一应用场景给出了FPGA控制器与数字信号处理器(Digital Signal Porcessor,DSP)控制器具体性能量化指标对比,验证了FPGA控制器实现方案的优势。
吴婧[3](2021)在《基于多核DSP的XX星座载荷处理软件系统研究》文中研究指明随着微小卫星技术的不断发展,其成本低、轻量化、发射灵活等优势使其在军事、商业和科研领域均得到了广泛应用。载荷设备研制技术的提升使得星上数据量逐渐增长,例如卫星中应用了越来越多的高分辨率成像设备,使得星上图像数据量迅速增加。海量的数据对星上电子系统的数据处理和通信能力提出了更高的要求,传统的数据透传方案已经无法应对。因此在微小卫星星上资源有限的情况下,需要研制一个高性能星上载荷数据处理软件系统,同时由于星上软件具备严格的可靠性要求,本文采用裸机底层搭建系统的方式而不使用商用操作系统。本文基于某型号微小卫星星座载荷处理系统的项目研制需求,系统核心CPU采用TMS320C66x型号八核DSP,研究了一种无操作系统支撑的多核并行运算软件系统。首先对软件系统功能进行了划分,给出了针对八核DSP软件系统设计方案,针对方案中的多核并行运算架构,本文比较了目前使用较为广泛的主从模型和数据流模型,由于数据流模型对算法的可分割性要求较高,较难达到各核的均衡化。本文基于主从模型的思想,提出了一种针对并行运算从核的数据分割方法,实现了一种较为通用的多核并行运算架构。其次,为了完成本文系统架构中多核间的协同和通信功能,本文研究了IPC中断、共享存储查询、SYS/BIOS提供的核间通信模块等多种实现方式,前两者无需操作系统支撑,但功能不完善且对应用层开发者要求较高,后者则需要操作系统支撑。因此本文设计了一种基于消息队列的核间通信方式,结合数据包共享地址信息和队列的数据结构,实现了可变长度数据的核间传输,并为应用层开发者提供了相应的API,减少开发难度的同时还可以提高存储空间的利用率。同时,本文还对多核软件系统实现过程中的关键问题进行了研究,针对多核程序的烧写和引导过程,本文通过批处理的方式实现了多个编译程序文件的一键融合,通过主核二次引导的方式实现了多核的启动,也为多核DSP程序的在轨更新提供了可行方案。针对多核访存存在的冲突问题,本文提出了一种基于硬件信号量的访存冲突保护机制。最后基于图像处理算法应用对多核并行运算系统进行了整体运行测试,提出了基于DSP的程序优化策略,并对比了优化前后以及多核的运行耗时数据,验证了本文所研究的载荷处理多核并行软件系统能够满足系统对图像处理算法的运行需求,验证了各模块设计的有效性,使得载荷处理系统满足海量数据计算、并行减少耗时的需求,为后续更多星上数据的快速处理提供了实现思路。
李大琳[4](2020)在《基于FPGA的高性能算法实现的设计模式及其应用研究》文中提出近年来,随着大数据、云计算以及人工智能等相关领域研究和应用的不断深入,导致需要计算的数据体量急剧增长。诸如数据库、智能算法、深度学习、在线预测以及无人驾驶等各种计算密集型应用对计算能力的需求已远远超出了传统通用处理器(CPU)的处理能力。从上个世纪60年代开始,人们就对可并行的计算问题提出了用并行计算(Parallel Computating)的方法来对算法进行加速,以实现更高的计算性能,从而提升解决问题的效率。伴随着CPU处理能力和相关技术的不断迭代,并行计算系统的计算能力不断提升。然而,近几年半导体技术几乎达到了物理极限,摩尔定律几近失效,但数据量的增长对计算能力的要求却仍在不断提升。进入21世纪,人们开始探索用异构计算(Heterogeneous Computation)等新的计算形态来提升计算能力。FPGA是一种可编程芯片,它将算法逻辑直接翻译为晶体管电路的组合,在计算速度、延时和功耗等方面优于通用处理器。因而,其在众多应用场景中有着重要地位,并成为异构计算领域的研究热点。然而,FPGA的硬件架构虽然为其带来了很高的计算性能,但却使基于FPGA的算法设计方法面临挑战:(1)基于FPGA的算法设计是面向电路结构的,这需要设计者深入了解FPGA结构和数字电路。目前的算法开发人员大部分是软件人员,缺乏对硬件的了解,且基于FPGA的算法设计工具链不够完善,导致FPGA平台上的实际开发效率较低。(2)现有算法设计和性能优化方法多是针对通用处理器架构的,由于FPGA与通用处理器在硬件架构上的差异,使得这些方法不能充分发挥FPGA的特性,从而不能在FPGA上获得较好的算法性能提升效果。目前仍然缺少适合FPGA的算法设计及性能优化方法。(3)在FPGA上实现具体算法时,需要结合FPGA硬件架构特点针对算法特征对算法实现进行深度优化。现有优化思路多是从算法模型角度出发的,缺少对算法要解决的问题和FPGA的硬件架构的考虑。基于以上问题,本文主张通过提出适合于FPGA硬件架构的算法设计和性能优化方法来提升算法在FPGA上实现的性能,主要工作介绍如下:(1)提出了基于FPGA的高性能算法实现设计模式和计算性能评价标准。在FPGA上,算法的控制逻辑和运算操作被转化为电路逻辑单元的连接,待操作的数据则按照电路的连接方式流过FPGA,产生最终的运算结果。电路的组合方式影响数据的流动方式,并最终影响计算性能。因此,针对FPGA上的算法实现的性能优化应该以构造高效的数据流为目标。本文提出以构造算法的流式数据为目标的算法实现设计模式,通过将高效的电路模型抽象为算法实现的数据流模型,为设计者屏蔽硬件结构细节,提升开发效率。设计者只要参照设计模式进行算法实现就更容易提升算法在FPGA上实现的性能。另外,设计模式只是一种设计参考,不需要特定的编程语言或者综合工具的支持,具有很强的通用性。本文提出的设计模式分为三个层面:在算法整体框架层面,以构造流式数据为目标,包括多级流水“映射-归并”框架和脉动式线性框架;在算法功能级层面,针对典型的算法结构,包括复杂数据类型高效流水求和树和并行比较向量;在算法逻辑层面,包括多种以简化控制逻辑和降低运算强度为目标的性能提升方法。此外,对FPGA上的算法实现的性能评价不能单纯以程序执行时间为标准,要兼顾延时、频率、吞吐量、芯片利用率和功耗等多个方面。因此,本文提出了针对FPGA上算法实现的相关性能评价方法,包括加速比评价方法和针对HLS(High Level Synthesis)方法的综合结果性能评价方程。本文所提出的设计模式和性能评价标准对提升FPGA上的算法实现的性能有重要意义。(2)提出了一种针对FPGA结构的基于扩展非严格偏序序列的线性排序算法,并将其在FPGA上应用脉动式线性框架设计模式实现为可配置线性排序器。排序问题是一个被广泛研究的算法问题。现有FPGA上的排序算法实现多为将经典排序算法通过并行化设计后移植到FPGA上,虽然降低了排序延时,但在资源占用率等方面的性能有待提升。本文针对FPGA的结构特点,首先基于数学中的序理论,将非严格偏序关系扩展为基于n元组的非严格偏序关系,并在此基础之上提出了线性排序算法。该算法具有4N/n时间复杂度,可以通过调整n的值来调整算法的带宽和比较操作的数量。基于该算法在FPGA上实现的排序器具有资源占用率相对较低,电路连接复杂度不高,输入带宽、排序延时等参数可配置等特点。从而可以根据具体排序问题的需要在延时和资源占用率等性能之间做出权衡,提升FPGA上解决排序问题的总体性能。由于该算法是针对FPGA硬件架构进行设计的,因此,本文使用绝对加速比来评价算法的性能。实验结果表明,该算法相比在CPU上实现的快速排序算法有更好的计算效率。(3)提出了基于HLS的群智能算法实现通用框架。群智能算法(Swam Intelligence Algorithms,SIAs)主要用于解决优化问题,属于计算密集型算法。现有计算性能优化工作一般仅从提升群智能算法的空间并行性角度出发。这会导致FPGA实现的吞吐量不高和求解规模有限。本文提出的框架应用多级流水“映射-归并”框架设计模式,并充分考虑硬件平台的存储器架构,将算法数据流与硬件结构相匹配,从而进一步提升算法实现的并行特性和吞吐量。框架基于HLS,使用C++语言进行描述,可以部署在不同硬件平台(FPGA,GPU和Multi-core CPU)上。在具体实现时,本文针对每种平台硬件架构特点对框架进行了深度优化,以提升存储器的访问效率,并以量子行为粒子群优化算法(Quantum Behaved Particle Swam Optimization,QPSO)为例对框架进行测试。在性能评价上,使用相对加速比方法,将框架在不同平台上的计算性能进行对比。实验结果表明框架实现了比现有工作更优的性能,并且,在FPGA的实现具有比其他平台上实现更好的计算效率。
杨超[5](2019)在《面向深度学习算法的DSP关键技术研究》文中认为随着大数据和硬件计算资源的发展,人工智能当前进入了深度学习时代,深度学习时代具有两个最为显着的特点:一是计算量大,二是在多个应用领域效果远超传统方法。传统的人工智能方法虽然计算量相对较少,但是其性能遇到了天花板,很难进一步提高,而目前来看深度学习只要数据量足够,通过合理的网络设计以及足够的计算其在性能上往往都具有非常高的潜力。为了获得足够的深度学习计算加速,当前展开了各种硬件竞赛,比如GPU上针对深度学习库的迭代优化、集成越来越多计算资源的深度学习专用ASIC硬件、更加灵活的基于FPGA的专用硬件加速。而X-DSP是一款可编程的面向科学计算的国产高性能DSP,之前在X-DSP上开发的程序多数属于GEMM、FFT等算法。为了进一步拓展国产X-DSP的应用领域以及对国产X-DSP的体系结构进行改进,本文针对深度学习算法的特点并结合X-DSP的体系结构特征,系统的研究了在X-DSP上实现深度学习的方法;并且基于X-DSP的体系结构特点,研究了不采用复杂的数据流方式而将向量计算单元转为阵列计算单元实现深度学习算法的可能性,为未来的的国产DSP计算单元结构进行预先研究。本文在整个研究过程中,始终注重通用、高效、算法和硬件体系结构紧密结合的原则,尽可能的充分利用硬件中的计算、传输、存储资源。本文的主要工作和创新点有:1.基于国产X-DSP处理器的体系结构,对深度学习算法中最重要的卷积层进行向量化映射,将卷积运算转化成为向量乘法运算,这种方法和通用可编程GPU中将卷积运算转化成为矩阵乘法运算是不同的映射方法。在整个计算过程中,国产X-DSP中的向量部件单元、标量部件单元均得到了充分的利用,实验结果表明,多个规模的卷积在X-DSP多核上的计算资源利用率在65%左右。2.本文同样对深度学习算法中的其他层进行了研究,提出了合适的映射方法。本文将相对比较复杂的归一化层通过数据维度转换以及矩阵转换等操作变换成为适合国产X-DSP直接处理的向量形式,可以利用向量部件单元直接通过向量的形式进行归一化操作;本文同时对深度学习算法中的全连接层进行了研究,全连接层中的运算实际都是GEMM运算,通过对大规模的矩阵进行分割本文合理的实现了大规模GEMM在国产X-DSP上的映射。本文也对深度学习算法中其他的层进行了合理的映射研究。实验结果表明,多个规模的全连接层在X-DSP多核上的计算资源利用率在17%左右,归一化层在多核X-DSP上的计算资源利用率在1.3%左右,但是二者均达到了理想计算资源利用率的70%左右。本文同样对这两种类型的层在多核X-DSP的实现瓶颈进行了分析,为下一代国产DSP积累了经验。3.本文针对基于国产X-DSP处理器的卷积层映射提出了分割经验公式。由于卷积层运算中总的乘加次数是固定的,因此经验公式重点对数据传输和约束条件进行分析,对单/多输入特征图的卷积层在国产X-DSP处理器单/多核的划分提供了分割依据。经过经验公式划分后的卷积块在多核X-DSP上的实现具有最少的芯片内外数据传输量。4.本文基于X-DSP的体系结构,将其中的向量计算单元组合成为阵列计算单元,并对基于阵列计算单元的深度学习算法中层的映射进行了研究,对阵列计算单元结构的研究为未来国产DSP的预先研究打下了基础;并且为了进一步的提高阵列计算单元的运算能力,本文开发了基于Winograd加速算法6×6的块分割下的不损失计算精度的计算方法,同时提出了单次广播多次运算的方法以降低计算过程中的数据访问存储次数。仿真结果表明,在理想带宽的情况下,本文的阵列计算单元针对卷积层和全连接层的计算资源利用率可以达到90%左右。
马昶[6](2019)在《基于多核DSP的5G基带处理平台的设计与实现》文中进行了进一步梳理第五代移动通信(The 5th Generation Mobile Communication,5G)网络可以给用户带来更高的通信带宽速率、更低的时延以及更大容量的网络连接体验。随着5G协议标准的制定与更新,用于传输以及处理基带信号的基带处理平台受到越来越多的关注。数字信号处理器(Digital Signal Processor,DSP)作为基带处理平台中最核心的组成部件,能够为移动通信系统软件开发提供一个高性能开发环境,具有很强的工程实践意义。本文课题对“增强移动宽带5G终端模拟器”基带处理平台中的多核DSP进行研究开发。主要涉及到根据多核并行结构设计了一种高效的基带处理软件架构,并实现了方案中多核DSP内部以及芯片间的数据交互方案。本文主要研究内容如下:1.本文以5G终端模拟器功能定义为基础,根据5G基带数据处理需求,对DSP与现场可编程门阵列(Field Programmable Gate Array,FPGA)两种芯片进行选型,并对基带处理板卡中的数据交互需求进行分析与设计。2.本文根据基带处理平台架构,将5G物理层链路建立模型并映射到基带处理平台中的各个功能模块中,设计了一种高效的基带处理软件架构;为了解决DSP中多个内核协同运行存在的资源竞争与核间同步等问题,本文对DSP的SYS/BIOS操作系统、内存资源分配、中断等机制进行研究及应用设计;通过对基带处理软件方案中的小区搜索部分进行内存占用和正确性两方面验证,结果表明设计方案合理可行。3.本文对核间通信产生寄存器(Inter-Process Communication Generator Registers,IPCGR)、多核导航和增强型直接内存存取(Enhanced Direct Memory Access,EDMA3)三种芯片内部通信方案进行设计与验证,以实现DSP多个内核之间能够进行同步与通信。多核导航与EDMA3的传输速率分别能达到38Gbps和40Gbps,满足不低于10Gbps的项目设计需求。4.本文对Hyperlink、以太网和串行快速I/O(Serial Rapid I/O,SRIO)三种芯片间通信方案进行设计与验证,以实现基带处理平台中芯片间的数据交互。Hyperlink和SRIO通信方案的传输速率分别能达到16.8Gbps和12.7Gbps,满足不低于10Gbps的项目设计需求。以太网通信方案的传输速率为0.644Gbps,达到了理论通信速率的64%,满足项目设计需求。
宋超[7](2019)在《合成孔径雷达实时成像算法优化与系统开发》文中提出现代战场环境日益复杂,为雷达精确制导带来了更加严峻的挑战。为了从复杂的战场环境中准确提取出目标,并对其进行打击,必须使用合成孔径雷达获取疑似目标的高分辨图像并进行目标识别。一方面,由于弹载平台机动性较强,且无法配备高精度惯导系统,回波数据中会存在大量运动误差,从而导致弹载SAR成像算法复杂度高,另一方面,弹载应用的特殊性要求成像算法必须在足够短的时间内完成处理,这种情况下,弹载SAR实时成像面临巨大挑战。为了克服弹载SAR实时成像的瓶颈,本文对弹载SAR实时成像算法优化与系统开发进行了研究。首先,本文研究了弹载SAR成像算法和惯导数据运动补偿原理,为后续算法实现打下理论基础。其次,本文研究了TMS320C6678多核DSP芯片的架构、裸机与BIOS操作系统两种编程方法和裸机编程优化方法,并基于多核DSP平台实现了弹载SAR成像算法,构建了一套弹载SAR信号处理系统。然后,为了进一步提高弹载SAR成像算法的实时性,本文研究了嵌入式GPU的硬件架构和编程方法,又基于嵌入式GPU平台对弹载SAR成像算法进行了实现与优化,并与多核DSP实现作对比,获得了近9倍的加速比,这表明GPU在运算加速方面的优势明显。为了促进嵌入式GPU在弹载平台的应用,本文又设计了基于嵌入式GPU的弹载SAR信号处理系统软硬件架构。最后,为了对基于多核DSP的弹载SAR成像算法实现进行验证,设计并开发了一套数字仿真测试系统软件,该软件系统使用Qt GUI库实现,与弹载SAR信号处理系统共同构成半实物仿真测试系统,半实物仿真系统的运行和测试结果表明,本文所述的弹载SAR实时成像算法成像质量较好,且满足实时性要求。
王蕊[8](2019)在《基于卷积神经网络的嵌入式图像识别系统与优化》文中研究说明文章主要介绍了,在融合多核,SIMD,及VLIW技术的数据并行DSP处理器的基础上结合卷积神经网络的研究成果,在嵌入式设备上实现图像分类的工作,其中主要内容为,结合处理器体系结构特点,在FT-M7002上实现卷积神经网络图像分类主要算法的移植和优化技术,并结合具体的5类目标图像[1](油库,机场,水坝,铁路,塔)和对应的卷积神经网络分类模型,验证在FT-M7002上实现图像分类的准确性和实时性,主要优化手段包括:存储层面并行访存优化,指令并行优化,数据级并行三方面。存储访存优化基于DSP多层存储体系结构,包括:根据片内片外存储资源的大小,结合cache相关知识,提升访存命中率,减少访存周期;减少CPU,DMA并行访存冲突,提高访存带宽利用率,根据算法的特点,通过合理的数据搬移和数据存放位置,减少数据计算和程序运行时间。指令集并行优化基于DSP体系结构中的VLIW技术,目的是使同一拍执行更多的指令条数,以至于可以充分发挥多个独立的功能单元的作用,并且通过循环展开,软流水,减少CPU空转周期,实现多条指令的并行发射,提升性能。数据级并行基于DSP体系结构中的SIMD技术,通过使用向量编程技术充分发挥向量单元的数据并行处理能力,完成数据的并行处理,在最后,结合多核并行,实现计算任务的多核执行,提高程序和数据的运算速度,最终实现基于嵌入式的卷积神经网络图像分类的实时性要求。本文主要工作有:(1)研究FT-M7002软硬件平台,包括FT-M7002体系结构,向量C指令集,汇编指令集,和FT-M7002集成开发环境。(2)研究darknet框架中卷积神经网络图像分类的算法,结合五类目标图像分类模型,找出在FT-M7002上可进行移植与优化的部分,并结合软硬件知识对代码和算法的实现进行优化,提升图像分类识别性能。(3)对各种算法(卷积,池化,归一化函数,加偏置函数,激活函数等)进行向量化改造,发挥向量计算中数据并行性,并计算加速比。通过编译器优化选项,结合双buffer思想,隐藏实现过程中DMA和数据计算的一部分时间,根据向量存储空间编址方式,减少CPU和DMA访存冲突,采用存储优化,减少不必要的存取数操作,利用开cache提升访存速度,循环展开等方法提升识别性能。(4)结合FT-M7002体系结构特点,和理论性能峰值,采用汇编实现指令级和数据级并行,减小DSP空转周期,克服向量C指令一部分缺陷,实现FT-M7002各执行单元的充分利用和多核并行,完成性能优化,给出一般性在FT-M7002上实现关于图像分类和一部分目标检测的优化方法,尤其是对于实时性要求比较高的应用,给出了算法实现参考方法,可按照此步骤,得到较好的性能要求。
李雪峰[9](2019)在《基于C6678DSP的雷达信号处理算法高效实现》文中研究表明随着雷达工作环境变得越趋复杂,现代雷达系统在性能上也不断升级,在软件层面主要体现为复杂信号处理算法的应用;得益于集成电路技术的快速发展,许多高性能微处理器相继问世,从而使得工程中应用复杂算法成为了可能。但是对于一些载荷和功耗受限的平台,不能通过增加微处理器的数量来提升系统的处理性能,只能通过优化算法和程序来满足实时性要求。DSP作为数字信号处理领域的专用处理器,在雷达信号处理机上广泛使用。C6678是目前业界先进的DSP,由德州仪器公司于2010年推出,片上集成有多核、大的存储空间和丰富的高速通信接口,单核集成有大量的乘法器、加法器和其他功能单元,运行主频达1.25GHz,其运算性能达到160Gflops,Ti公司为该款DSP提供了丰富的库函数,方便工程师进行软件开发;HXDSP1042是一款国产的高性能DSP,片上集成双核、大存储和高速接口,单核集成大量运算单元和寄存器,该款DSP也有相应的函数库供开发人员调用。在自适应阵列信号处理领域,有波束形成、波达方向估计和杂波抑制等大量复杂算法,究其本质,是矩阵的各种分解运算,通过矩阵分解,可提取出目标的数据特征;协方差矩阵是雷达信号处理中常用的矩阵,利用其共轭对称的特征进行分解计算,可节省大量运算,减少数据传输量。本文首先对矩阵的Cholesky分解、求逆、特征分解和奇异值分解进行了理论上的说明,并分析了相应的运算量,通过在开发板上进行实际测试,验证了其实时性和相对误差。接着对C6678DSP的硬件架构,特别是底层运算功能单元和汇编指令进行了详细的说明,并提取出了两种常用的汇编程序循环体指令排布模型,将雷达信号处理常用的恒虚警检测算法进行了理论上的优化,并对其中关键且耗时的运算进行手工汇编优化,相比C程序,其实时性显着提高;此外,基于HXDSP1042的汇编指令,充分利用DSP的SIMD架构,对fir滤波器和动目标显示函数也进行了手工汇编优化,其性能得到很大提升。最后,在基于DSP+FPGA架构的自适应处理器上,编程实现了自适应杂波抑制算法,进一步验证了上述优化方法的高效性。
孙广辉[10](2019)在《基于FT-M7002的OpenCV移植与优化》文中认为OpenCV(Open Source Computer Vision Library)是能够实现有关图像处理和计算机视觉方面的跨平台计算机视觉库,该视觉库中包含很多有关视觉处理和图像处理方面的通用算法,正是由于其丰富的底层支持促使其功能的多样性与实用性,因此OpenCV已经成为了计算机视觉领域最强大的开源工具之一。数字信号处理器(DSP)目前广泛应用于通信、计算机、网络、工业控制、军事装备等重要领域,扮演者不可或缺的角色。FT-M7002(以下简称M7002)是一款完全自主的高性能DSP。开发一款基于M7002 DSP的图像处理平台,能够极大地推动该DSP在图像处理领域以及人工智能领域的应用。但是目前鲜有针对该DSP平台的交叉编译移植以及对OpenCV库进行移植优化的研究。因此本文探索一种将OpenCV通过Linux操作系统进行交叉编译移植到DSP平台的一般方法,以及总结出对OpenCV进行优化的一般方法,能够降低实现通用DSP图像处理平台的研发门槛,进而提高对M7002DSP的开发效率。本文的主要工作包括以下几个方面:1、完成OpenCV2.4.9(以下简称OpenCV)底层所有的约80万行源代码在M7002上的移植与优化实现。本文针对实现FT-M7000 IDE工具链能够支持C++语言以及完成OpenCV源代码在M7002平台上移植的问题,深入分析了OpenCV的底层支持与M7002平台底层支持的差异性,然后结合交叉编译的原理,提出在Linux系统下,通过交叉编译生成M7002平台上的工具链,然后对OpenCV所依赖的各种库进行交叉编译,之后重新编写对应平台的toolchain脚本文件,该文件辅助Cmake编译OpenCV源码来生成对应的构建文件,最后对OpenCV库进行交叉编译,该过程中针对平台以及平台底层库的差异对OpenCV的库完成相应的补充与裁剪,最终总结并实现OpenCV移植到M7002平台上的通用方法。该方法填补了通过交叉编译将OpenCV移植到DSP平台上的技术空缺。随后对移植OpenCV库的正确性进行了充分的测试,然后又运用了开cache以及开编译优化选项的常规优化方法对OpenCV的库进行优化,实现OpenCV在M7002上的运行提速。2、针对如何充分发挥M7002的运算性能问题。本文通过分析OpenCV函数底层是怎样实现相应的图像处理功能的算法特点以及M7002体系结构的特点,提出了对OpenCV的功能函数进行向量化改造来实现OpenCV运行提速的优化思想。该优化思想主要是在功能函数的底层加入计时函数,寻找出运行时间占比较高的数个算法函数,然后对这部分算法进行向量移植和优化。本文首先移植了OpenCV像素操作类的算法函数,并且总结出针对像素运算进行向量化移植和优化的通用方法,在保证计算正确的前提下实现了最高13.7倍的运行提速。然后又分析了底层通过复杂的数学运算对像素进行操作来实现图像处理功能的函数,并且分析函数底层算法的实现原理,确定可以向量化改造的循环代码段,然后利用上述总结的一般方法进行改造发现改造后的结果也是正确的。3、分析移植后向量C代码的特点,对移植后的向量C代码进行优化。首先用常用的C代码优化方法——循环展开对移植后向量C进行优化,优化后性能仅仅提升30%左右。最后根据移植后向量C代码所实现的具体行为,得出用双缓冲的优化方法对向量C代码进行优化,优化后的运行性能相比移植后的向量C代码提升约50%左右。
二、基于DSP的通用资源处理平台的研究和开发(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于DSP的通用资源处理平台的研究和开发(论文提纲范文)
(1)基于多核DSP的图像重建算法研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 课题的研究背景及意义 |
1.2 国内外现状研究 |
1.2.1 CT图像重建ART算法的研究现状 |
1.2.2 图像重建处理平台研究现状 |
1.3 主要研究内容及文章结构安排 |
1.3.1 主要研究内容 |
1.3.2 论文章节安排 |
2 CT成像理论及ART重建算法分析 |
2.1 CT成像过程及基本原理 |
2.2 CT成像数学基础 |
2.2.1 Radon变换与反变换 |
2.2.2 傅里叶中心切片定理 |
2.3 CT经典重建算法 |
2.3.1 ART算法 |
2.3.2 ART迭代算法耗时较长的问题 |
2.4 本章小结 |
3 基于多核DSP处理平台的算法加速研究 |
3.1 TI多核DSPC6678平台 |
3.1.1 多核DSP整体架构 |
3.1.2 C6678存储结构 |
3.1.3 DSP编程方式 |
3.2 ART算法在DSP中的优化加速 |
3.2.1 代码优化 |
3.2.2 缓存优化 |
3.2.3 编译器选项 |
3.3 本章小结 |
4 基于多核DSP的算法并行设计模型研究 |
4.1 多核DSP的并行设计方法 |
4.2 OpenMP编程模型 |
4.2.1 OpenMP编程要素 |
4.2.2 OpenMP并行开发流程 |
4.3 本章小结 |
5 基于多核DSP的 ART重建算法的并行实现和测试 |
5.1 基于多核DSP的ART算法并行编程 |
5.2 真实实验数据及实验条件 |
5.2.1 实验结果 |
5.2.2 结果分析 |
5.3 本章小结 |
6 总结与展望 |
6.1 本文工作总结 |
6.2 后续工作展望 |
参考文献 |
硕士期间发表的论文及所取得的研究成果 |
致谢 |
(2)基于FPGA的电力电子控制器设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景与意义 |
1.2 FPGA电力电子控制器研究现状 |
1.3 本文的主要工作内容 |
第二章 FPGA全数字电力电子控制器设计理论 |
2.1 数字控制器基本类型及分类 |
2.1.1 顺序控制方式 |
2.1.2 并行控制方式 |
2.1.3 混合控制方式 |
2.2 FPGA全数字电力电子控制器设计理论依据 |
2.3 FPGA全数字电力电子控制器设计原则 |
2.3.1 参数化模块化设计原则 |
2.3.2 面积与速度综合考虑原则 |
2.3.3 顶层模块时序调度原则 |
2.4 FPGA全数字电力电子控制器设计方法 |
2.4.1 搭建三级电力电子参数化IP核库 |
2.4.2 合理安排资源开销与计算速度 |
2.4.3 设计使能位与运算完成标志位 |
2.4.4 顶层时序调度协调机制 |
2.5 小结 |
第三章 FPGA三级电力电子IP核设计 |
3.1 开发环境 |
3.2 基础逻辑级IP核设计 |
3.3 计算功能级IP核设计 |
3.4 控制环路级IP核设计 |
3.5 基于模型的IP核设计 |
3.6 小结 |
第四章 基于FPGA的采样控制与保护机制 |
4.1 基于FPGA实现的采样控制 |
4.1.1 AD采样芯片工作特性 |
4.1.2 AD采样控制状态机设计 |
4.1.3 采样数据管理 |
4.2 基于FPGA实现的保护机制 |
4.2.1 故障信号判断 |
4.2.2 脉冲封锁信号产生 |
4.2.3 脉冲封锁执行 |
4.2.4 设计结果 |
4.3 通用辅助逻辑控制卡设计 |
4.4 小结 |
第五章 FPGA控制器应用平台设计 |
5.1 应用平台搭建 |
5.2 APF基本原理 |
5.3 易于IP核直接实现的APF控制策略 |
5.4 控制策略仿真验证 |
5.5 全FPGA控制器控制策略实现 |
5.5.1 电力电子IP核的选择 |
5.5.2 顶层IP核触发时序设计 |
5.6 硬件综合结果 |
5.7 FPGA控制器应用结果 |
5.8 控制性能对比实验 |
5.8.1 控制结构对比 |
5.8.2 计算周期对比 |
5.8.3 对比实验结果 |
5.9 小结 |
第六章 结论与展望 |
6.1 主要结论 |
6.2 研究展望 |
参考文献 |
附录 APF控制系统顶层RTL视图 |
在学期间的研究成果 |
致谢 |
(3)基于多核DSP的XX星座载荷处理软件系统研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
1.绪论 |
1.1 论文的研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.2.1 多核DSP软件系统的研究现状 |
1.2.2 多核DSP在卫星领域的应用现状 |
1.3 论文研究内容和章节安排 |
1.4 论文的创新点 |
2.星座载荷处理系统的多核架构及软件框架设计 |
2.1 星座载荷处理系统硬件平台分析 |
2.2 TMS320C66x DSP硬件性能介绍 |
2.2.1 多核DSP简介 |
2.2.2 Keystone架构及内核性能分析 |
2.2.3 外围接口性能分析 |
2.3 基于星座载荷处理的DSP软件设计 |
2.3.1 软件需求分析 |
2.3.2 软件功能布局 |
2.3.3 软件模块化分层设计 |
2.4 本章小结 |
3.系统底层封装及高速数据传输 |
3.1 底层配置及封装 |
3.1.1 C66x内核时钟模块配置 |
3.1.2 DDR3 存储器初始化配置 |
3.2 高速SRIO接口的数据传输研究 |
3.2.1 SRIO通信协议与数据包结构分析 |
3.2.2 通信模式的设计与软件配置 |
3.3 EMIF16 接口通信设计和实现 |
3.3.1 硬件接口模块信号特征 |
3.3.2 通信软件设计与实现 |
3.4 本章小结 |
4.基于并行运算的多核软件系统实现 |
4.1 多核系统软件并行模型 |
4.1.1 并行编程模型概述 |
4.1.2 主从模型 |
4.1.3 数据流模型 |
4.1.4 星座载荷处理系统并行模式设计 |
4.2 核间同步与通信机制研究 |
4.2.1 IPC中断通信机制 |
4.2.2 基于SYS/BIOS的消息机制 |
4.2.3 共享存储区域查询机制 |
4.2.4 基于消息队列的核间通信方式研究与应用 |
4.3 多核存储空间布局及冲突保护机制 |
4.3.1 多核存储空间配置与布局 |
4.3.2 基于硬件信号量的访存保护机制 |
4.4 多核程序固化及上电同步研究 |
4.4.1 多核程序加载原理 |
4.4.2 多核程序融合 |
4.4.3 多核程序加载思路及实现 |
4.4.4 程序可靠性与可维护性 |
4.5 本章小结 |
5.基于图像应用的多核系统运行实现及性能验证 |
5.1 星上图像处理算法及系统运行流程 |
5.1.1 星上舰船目标识别算法及目标分析 |
5.1.2 星上载荷数据处理系统运行流程 |
5.2 软件优化方法及实验结果分析 |
5.2.1 软件优化方法 |
5.2.2 相机载荷图像处理系统结果分析 |
5.3 本章小结 |
6.总结与展望 |
6.1 工作总结 |
6.2 后续工作展望 |
参考文献 |
作者简历及在学期间所取得的科研成果 |
(4)基于FPGA的高性能算法实现的设计模式及其应用研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状与分析 |
1.3 本文研究内容 |
1.4 文章组织架构 |
第2章 FPGA上高性能算法实现的设计模式及其性能评价标准 |
2.1 FPGA上高性能算法实现研究基础 |
2.2 基于FPGA的高性能算法实现设计模式 |
2.2.1 有利于提升FPGA上算法实现性能的流式数据 |
2.2.2 构建FPGA上高性能算法实现的设计模式 |
2.3 高性能算法实现的性能评价标准 |
2.3.1 适用于基于FPGA的异构计算形态的加速比评价方法 |
2.3.2 针对HLS的性能误差方程和HLS综合结果性能评价方程 |
2.4 本章小结 |
第3章 应用脉动式线性框架设计模式的线性排序算法实现 |
3.1 FPGA实现排序算法基础 |
3.2 基于扩展非严格偏序序列的线性排序算法 |
3.2.1 扩展非严格偏序序列 |
3.2.2 基于扩展非严格偏序序列的线性排序算法 |
3.2.3 基于非严格偏序序列的线性排序算法证明 |
3.2.4 基于非严格偏序序列的线性排序算法的评价 |
3.3 基于非严格偏序序列的线性排序算法在FPGA上的实现 |
3.3.1 状态机设计 |
3.3.2 排序微处理器设计 |
3.3.3 性能评估 |
3.3.4 当待排序数据规模大于线性排序器排序能力时的解决方案 |
3.4 性能评测及分析 |
3.4.1 Z-turn平台上的线性排序器性能 |
3.4.2 KCU105平台上的线性排序器性能 |
3.4.3 与当前最新的并行排序算法和线性排序算法的性能比较 |
3.5 本章小结 |
第4章 应用多级流水“映射-归并”框架设计模式的群智能算法实现通用框架 |
4.1 FPGA实现群智能算法研究基础 |
4.2 群智能算法框架分析及基于流数据的算法重构 |
4.2.1 群智能算法框架分析 |
4.2.2 群智能算法的并行性及数据流分析 |
4.3 算法实现 |
4.3.1 FASI的基础框架 |
4.3.2 FASI在FPGA上的实现 |
4.3.3 FASI在GPU上的实现 |
4.3.4 FASI在Multi-core CPU上的实现 |
4.3.5 使用和未使用多级流水“映射-归并”框架设计模式的FASI性能比较 |
4.4 性能评测及分析 |
4.4.1 性能评估实验环境 |
4.4.2 FASI在FPGA上的性能 |
4.4.3 FASI在GPU上的性能 |
4.4.4 FASI在Multi-core CPU上的性能 |
4.4.5 FASI在FPGA、GPU和Multi-core CPU上的性能比较 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 工作总结 |
5.2 工作展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(5)面向深度学习算法的DSP关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 深度学习算法相关研究现状 |
1.2.1 深度学习算法的发展和研究现状 |
1.2.2 深度学习算法的加速平台现状 |
1.3 本文主要研究内容与工作 |
1.4 论文结构 |
第二章 当前深度学习加速研究 |
2.1 当前深度学习算法加速 |
2.1.1 采用FFT算法进行加速 |
2.1.2 采用Winograd算法进行加速 |
2.1.3 加速算法总结 |
2.2 深度学习算法在硬件平台上的加速 |
2.2.1 在GPU上的加速 |
2.2.2 在FPGA平台上的加速 |
2.2.3 在ASIC平台上的加速 |
2.2.4 在DSP平台上的加速 |
2.3 本章小结 |
第三章 深度学习算法在单核X-DSP上的加速研究 |
3.1 向量X-DSP单核结构介绍 |
3.2 深度学习算法在X-DSP单核结构上的映射研究 |
3.2.1 卷积层的映射研究 |
3.2.2 全连接层的映射研究 |
3.2.3 池化层的映射研究 |
3.2.4 归一化层的映射研究 |
3.2.5 其他常见层的映射研究 |
3.3 编程优化研究 |
3.4 实验与分析 |
3.5 本章小结 |
第四章 深度学习算法在X-DSP多核上的加速研究 |
4.1 向量X-DSP多核结构介绍 |
4.2 深度学习算法在向量X-DSP多核结构上的映射研究 |
4.2.1 多输入特征图深度学习算法介绍 |
4.2.2 卷积层在X-DSP多核上的映射 |
4.2.3 全连接层在X-DSP多核上的映射 |
4.2.4 其他层在X-DSP多核上的映射 |
4.2.5 虚拟存储技术 |
4.3 X-DSP多核向量处理器编程环境 |
4.4 实验与分析 |
4.5 本章小结 |
第五章 深度学习算法在阵列计算单元上的映射 |
5.1 面向深度学习算法的阵列计算单元结构设计 |
5.1.1 阵列计算单元体系结构设计 |
5.1.2 阵列计算单元与X-DSP体系结构之间的关系 |
5.1.3 阵列计算单元设计原则 |
5.1.4 阵列计算单元的粗粒度流水和并行化设计 |
5.1.5 阵列计算单元中的其他相关设计 |
5.2 卷积层在乘法器阵列的映射研究 |
5.2.1 卷积层并行性分析 |
5.2.2 卷积层往乘法器阵列的映射 |
5.2.3 卷积层在阵列计算单元上的分块 |
5.3 全连接层在阵列计算单元上的映射研究 |
5.3.1 全连接层在阵列计算单元上的基本映射 |
5.3.2 全连接层在阵列计算单元上的分块 |
5.4 实验与分析 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 未来研究方向 |
致谢 |
参考文献 |
作者在学期间取得的学术成果 |
作者在学期间参与的主要科研项目 |
(6)基于多核DSP的5G基带处理平台的设计与实现(论文提纲范文)
摘要 |
abstract |
注释表 |
第1章 引言 |
1.1 研究背景 |
1.2 研究意义 |
1.3 研究现状 |
1.3.1 5G研究现状 |
1.3.2 基带处理平台研究现状 |
1.4 论文组织结构 |
第2章 基带处理平台架构概述 |
2.1 5G终端模拟器架构 |
2.2 基带处理平台需求分析 |
2.3 芯片选型 |
2.4 基带处理平台架构 |
2.5 本章小结 |
第3章 基带处理平台软件开发 |
3.1 基带处理软件方案设计与实现 |
3.1.1 多核并行结构分析 |
3.1.2 软件分层设计 |
3.1.3 基带处理平台软件设计方案 |
3.2 功能模块设计 |
3.2.1 适配层模块设计 |
3.2.2 Trace模块设计 |
3.2.3 中断机制模块设计 |
3.3 SYS/BIOS操作系统 |
3.3.1 SYS/BIOS简介 |
3.3.2 SYS/BIOS各模块介绍 |
3.3.3 构建SYS/BIOS应用程序 |
3.4 内存规划 |
3.4.1 内存结构研究 |
3.4.2 Cache原理 |
3.4.3 内存分配设计 |
3.5 软件方案验证 |
3.6 本章小结 |
第4章 基于TMS320C6678 芯片内部通信方案设计 |
4.1 IPCGR |
4.1.1 IPCGR寄存器原理 |
4.1.2 IPCGR设计与测试 |
4.2 多核导航 |
4.2.1 多核导航内部结构研究 |
4.2.2 多核导航设计与实现 |
4.2.3 多核导航测试 |
4.3 EDMA3 |
4.3.1 EDMA3 内部结构研究 |
4.3.2 EDMA3 设计与实现 |
4.3.3 EDMA3 测试 |
4.4 本章小结 |
第5章 基于TMS320C6678 芯片间通信方案设计 |
5.1 Hyperlink通信 |
5.1.1 Hyperlink接口内部结构研究 |
5.1.2 Hyperlink接口驱动设计与实现 |
5.1.3 Hyperlink接口测试 |
5.2 以太网通信 |
5.2.1 网络协处理器内部结构研究 |
5.2.2 以太网接口开发 |
5.2.3 以太网接口测试 |
5.3 SRIO通信 |
5.3.1 SRIO接口内部结构研究 |
5.3.2 SRIO接口驱动设计与实现 |
5.3.3 SRIO接口测试 |
5.4 本章小结 |
第6章 总结与展望 |
6.1 论文工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
攻读硕士学位期间从事的科研工作及取得的成果 |
(7)合成孔径雷达实时成像算法优化与系统开发(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文内容与安排 |
第二章 弹载SAR实时成像算法 |
2.1 引言 |
2.2 成像算法原理 |
2.3 基于惯导数据的运动补偿 |
2.4 本章小结 |
第三章 基于多核DSP的信号处理设计 |
3.1 引言 |
3.2 信号处理平台简介 |
3.2.1 DSP芯片简介 |
3.2.2 硬件平台简介 |
3.2.3 DSP编程方式 |
3.3 基于DSP的实时成像算法软件设计与优化 |
3.3.1 概述 |
3.3.2 弹载SAR成像算法实现 |
3.3.3 弹载SAR成像算法优化 |
3.3.4 弹载SAR成像算法验证 |
3.3.5 程序烧写与自启动 |
3.4 基于多核DSP的弹载SAR信号处理系统设计 |
3.5 本章小结 |
第四章 基于嵌入式GPU的信号处理设计 |
4.1 引言 |
4.2 Jetson TX2平台简介 |
4.2.1 芯片与平台简介 |
4.2.2 GPU编程模型与编程方法 |
4.3 基于嵌入式GPU的实时成像算法优化与验证 |
4.3.1 实时成像算法实现与优化 |
4.3.2 实时成像算法验证 |
4.4 基于嵌入式GPU的弹载SAR信号处理系统设计 |
4.4.1 硬件架构设计 |
4.4.2 软件架构设计 |
4.5 本章小结 |
第五章 数字仿真测试系统设计与实现 |
5.1 引言 |
5.2 软件架构设计 |
5.2.1 设计需求分析 |
5.2.2 GUI框架选择与设计思想 |
5.2.3 软件架构实现 |
5.3 软件功能与实现 |
5.3.1 Qt编程概述 |
5.3.2 登录模块 |
5.3.3 主界面 |
5.3.4 通信协议与网络编程 |
5.4 半实物仿真系统测试 |
5.4.1 基于仿真数据的系统测试 |
5.4.2 基于回波模拟器的系统测试 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 研究工作总结 |
6.2 后续工作展望 |
参考文献 |
致谢 |
作者简介 |
(8)基于卷积神经网络的嵌入式图像识别系统与优化(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 课题背景内容及意义 |
1.1.1 课题背景 |
1.1.2 课题内容及意义 |
1.2 国内外图像分类和高性能DSP研究现状 |
1.2.1 国内外图像分类算法研究现状 |
1.2.2 国内外高性能DSP发展状况 |
1.2.3 常见的高性能DSP架构 |
1.3 国内外在DSP嵌入式系统上实现图像处理发展研究 |
1.3.1 国内外针对嵌入式图像识别系统的软硬件支持 |
1.3.2 在嵌入式DSP上实现图像处理方面针对性能优化的研究 |
1.4 论文的组织结构 |
第二章 基于卷积神经网络图像识别的基础知识 |
2.1 卷积神经网络 |
2.1.1 卷积层 |
2.1.2 池化层 |
2.1.3 全连接层 |
2.1.4 激活函数 |
2.1.5 损失函数 |
2.2 五类军事目标图像分类的卷积神经网络模型 |
2.3 本章小结 |
第三章 嵌入式软硬件平台介绍 |
3.1 硬件平台总体介绍 |
3.1.1 M7002DSK板卡简介 |
3.1.2 FT-M7002芯片主要技术指标 |
3.1.3 芯片总体结构 |
3.1.4 M7002存储器层次结构 |
3.2 M7002软件平台 |
3.2.1 M7002软件开发流程 |
3.2.2 M7002配套软件工具 |
3.2.3 JTAG调试器 |
3.3 章节小节 |
第四章 算法移植和基于编译器的优化 |
4.1 基于标量核移植,开cache优化和编译器优化选项 |
4.1.1 Darknet源码图像分类在M7002上的移植与实现 |
4.1.2 利用cache进行加速 |
4.1.3 利用编译优化选项进行优化 |
4.2 基于编译器的算法向量核编程 |
4.2.1 平铺算法的向量化实现 |
4.2.2 矩阵乘法的向量化实现 |
4.2.3 池化算法的向量化实现 |
4.2.4 归一化,加偏置,激活函数的向量化实现 |
4.2.5 循环展开思想 |
4.3 本章小结 |
第五章 基于体系结构的优化 |
5.1 基于DMA,CPU并行工作的优化 |
5.2 基于cache一致性维护的实现 |
5.3 存储系统的优化 |
5.4 本章小结 |
第六章 手工汇编和多核的优化 |
6.1 采用手工汇编实现主要函数的优化 |
6.1.1 矩阵乘函数的汇编实现 |
6.1.2 平铺函数的汇编实现 |
6.1.3 池化函数的汇编实现 |
6.2 多核实现 |
6.2.1 并行编程实现模型 |
6.2.2 M7002利用同步单元实现多核同步过程 |
6.3 实验结果 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 研究工作总结 |
7.2 研究展望 |
参考文献 |
致谢 |
作者简介 |
(9)基于C6678DSP的雷达信号处理算法高效实现(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 论文的内容和安排 |
第二章 雷达信号处理基本理论 |
2.1 雷达信号处理流程 |
2.2 雷达动目标显示 |
2.3 阵列信号处理常用矩阵运算 |
2.4 本章小结 |
第三章 C6678DSP的资源和处理性能 |
3.1 C6678DSP的系统架构 |
3.1.1 C6678DSP的EDMA模块 |
3.1.2 C6678DSP的硬件信号量模块 |
3.2 内核处理性能 |
3.2.1 寄存器 |
3.2.2 运算单元 |
3.3 通信资源 |
3.3.1 RapidI/O通信 |
3.3.2 以太网通信 |
3.4 汇编程序设计 |
3.4.1 C6678DSP的汇编指令和流水 |
3.4.2 线性汇编程序设计 |
3.4.3 普通汇编程序设计 |
3.5 基于C6678的信号处理算法实时性分析 |
3.5.1 C6678的库函数 |
3.5.2 恒虚警检测 |
3.5.3 矩阵分解 |
3.6 本章小结 |
第四章 HXDSP1042的运算性能 |
4.1 HXDSP1042的硬件资源与函数库 |
4.1.1 HXDSP1042的硬件资源与软件流水 |
4.1.2 HXDSP1042库函数 |
4.2 基于HXDSP1042 的信号处理算法实时性分析 |
4.2.1 fir滤波器 |
4.2.2 动目标显示 |
4.3 本章小结 |
第五章 自适应处理器的DSP程序设计 |
5.1 自适应处理器的工程化方案 |
5.2 系统结构和软件设计 |
5.2.1 系统组成 |
5.2.2 GIP算法程序设计 |
5.2.3 mDT算法程序设计 |
5.2.4 DSP与上位机通信 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 展望未来 |
参考文献 |
致谢 |
作者简介 |
(10)基于FT-M7002的OpenCV移植与优化(论文提纲范文)
摘要 |
ABSTRACT |
缩略语对照表 |
第一章 绪论 |
1.1 课题研究背景和意义 |
1.2 Open CV和DSP的应用发展现状 |
1.2.1 开源计算机视觉库Open CV的优势 |
1.2.2 移植Open CV到嵌入式平台的现状 |
1.2.3 DSP的发展概述 |
1.3 国内外向量DSP的研究状况 |
1.3.1 国外向量DSP的研究状况 |
1.3.2 国内向量DSP的研究状况 |
1.4 SIMD技术的发展现状 |
1.5 通用DSP平台的实时图像处理系统的研究现状 |
1.6 本文的组织结构 |
第二章 Open CV以及软硬件平台的分析 |
2.1 Open CV简介 |
2.1.1 Open CV的主要功能 |
2.1.2 Open CV的目录结构以及组成模块 |
2.2 Open CV的常用语法分析 |
2.2.1 Open CV的命名空间 |
2.2.2 Open CV写法代表意义 |
2.2.3 Open CV的常用类以及常用结构 |
2.3 Open CV主要函数类型 |
2.4 FT-M7002芯片的主要技术指标 |
2.5 FT-M7002DSK板卡 |
2.6 配套的软件工具--FT-M7002 IDE |
2.7 IDE底层配套软件分析 |
2.8 本章小结 |
第三章 Open CV在FT-M7002平台上的移植 |
3.1 交叉编译移植Open CV |
3.1.1 交叉编译移植方法 |
3.1.2 交叉编译移植方法的优势 |
3.2 交叉编译移植的可行性分析 |
3.2.1 Open CV底层C/C++库统计与FT-M7002的支持对比 |
3.2.2 交叉编译移植方法的可行性总结 |
3.3 FT-M7002工具链的手工创建 |
3.3.1 准备工作---获取源代码 |
3.3.2 正式开始手工创建 |
3.4 Open CV依赖库的交叉编译 |
3.4.1 zlib库以及libjpeg库的交叉编译 |
3.5 对应平台toolchain.cmake脚本文件的编写 |
3.6 Open CV交叉编译移植分析 |
3.7 对生成Open CV库的充分测试 |
3.8 Open CV交叉编译移植的约束条件以及对库测试的经验总结 |
3.9 本章小结 |
第四章 Open CV在FT-M7002上的优化 |
4.1 基于编译器的优化 |
4.1.1 FT-M7002编译优化选项分析 |
4.1.2 基于Cache的优化 |
4.1.3 开启编译优化选项以及开Cache的优化结果 |
4.2 Open CV函数进行向量化移植与优化 |
4.2.1 Open CV图像处理的算法特征分析 |
4.2.2 Open CV函数向量化改造可行性分析 |
4.3 Open CV在FT-M7002上的向量化改造的一般方法与实现 |
4.3.1 简单函数向量化改造的一般方法与实现 |
4.3.2 复杂函数向量化改造的实现 |
4.4 改造后向量C的最佳优化方法探索 |
4.4.1 循环展开优化原理的分析实现 |
4.4.2 DMA的分析与双缓冲的优化实现 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
致谢 |
作者简介 |
四、基于DSP的通用资源处理平台的研究和开发(论文参考文献)
- [1]基于多核DSP的图像重建算法研究[D]. 姜康. 中北大学, 2021(09)
- [2]基于FPGA的电力电子控制器设计与实现[D]. 王晨. 北方工业大学, 2021(01)
- [3]基于多核DSP的XX星座载荷处理软件系统研究[D]. 吴婧. 浙江大学, 2021(01)
- [4]基于FPGA的高性能算法实现的设计模式及其应用研究[D]. 李大琳. 吉林大学, 2020(08)
- [5]面向深度学习算法的DSP关键技术研究[D]. 杨超. 国防科技大学, 2019(01)
- [6]基于多核DSP的5G基带处理平台的设计与实现[D]. 马昶. 重庆邮电大学, 2019(02)
- [7]合成孔径雷达实时成像算法优化与系统开发[D]. 宋超. 西安电子科技大学, 2019(02)
- [8]基于卷积神经网络的嵌入式图像识别系统与优化[D]. 王蕊. 西安电子科技大学, 2019(02)
- [9]基于C6678DSP的雷达信号处理算法高效实现[D]. 李雪峰. 西安电子科技大学, 2019(02)
- [10]基于FT-M7002的OpenCV移植与优化[D]. 孙广辉. 西安电子科技大学, 2019(02)