本发明适用于云计算技术领域,提供了一种基于CPU-GPU异构集群的大数据一体机实现方法,所述方法包括:搭建一个计算机集群,所述计算机集群中包含一个配有CPU处理器的Master节点和其余配有CPU和GPU处理器的Slave节点;将CUDA安装在Slave节点上;选择Hadoop提供的MapReduce模型,为每个任务块启动一个Map任务,并将Map任务发送给Slave节点进行计算;Slave节点将接收到的Map任务划分成相应的比例后分给CPU或GPU,以执行Map和Reduce操作,并将操作结果发送给Master节点;Master节点接收各Slave节点反馈的操作结果,完成全部任务处理。
一种基于CPU-GPU异构集群的大数据一体机实现方法,其特征在于,所述方法包括:步骤一、搭建一个计算机集群,所述计算机集群中每个计算机作为一个节点,所述节点中包含一个配有CPU处理器的Master节点和其余配有CPU和GPU处理器的Slave节点,所述Master节点用于根据预定的任务调度策略对任务进行调度控制,所述Slave节点用于Map或Reduce的计算操作;步骤二、选择CUDA作为GPU的计算模型,并将所述CUDA安装在所述Slave节点上;步骤三、选择Hadoop提供的MapReduce模型,通过Master节点将任务划分成多个任务块,为每个任务块启动一个Map任务,并将所述Map任务发送给所述Slave节点进行计算;步骤四、所述Slave节点根据自身CPU与GPU的计算能力,将接收到的所述Map任务划分成相应的比例后分给所述CPU或GPU上空闲的计算单元,执行Map和Reduce操作,并将操作结果发送给所述Master节点;步骤五、所述Master节点接收各Slave节点反馈的操作结果,完成全部任务处理。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。MapReduce是 Hadoop的核心组件,MapReduce提供了两项重要的操作:I) Map操作,用于处理key-value对, 并产生中间结果;2) Reduce操作,用于将具有相同键的值规约起来,并产生最终结果。通过 Map操作和Reduce操作很容易在Hadoop平台上进行分布式的计算编程。图形处理器(^Graphic Processing Unit,GPU)是一种配置有大规模计算单元的众 核处理器,与CPU相比,它具有更快的计算能力和更高的内存带宽。然而,现有的Hadoop只能运行于CPU集群,并没有考虑到GPU庞大的并行计算能力, 导致海量数据计算运行效率偏低。
发明人:田盼;喻之斌;刘勇;杨洋;曾永刚;贝振东;须成忠
联系方式:0755-86392458
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
本发明实施例与现有技术相比存在的有益效果是:通过搭建一个由多台CPU与GPU 组成的集群,并在集群上部署改进后的Hadoop平台,以实现在CPU-GPU异构集群上运行 Hadoop。而且,在每个Slave节点上安装⑶DA,从而可以实现对计算机集群上CPU和GPU计算 资源的统一调度,使得具有大数据量且计算密集型的任务可以高效的完成,有效解决现有 海量数据计算运行效率偏低的问题。
技术合作
本发明实施例的技术方案本 质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的 形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计 算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明 实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只 读存储器(R〇M,Read_Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟 或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实 施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各 实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改 或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范 围。