网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
07月03日漏签0天
程序员吧 关注:278,387贴子:1,386,050
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 4回复贴,共1页
<<返回程序员吧
>0< 加载中...

超详细案例解读,利用FPGA加速深度神经网络运算

  • 只看楼主
  • 收藏

  • 回复
  • 麦琪晓晓
  • 初涉语法
    2
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
全联接神经网络是一种计算量比较大的机器学习模型,在训练和推断过程中需要对所有神经元进行矩阵计算。为了加快计算速度,各公司的大佬们采取了不同手段进行数据的抽象和综合。
通常来说,我们采用卷积操作,将数据进行抽象和综合,然后送入到全连接神经网络进行最后的计算,实质上就是矩阵运算等数学计算的一系列综合操作。
熟悉矩阵运算的朋友都知道,矩阵当中的每个元素和其他元素是没有关联的,这种特性天然就适合使用并行计算的方式来加快其计算速度。
重点来了!并行计算正是 FPGA 等芯片的强项,利用FPGA将有效实现深度学习神经网络的加速计算(推理),下面是具体的操作展示。
1. 深度学习神经网络的环境搭建
2. 安装OpenCL的开发环境,使Intel® Arria® 10 FPGA作为OpenCL的设备,注意安Intel对应的SDK
3. 利用Tensorflow 作为框架,实现一个简单的全连接神经网络
(提供一个算法描述示例,使用 Mnist 数据集作为训练和测试)
1)Mnist 数据集每张图片为 28×28 像素,将每张图片的像素点作为输入
2)第一个隐藏层设置 500 个神经元,与输入图像的 784 个像素点做计算(矩阵乘法)
3)将得到的结果使用 relu 函数进行结果,只保留数值 >0 的结果,其他的设置为 0
4)第二个隐藏层设置 10 个神经元,与第一个隐藏层的输出进行计算(矩阵乘法),最终得到 10 个结果作为输出
从上述的算法描述当中,我们可以看到实际上就是几次矩阵的计算过程:一个 [1,784] 和 [784, 500] 的矩阵乘法,得到一个 [1,500] 的中间矩阵;然后这个 [1,500] 的中间矩阵与 [500, 10] 的矩阵进行计算,最终得到一个 [1,10] 的矩阵,这个就是我们的最终结果。
4. 对搭建完成的神经网络进行训练,训练之后得到模型文件
5. 通过一定的操作方式,提取这些模型文件中的模型参数
6. 把模型参数当作输入的参数,送入到FPGA当中进行加速计算,实现推理过程
上述神经网络算法的OpenCL实现,大致如下:

7. 最后使用C/C++编写CPU程序,与 FPGA 进行交互,来验证 OpenCL 算法实现的正确性。
以下是 CPU 程序的部分代码。

通过以上步骤,我们就成功的使用OpenCL在Intel FPGA上实现了一个简单的神经网络的推理加速。


  • 永恒梦魇
  • 初涉编程
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
谢LZ,已学习


2025-07-03 16:20:13
广告
  • 无聊到疯狂呐喊
  • 初涉编程
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
顶一下,辛苦楼主,对OpenCL不太熟,基于OpenCL的算法实现方便详细展示一下吗?


  • 艾维资讯
  • 初涉编程
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
回楼上,英特尔FPGA中国创新中心官网有相关的线上培训课,有讲OpenCL,可以关注一下


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 4回复贴,共1页
<<返回程序员吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示