Intel Movidius Neural Compute Stick - 英特尔Movidius神经计算棒上手体验

2018年10月6日 12056点热度 10人点赞 18条评论

新拿到了一块Intel Movidius Neural Compute Stick，是Intel Movidius推出的一款针对神经网络边缘计算加速的usb设备。今天我们来把它和同样低成本的单板计算机树莓派 Raspberry Pi 配合使用，看看综合效能如何。

Table of Contents

1 初见

包装颜色整体和本体都为英特尔特有蓝色。看起来就像一个大号U盘。纯金属机身，看来是被动散热。

这块硬件的全称是Intel Movidius Neural Compute Stick，由因特尔的Movidius推出（2016年9月英特尔宣布将收购计算机视觉创业公司Movidius）。在设备中，核心是一块英特尔®Movidius™Myriad™2视觉处理单元（VPU）。

这块设备是一块USB设备，旨在通过与主机（HOST）连接，将边缘计算中，深度学习图像的推理计算卸载到专用的计算棒中，来实现一个严苛功率限制下的高速深度学习推理计算。

不可免俗地，来看一下参数规格：

处理器：英特尔®Movidius™Myriad™2视觉处理单元（VPU）
支持的框架：TensorFlow *，Caffe *
连接性：USB 3.0 Type-A
USB记忆棒尺寸：2.85英寸x 1.06英寸x 0.55英寸（72.5毫米x 27毫米x 14毫米）
工作温度：0°C至40°C
最低系统要求：
- 运行Ubuntu * 16.04的x86_64计算机或运行Stretch桌面或Ubuntu 16.04虚拟机实例的Raspberry Pi * 3 Model B.
- USB 2.0 Type-A端口（建议使用USB 3.0）
- 1 GB RAM
- 4 GB存储空间

根据官方描述，是支持树莓派的Raspbian的。今天我们的实验也在该平台上进行。毕竟，面向低成本嵌入式边缘计算的设备，插在性能强劲的x86_64设备上，门不当户不对。

不过需要指出的是，该设备的USB规格是3.0的。Raspberry Pi 3b+仍然是USB2.0接口。可以选择性能更加强劲、接口速度更高的单板计算机以提升效果。

2 SDK安装

以下是可能需要的链接：

https://software.intel.com/en-us/neural-compute-stick

https://software.intel.com/en-us/neural-compute-stick/get-started

https://github.com/movidius/ncsdk

https://movidius.github.io/ncsdk/

https://github.com/movidius/ncappzoo

本文成文时间2018年10月初，相比该设备发售时间并不算早。

目前SDK github官方项目显示因开源许可证“Back Soon”。但仍然可以查看文档和获取SDK。SDK分为v1和v2，v2不向后兼容。

注意在官方提供的APPzoo中，master分支默认是SDKv1的示例；要获取SDKv2的示例，请切到SDKv2的tag分支。

本文中使用SDK版本为v2，使用的硬件平台为Raspberry Pi 3B+。作为上手体验，我们先进行轻度体验。

2.1 安装SDK

我们首先使用一个干净的Raspbian系统。我用的18年6月的最新版。具体树莓派镜像部署在此不表。首先将软件包升级至最新。然后获取SDK。

mkdir -p ~/workspace
cd ~/workspace
wget https://ncs-forum-uploads.s3.amazonaws.com/ncsdk/ncsdk-02_05_00_02-full/ncsdk-2.05.00.02.tar.gz
tar xvf ncsdk-2.05.00.02.tar.gz
cd ncsdk-2.05.00.02
make install

make install将自动安装除了opencv外的所有SDK组件。注意，树莓派根据ncsdk.cfg文件没有指定多线程，自动使用-j4参数可能导致资源不足编译失败。建议设置为-j2或-j3。

该过程可能耗时1个小时左右。

安装完毕后可以运行make opencv安装opencv3.3。安装opencv的过程会更慢，可能使用数个小时。

2.2 ncappzoo

接下来，https://github.com/movidius/ncappzoo 是官方提供的应用实例库。包含一些caffe和TensorFlow模型，和使用它们的具体案例。README.md里已经有非常详细的说明，包括目标识别、目标检测和分数应用等。

图：ncappzoo 目标检测应用一角

3 Tiny YOLO v2实战

本节主要来看树莓派运行Tiny YOLO(v2)目标检测，看看实际成绩如何。

使用的项目为https://github.com/duangenquan/YoloV2NCS

我使用的是960*540的示例视频，置信度阈值0.3。

受限于USB2.0性能，离线视频平均为1帧。

4 评价

根据我们一般理解，深度学习边缘计算发展路线为GPU->FPGA->ASIC。Intel的神经计算棒则直接给我们以最终形态呈现出来。配合Arm v7l架构的HOST，考虑到自身成本（约650元）和HOST成本（约200元），作为视觉方案的快速原型搭建，是可以接受的。其与Caffe和TensorFlow的模型友好是非常大的亮点。

本次上手体验主要体验了该硬件给我们带来除GPU的解决方案和性能表现。接下来的文章我们将对其进行深度探究，包括SDK使用、模型转换和运行原理等。: )