企名片资讯|刷新端侧AI芯片性能，算法5分钟快速部署！揭秘肇观电子AI芯片背后“黑科技”

原标题：刷新端侧AI芯片性能，算法5分钟快速部署！揭秘肇观电子AI芯片背后“黑科技”

芯东西（公众号：aichip001）

文 | 闻孰

成立不到五年，肇观电子已经在计算机视觉这条赛道上杀出重围。其“拳头产品”N1系列计算机视觉芯片，刷新了端侧AI芯片性能记录，并达到了几乎“无损”的精度。肇观电子同步推出“5分钟部署”的AI开发平台Infer Studio™，直击企业算法落地难的痛点。

据悉，N1系列芯片具备领先的每TOPs处理帧数和实时数据流处理能力、高性能的INT8网络支持能力、多级精细功耗控制、高集成度的设计；支持高精度FP16神经网络模型直接无损部署。

智能化浪潮下，AI技术走出实验室，成为切实帮助千行百业“提质增效”的引擎，种种AI技术中，计算机视觉无疑是开启智能化未来的一大抓手。从安防到IoT设备，上至国计下至民生，AI视觉应用的蓝图已然铺开。

作为计算机视觉蓝海中的一叶扁舟，肇观电子正凭借其AI芯片产品与开发平台Infer Studio™，分别从硬件与软件端打造智能化解决方案。我们了解到，在某消费级项目中，借助Infer Studio™平台，肇观电子的N1系列芯片成功实现了同时支持11种AI算法的运行。

令人好奇的是，这一成果是怎样实现的？肇观电子以N1系列芯片、Infer Studio™平台构建的AI解决方案，切实为用户带来了什么？身处一众AI芯片玩家之中，肇观电子凭借怎样的产品设计巧思来树立自身优势？

为回答这些疑问，芯东西与肇观电子创始人、CEO冯歆鹏进行了深度对话，以走近肇观电子计算机视觉芯片、Infer Studio™平台背后的黑科技。

▲肇观电子创始人、CEO冯歆鹏

一、从硬到软的计算机视觉解决方案

冯歆鹏向芯东西透露，目前，肇观电子研发团队规模超过200人，其中硬件研发人员与软件研发人员的比例大约为1:2.2。基于自研的CVKit™ NN IP，肇观电子形成了面向安防、车载、3D视觉等不同细分赛道的AI芯片产品矩阵，同时推出AI应用开发平台Infer Studio™。

得益于CVKit™ NN IP的架构，在运行神经网络算法中，肇观电子AI芯片内的CPU并不参与计算(其占用率一直小于1%），CPU的算力完全保留给客户使用。

其中，肇观电子今年发布的N163、N161、N160三款计算机视觉芯片分别提供2.4TOPS、1.2TOPS、1TOPS的算力，以满足工业检测、智慧安防、轻量AIoT市场的不同需求；Infer Studio™开发平台则面向缺乏AI相关能力的用户，帮助后者快速部署AI视觉算法。

▲肇观电子N1系列芯片

冯歆鹏称，N1系列芯片不同于市场上常见的计算机视觉芯片，并非AI协处理器，而是一款高度集成的主芯片。这意味着N1系列芯片除了具备信号采集功能、信号处理功能等计算机视觉芯片的“老本行”外，还能支持更多功能。

“我们的芯片采取了非常异构的架构，除了做好信号采集和信号处理，我们还添加了各种外设接口、支持很多类型的内存颗粒等等，总体而言N1系列芯片是一款很综合的SoC。”他说。

同时冯歆鹏分享，仅打造出高度集成的计算机视觉SoC并不足以满足市场需求，要把AI算法延伸到实际应用，还需要提升硬件对AI算法支持的效率，“把客户需求硬化成芯片后卖给他们是一个简单、美好的逻辑，但实际完全不是这样。实际还需要有对应用的深刻理解和对人工智能经典算法的延伸等等”。

我们得知，Infer Studio™平台通过支持数学计算通用的规范提升算法部署应用的效率，实际应用中，可满足用户算法快速迭代的需求。

二、N1系列芯片：“又快又准”是主要指标

每个应用和系统厂商都在寻找在性能、功耗、成本等方面综合因素下合用的AI芯片。评估AI芯片是否适合使用往往从每元钱能获得的性能、每度电能获得的性能、部署实施的成本、元器件是否稳定可靠等几个方面来衡量。

其中，芯片厂商宣称的每TOPs（Tera operations per second）的算力对应的实际每秒计算多少帧数据（例如图片或者视频），以及算法从训练到部署的转换中对精度的保持成为关键。

据肇观电子分享，根据不同算法网络的测试结果，N1系列芯片每TOPS算力下每秒可推理图片的数量展示出了业界领先的水平。同时，N1系列还支持FP16高精度网络。

▲在INT8的精度下，N161跑各项网络可以达到的每秒帧数

▲在FP16的精度下，N161跑各项网络可以达到的每秒帧数

以面向智慧安防应用场景研发的N161芯片为例。计算性能方面，肇观电子记录了N161芯片对9种算法网络的运行结果，并对比N161芯片与某业界旗舰芯片对其中5种算法网络的运行效果。

对比结果显示，针对ResNet-50、MobilleNetV1、MobilleNetV2、MobilleNetV1-SSD、YOLOV3这五种算法网络，在INT8精度下，N161芯片的运行效果均优于某业界旗舰芯片。

▲针对五种算法网络，N161芯片与某业界旗舰芯片的运行结果对比

对于一款AI芯片来说，除了过硬的计算性能，计算精度也是一个需要考虑的重要指标。这是因为在算法模型的训练、部署过程中，数据类型转换导致的精度损失会使成本上升。

以无人零售设备为例，如果物体识别算法在实际运行中有1%的精度下降，货损率和运营成本就会大幅增加。

肇观电子记录了N161芯片在PC NCNN fp32精度、板端INT8精度下，对7种算法网络的运行结果，并计算模型从fp32量化为INT 8时的精度损失。

根据7种不同网络的测试结果，N161 INT8量化网络的精度损失均在1%以内，亦支持FP16网络直接无精度损失的部署。

▲针对七种算法网络，N161 INT8量化网络几乎无精度损失

三、Infer Studio™：破解算法落地难题

人工智能落地的挑战，一方面在于整个产业链亟待在性能、成本、功耗等方面综合性能优异的核心芯片；另一方面则在于算法部署实施、具体应用过程中，所需知识技能过于专业而导致的综合成本高昂。其中，后者成为算法部署落地的一大难题。

针对这一问题，肇观电子推出AI应用开发平台Infer Studio™。Infer Studio™能够将算法“翻译”成芯片能够“读懂”的表述文件，使算法快速完成部署，同时为开发者提供“一键式”的开发体验。

以车载项目为例，在监测司机是否在驾驶过程中出现说话、打电话、打瞌睡等情况时，系统需要监测司机的眼部状态、司机耳边是否有电话等。通常来说，部署这样一套系统需花费至少一星期的时间。相比之下，借助Infer Studio™开发平台可使该算法迅速完成编译并在平台上高速跑起来。

这一过程中，通过模块间Bind的方式，开发者可灵活地根据自己的应用需求组合功能模块，或者自由删除、替换、增加某些算法模块。所有pipeline搭建工作都可通过可视化或几行配置代码来实现，将AI算法开发时间压缩到极限。

除了车载场景，对于物体分类、人脸/车辆识别、物体分割等应用场景，Infer Studio™开发平台亦可加速算法编译到应用部署的过程。

▲Infer Studio™开发平台

在Infer Studio™提供的“一键式”开发体验背后，肇观电子提供了怎样的黑科技？

我们了解到，Infer Studio™开发平台支持TensorFlow/TensorFlow Lite/ONNX/Caffe等主流框架，可供开发者自由选用；在软件层，Infer Studio™具有Model Visualization可视化模型、Compiler编译器、Evaluator效果评估器、Debugger调试器四种功能。

1、Model Visualization可视化模型可将PC端算法网络的复杂文本描述转换成网络图，帮助开发者直观地分析网络的结构和属性。

2、Compiler编译器可将基于主流AI框架开发出的算法转换成芯片可以理解的文件，同时完成Compression的功能，进一步精简算法模型大小，使算法能够部署到存储空间有限的端设备，提升网络推理性能。

同时，编译器支持算子融合、预编译等优化选项，可进一步将推理性能提升至硬件的极限。

3、Evaluator效果评估器可用于快速评估算法在芯片上运行结果是否正确、芯片性能是否被发挥出来，同时能以可视化方式，呈现分类、检测分割等网络对测试的图片的算法效果。

4、Debugger调试器用于高效分析算法移植过程中可能遇到的偏差和兼容性问题。用户可导出算法运行中的每一层数据，跟原本算法中的每一层数据做对比，以便随时发现错误和进行调试。

另外，在N1系列芯片的落地过程中，肇观电子还会根据客户的不同需求，为客户提供技术支持。冯歆鹏说：“我们跟客户保持着非常紧密的互动，客户提出的很多需求，我们都会把它们反映到芯片里去。”

▲Infer Studio™开发平台

结语：从软到硬的全面计算机视觉解决方案

“肇观”取自“开启视觉”之意。产业智能化浪潮汹涌而来，身处浪潮中，肇观电子正从计算机视觉出发，承担为工业检测、智慧安防、轻量AIoT等领域玩家“赋能”的角色。

作为AI芯片设计领域的核心玩家，肇观电子不仅在芯片核心技术上不断突破，还为客户提供“一键式”配套开发工具，提供从硬到软的全面产品支撑。

除了分享肇观电子产品设计的思路，冯歆鹏亦指出，计算机视觉的市场还处于发展期，这意味着像肇观一样的计算机视觉芯片企业并无太多经验可以借鉴，只能摸索前行。期待通过肇观等先行者的探索，AI视觉应用能够在更大范围、更加深入帮助行业提质增效。返回搜狐，查看更多

责任编辑：