人工智能产业现状与开源所面临的问题

摘要 现有AI 开源产品在行业中的应用越来越多,一些企业利用自身的技术优势,重点打造AI 应用开放平台,提供语音引擎、视觉引擎、自然语言处理引擎等众多AI 基础技术,围绕开放平台,构建人才生态和行业生态,全面覆盖各个行业领域。
        近年来开源技术蓬勃发展,诸如计算机视觉开源社区OpenCV、开源数据集ImageNet、开源智能终端操作系统Android 和其他大量开源工具及平台,无不表明开源创新与协同有力推动了产业进程。同理,人工智能尤其是深度学习相关的开源蓬勃发展,也将对我国人工智能相关产业产生积极影响。
 

        第一,人工智能开源有助于支撑人工智能领域形成高端产业集群优势,逐步引领世界前沿技术的发展。

        第二,人工智能开源有助于吸引更多人才进入人工智能产业,建设多层次人才培养体系。

        第三,人工智能开源有助于推动人工智能广泛应用,加快推动人工智能与各行业的融合创新和赋能。

        一、AI 产业现状及产业链

        现有AI 开源产品在行业中的应用越来越多,一些企业利用自身的技术优势,重点打造AI 应用开放平台,提供语音引擎、视觉引擎、自然语言处理引擎等众多AI 基础技术;围绕开放平台,构建人才生态和行业生态,全面覆盖教育、金融、家电、医疗、手机、汽车、安防等领域,在内业已产生巨大的经济价值和社会价值。伴随着应用场景的快速发展,数据开源会成为新的趋势,数据收集和标注的标准化需求也会越来越迫切,业内也产生了一批从事数据收集和标注的初创公司和平台。

        目前,全球涉及人工智能的企业集中分布在美国、中国、加拿大、德国等少数国家或地区,且在美国和中国的企业数量已占全球的半数以上。美国和中国依靠其卓越的技术研发机构及融合丰富应用场景的各类实验室,协同领衔全球人工智能的发展,奠定了雄厚的技术基础。中国当前具有多个人工智能聚集中心和地方特色人工智能发展产业,其中以北京与天津、上海与杭州、深圳与广州为重点城市群抱团发展的产业格局逐步显现,形成三大人工智能聚集中心。

        图1是我们制定的人工智能参考框架图,图2是人工智能领域目前在产业界应用的全景图。在产业全景图中的“基础设施”层对应了参考框架中的“数据”与“算力”,产业全景图中的“关键技术”层对应了参考框架中的“算法”,产业全景图中的“智能系统”及“行业应用”对应了参考框架中的“产品与服务”。
 
(图1:人工智能参考框架图)
 
(图2:人工智能产业生态圈全景图)

        人工智能产业链宏观上由基础层、技术层和应用层等三个层次组成,其中基础与核心技术的研究主要分布在大企业及科研机构,而应用层的研究测试在大中小企业均有涉及,形成了全面开花、全行业覆盖的局面。

        1、基础层

        芯片研发作为基础层的核心,已成为人工智能发展的关键因素。芯片在技术架构方面可分为通用类芯片(如CPU、GPU 等)、半定制化芯片(如FPGA 等)、全定制化芯片(如ASIC 等)和类脑计算芯片。目前GPU 是深度学习训练平台的主流配置,而FPGA 的灵活可编程特点可以使得在算法未完全成熟时切入市场,同时其低功耗特性也被大型数据中心所青睐。在专用人工智能芯片领域,自2016年Google 发布了TPU 芯片后,这一市场热潮不断。国内如寒武纪、地平线、华为海思等公司也纷纷研发出可规模商用的人工智能专用计算芯片。

        随着物联网技术的不断发展,传感、计算、通讯、AI 等功能的集成变得尤为重要,若每个功能均依靠单一芯片,不但效率低下,而且能耗和成本都很高,因此将不同的功能整合在一起,构建异构芯片,会极大缓解上述问题。由AMD、ARM、华为、HXGPT、高通、IMAGINATION 和三星等公司组成的全球异构系统架构(HSA) 联盟在2017 年成立了中国区域委员会(CRC)。CRC 的任务是以构建HSA生态系统为侧重点,提高对异构计算的意识认知,并促进HSA 在中国的标准化进程。

        新一代人工智能依赖于海量数据的处理、存储、传输,因此离不开云计算。云计算是把大量的计算资源封装抽象为IT 资源池,用于创建高度虚拟化的资源供用户使用。通过动态整合、共享硬件设备供应来实现IT 投资的利用率最大化,降低了使用计算的单位成本及IT 运维成本,促进了人工智能产业的商业化进程。

        2、技术层

        目前技术层中的核心技术主要由科技巨头企业掌控,如微软、亚马逊、Google、Facebook、百度、阿里、腾讯、京东、小米、商汤等。此外,一大批初创企业和开源组织也陆续加入其中。它们共同探索和推进AI 技术的发展,催生出了一批在业内有深远影响力的开源项目,如TensorFlow、PaddlePaddle、Caffe、CNTK、Deeplearning4j、PyTorch 、Mahout、MLlib。这些科技企业,通过招募AI高端人才及组建实验室等方式加快关键技术研发,并通过开源技术平台构建生态体系。

        技术层面,包含机器学习、知识图谱、自然语言处理、虚拟现实或增强现实、计算机视觉、生物特征识别、人机交互等技术与应用场景相结合,从而衍生出大量的智能化产品与服务,包括智能家居、智能机器人、智能搜索引擎、智能问答系统、一体机VR、无人驾驶汽车、人脸识别系统、智能客服等。

        3、行业应用层

        人工智能是制造业数字化、网络化、智能化转型发展的关键引擎,是促进实体经济发展的重点方向。近年来各国政府和产业界纷纷采取行动推进基础性研究及产业实践部署,人工智能的各种应用如机器人、无人驾驶、智能客服等百花齐放,大中小企业均有涉及,形成了全行业全覆盖的局面。

        (1)、工业

        人工智能在工业领域深度融合新一代信息通信技术与先进制造技术,贯穿于设计、生产、管理、服务等制造活动的各个环节,引导具有自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。人工智能在工业领域进一步融合拓展的应用方向还有机器视觉检测分拣、人机交互、可视化及AR/VR、行业知识图谱及知识自动化等,支持工业设备能耗预测与优化,增强工业设备预测性维护和智能故障诊断,为企业生产个性化需求、企业运行优化及产品生命周期控制提供辅助决策,进而提升制造质量水平和企业经济效益。

        (2)、医疗

        基于图像分析技术的影像辅助诊断和医学病理分析相结合,提供了更准确的临床诊断,同时提升了医疗服务的效率。在健康趋势分析、疾病预测、影像辅助诊断等领域引入人工智能技术,可以有效预测疫情并防止其进一步扩散和发展,提供患者预前和预后诊断和治疗的评估方法和精准诊疗决策,有效提高医护人员工作效率和诊断水平,从而在整体上为医疗健康领域向更高的智能化方向发展提供了非常有利的技术条件。

        (3)、电商

        在电商领域,无人店、无人货架纷纷引入人脸识别、货物识别等先进技术,实现无人值守,融合人工智能的仓储机器人,实现了货物的识别、拣选和自动搬运等功能,极大解放了生产力。通过对消费者历史购买行为的深入分析,提供了更精准的目标客户营销和商品推荐。

        (4)、公共安全

        在安防领域,通过支持前端提取信息,如采用在复杂场景下的人车混合多特征结构化信息技术,提取人脸属性、人脸轨迹、车牌车型等特征属性,利用人工智能对视频、图像进行存储和图像比对分析,建立危险人数图像库,从而识别危险隐患并进行安全处理,是构建未来智慧城市安防体系的基础,在反恐维稳、犯罪预警、案件侦破和网络音视频监管等领域具有重要应用价值和广泛的应用前景。

        (5)、金融

        在金融领域可以借助大数据,以人工智能为内核支持金融行业的用户画像识别、资产信息标签化、智能获客、身份认证、智能化运维、智能投顾、智能理赔、反欺诈与智能风控、大数据征信、网点机器人服务等应用场景,对于提高金融系统管理效率、拓展金融新业务、防范金融风险等方面意义重大。

        (6)、智能终端/个人助理

        以住宅为平台,基于物联网技术,由硬件、软件系统、云计算平台构成的家居生态圈,实现远程控制设备、设备间互联互通、设备自我学习等功能,并通过收集、分析用户行为数据为用户提供个性化生活服务。通过人机交互应用在多种服务行业的咨询、指引、查询、讲解和业务办理等应用场景;与APP 连接,实现硬件控制、日程管理、信息查询、生活服务、情感陪伴等。

        (7)、交通

        借助移动通信、宽带网、射频识别、传感器、云计算等新一代信息技术作支撑,利用摄像头监测交通路况和车辆信息,联通各个核心交通元素,广泛应用人工智能技术、统计分析技术、数据融合技术、并行计算技术等处理海量交通信息数据,实现信息互通与共享,以及交通元素间彼此协调、优化配置和高效使用,形成人、车和交通的一个高效协同环境。

        (8)、物流

        利用智能搜索、推理规划、计算机视觉、智能机器人、大数据分析以及射频识别、自动感知、全球定位系统等先进的物联网技术,应用于物流业运输、仓储、配送、包装、装卸等基本活动环节,实现智能物流系统的线路规划、人车资源调配、自动化运作和高效率优化管理,提高物流效率,提升物流行业的服务水平,降低成本,减少自然资源和社会资源消耗。

        (9)航空

        利用机器学习、知识图谱、自然语言处理、人机交互、计算机视觉、生物特征识别、AR/VR 为基础的感知与认知、决策执行与控制、交互与协同、检测与维护等内容,应用于人脸识别安检、智慧航显、航空发动机预测健康管理及航空大数据分析、路径规划、任务规划、集群管理、目标识别、战术决策、毁伤评估、质量评估和可靠性实验检测等方面。不论民用还是军用航空领域,AI 可以实现人与机器智能的结合,全面提升观察-调整-决策-行动(OODA)环的运行速度和运行质量。

        二、AI 开源所存在的问题

        1、法律道德问题

        随着人工智能的发展,其已经逐渐涉及到违法犯罪的黑色领域,被大肆用于诈骗、色情、犯罪、甚至未来的战争中。例如,无人车、无人机等设备可以在不依赖人的情况下自主做出决策,做出危及人身安全的动作。这些新的情况将会带来伦理、道德和法律上的一系列危机,亟待相关专家给出合适的解决方案。

        高质量、大规模的数据一般会认为是企业的重要资产,开源或开放后可能导致丧失竞争优势,缺少让数据开源贡献者获得合理回报的机制。另外,数据和模型很难保护自身知识产品不被竞争对手抄袭,甚至直接使用,这对企业进行数据开源形成了很大阻力,因此需要建立合适的政策保护机制。

        2、潜在锁定风险

        目前虽然有大量的开源技术和软件可以使用,但是背后的厂商如谷歌、Facebook、亚马逊、苹果对这些开源技术也掌握着绝对话语权。一旦使用开源软件的某些厂商利益跟上述公司相冲突,不排除被取消软件授权或者相关软件不再更新的可能性。企业基于自身的相关考虑,将相关项目进行开源,然而由于企业自身存在大量业务开展,因此导致其开源的相关项目的维护不及时,一旦项目停止维护,项目的使用者则面临进退两难的困境,平台迁移成本太高,但若不迁移平台,业务也无法得到平台新的支持。

        3、安全问题

        AI 开源工具虽有开放、共享、自由等特性,企业在享受开源技术带来的便利的同时,也存在巨大的安全风险。由于源代码公开,所有发现的漏洞都会被第一时间公布,因此也容易被攻击者利用;由AI 开源技术形成的软件,其最终使用用户往往得不到最及时的更新,并且在软件开发和验收过程中,不易准确判断软件里包含哪些开源组件,容易造成安全隐患。另一方面,AI 开源代码在社区中一般由相应的团队或个人开展维护工作,缺乏对应的激励机制保障代码查找漏洞或及时更新,也会导致用户疑虑,降低AI 开源技术及产品的推广使用。

        4、标准统一问题

        不同于其他开源软件,当前AI 开源模式不够充分,仅限于开源AI 框架,数据开源力度不足,对AI 技术的应用形成了壁垒。深度学习方面,AI 已开源框架、工具缺乏基本的统一标准,造成不同框架下的模型算法兼容困难;硬件优化方面,AI 开源软件大多在X86 和GPU 上进行优化,很少有在其他体系结构上进行优化的项目;数据格式方面,AI 开源目前多是针对深度学习的开源项目,而深度学习需要大量的训练数据,数据问题将许多公司卡在门外;模型算法方面,从数据和模型研究到形成产品方案之间存在明显差距。很多开源的AI 算法,仅在所限定的理想条件下有效,难以适应复杂的实际应用环境,且在大规模分布式计算与存储环境下效果不佳。

        5、版本兼容性问题

        不同开源工具的兼容性问题导致整合困难,同一开源工具的不同版本之间也存在兼容性问题。开源社区涌现了一批以Caffe、MxNet、TensorFlow、Torch 等为代表的热门AI 开源开发框架,这些框架简化了AI 技术的工程实现难度,但是每个框架之间接口不统一,模型格式不一致,在一定程度上造成了在各个框架之间迁移成本较高的问题,使得模型的复用较为困难,同时也增加了用户的学习成本,为在不同场景下使用不同开发工具造成了一定的障碍。即使对同一AI 开发框架,接口调整较频繁,每次升级都会导致不少额外工作量;变化内容较为激进,项目自身向上兼容能力较差,导致企业/个人在更新开源软件时带来极大风险,同时也增加了用户的学习成本。

        6、行业问题

        虽然当前AI 已开始逐步应用,但各行业因为自身的属性,均面临一些棘手的难题,制约着AI 朝更深入、更广泛的方向应用。由于前期研发周期较长,相关领域技术人才缺乏,且雇佣成本较高,实际经济回报难以预估,许多企业不敢冒险尝试。另外,智能制造领域中的人工智能标准及开源代码仍然相对较少,无法满足当前人工智能技术的标准化需求,并制约着我国人工智能应用的有序、规范、健康发展。

        传统金融机构历史包袱重,多数核心系统难以迅速采用开源AI 技术;金融行业注重客户的数据隐私保护,数据的使用制约限制了人工智能相关模型的有效性;既懂金融业务、又懂开源AI 技术的人才也极度稀缺。

        航空航天行业背景特殊,需要有针对性地进行开源。目前完全出于航空航天领域考虑的AI 框架少,技术架构不明晰,且军事领域由于出于安全问题考虑,公共技术移植也较少;此外,在民用领域,从飞控系统的开源开始,就不断打开了无人机的进入门槛,但是对于开源的安全性和稳定性还有待考虑,对于开源的质量评定等还处在探索阶段。

        (来源:国家人工智能标准化总体组,文章内容仅代表作者个人观点,不代表业路网对本文内容观点的赞同与支持。)