从算法到算法产业化,离不开这十步

发布时间 :2024年01月16日

 通过对算法在各行各业的落地应用案例的解读,我们对算法的“生活气息”已经有了大致的感受。其实,算法从抽象的概念转化为实际应用,中间需要经历一步步的升级之路,最后才能成长为踏实稳重的人工智能“大咖”。

 

 1、数据清洗 & 特征管理

 

 其实,并不是所有的数据都可以输进算法指令,因为大量的数据不可访问,或者访问的时候难以贯通使用。因此,筛选数据、清洗数据并进行特征抽取和管理是算法成长的第一步。

 

 算法用到的数据需要预先处理,才能作为算法培养的沃土,成为训练数据或测试数据。比如在政务领域,大量事务以文本为基础,是政务数据的核心,例如要申请传递的文件、12345热线工单等等。但是文本和文本之间的差别很大,像是12345热线的文本就无法统一化处理,否则容易偏离原意——要么没有问清楚老百姓的诉求,要么写下工单的时候不明白说的是什么事情。

 

 因此,我们需要进行数据清洗和特征管理,把优化文本、规范工单等等作为第一步的工作。构建算法前需要先“择菜”,筛选处理出符合需求的特征数据,才能为算法打好基础。

 

 2、算法构建

 

 第一步工作做完后,就可以开始构建算法了。比如在商业消费领域,可以在已知消费者30%数据的情况下,推算出其70%的需求;如果已知70%的数据,则可以推算出另外30%的需求。理论上来说,知道的数据越多,推算出来的需求越准确。为了能够进行分析、识别、判断或预测,就需要构建算法。

 

 此外,算法的构建需要不同人才的配合。一类人是专业业务人员,也就是实际干活的人才,比如说有着丰富破案经验的老民警。不过,老民警虽然是破案高手,但根据罪犯的犯罪规律提炼出破案规则却不是他的强项,不能做成规范有序的破案指引。这就需要另一类人才的加入,也就是专业技术人员,他们能够进行算法研发,从程序语言的角度进行破案流程的分析和判别。最后,加上既懂业务能够提炼规则,又懂技术能够研发出微软件或算法的架构人才,三者配合,才能让构建的算法更加健全。

 

 3、算法升级

 

 算法的雏形如果不经过“上课”学习,也无法直接使用。算法需要经过不断地训练和测试,才能真正地在实际项目中应用。就像在前文的算法案例中反复出现的训练数据和测试数据,都是帮助算法升级的优质“教材”。

 

 算法成长的过程中,需要实际的业务数据、经验数据作为构建的基础,等到有了雏形,再将另一部分实际数据拿来做测试,看看它学习的效果如何。经过多次优化,算法的准确度就会不断提升。

 

 比如根据算法结果在地铁里抓小偷,假设一共算出有100名小偷,等警察实际抓捕时发现,其中有2个不是,就会再将新的实际数据放入算法中,分析为什么算法会错误地认为这2个人是小偷,也就是对算法进行“回访”和“补考”,不断地对模型进行训练、调整,使得算法越来越聪明。

 

 4、算法软件化

 

 不过,直到这一步,即使算法经过训练成为可靠的一员,仍需要人“手把手”来操作,因此,算法的下一步需要实现自动化、软件化。如果实现了算法软件化,就可以自行计算,一旦输入相关数据,就可以得出需要的结果,也就是过程实现了自动化。算法软件化非常重要,能够让问题处理的效率大大提高。

 

 5、垂直应用

 

 进一步来说,算法重要的特点和作用之一,就是可以针对垂直的业务问题给出解决方案,也就是算法从理论模型层面来到了实际应用层面。比如能够用来诊断冠心病的算法不能诊断糖尿病,因为这两种疾病的临床表现、药物机理等均不相同,冠心病算法就是用来精准地解决冠心病这一问题的。

 

 同样地,比如在城市管理领域,不同的部门会遇到不同的问题,燃气爆炸事故中需要针对燃气的安全做预测、预警;为了减少城市自来水流失,会把管道节点传感器化,根据水深、流速等等判断故障位置,以及时进行维护和抢修。相比之下,燃气预警算法跟水管监测算法就不同。

 

 6、算法货架

 

 在解决实际问题时,还需要建设一整套监测、分类、匹配、判断、干预等算法。在不同地方或者不同情况之下,需要用到的各种算法,都需要上到电子货架,也叫算法货架、算法池或算法库,进行不同的组合。

 

 打个比方,当我们有了很多可以增加时尚度的衣服鞋包,就需要用于收纳的柜子来陈列并分类标注,以便搭配和挑选,来应对不同的场合需要。

 

 7、算法组合

 

 为了能高效利用算法,可以灵活搭配不同的算法模块解决更多的问题,算法组合应运而生。一个算法并非只能解决一个问题,很多的算法模块都具有复用性,就像积木那样。比如用来发现虚假欺诈问题的算法,也可以用来在地方税务里辨别虚开发票。

 

 此外,算法中间有一些模块可以单独拿出来,在其他方面产生不同的成效。比如一串算法共有12个算法模块,其中6个算法模块可以直接移动去另外的项目里使用,这种算法组合效应就使得算法开发的效率越来越高。

 

 8、算法加速

 

 当我们有了扎实、灵活的算法模块,让它们的研发工作越来越快也显得尤为重要,也就是算法加速。比如在政务服务领域,假设一个城区需要3600个热线算法,第一阶段起步时,一年只能开发50个算法;第二阶段,一年能够开发200个算法,而到了更成熟的第三阶段,一年就能够开发千余个算法。原因就在于算法累积和算法借用在中间发挥的成效,在开发算法的时候,效率会越来越高。

 

 9、算法集成

 

 算法不断地茁壮成长,逐渐形成较为稳定的结构。典型的应用算法集成就像一幢房屋,上层的房顶是综合算法,如做综合分析、排序、预测、问题筛选的算法,屋子的主要结构则分为前台垂直算法和后台技术算法。

 

 大量的前台垂直算法分别针对不同领域的具体场景问题,来提供相应的支持算法,比如专门针对台风来袭的算法、专门针对政法相关场景的算法等等。而要让这些算法更好地实现快速开发与高效组合,就需要后台的技术算法来支持开发、优化、组合的工作。二者相互配合,推动算法产业化更快地实现。

 

 10、算法赋能

 

 最大程度地发挥算法的能力,可以让算法赋能各行各业,对生产生活实现质的飞跃。当算法完全发育起来,就能一赋能十,十赋能百,让算法成为高度智慧的“大脑脑核”,即输即用。当有了真正以算法为核心的脑核理念,那么只要花掉15%左右建设系统的钱,整座城市、整个行业和整个企业的运作方式就会发生很大的改变。

 可以看出,算法在行业领域的落地应用不只是看上去的那么简单,如果它想走得更远,还需要更多成长升级的空间和机会,才能最终实现算法产业化。不过,人工智能时代飞速发展,接下来如果要更好地实现数字化、智慧化,算法产业化则是发展的必然趋势。

建设数据分析与决策智能业的中国典范
XML 地图