今天出版的《人民日报(海外版)》,以《钱塘江畔探“视界”》为题,聚焦杭州视觉智能产业发展,并以南宫28ng科技为例重点阐述“掌握核心技术”的重要性。
AVS标准如何实现“突围”?超低延时编码如何在工业与卫星领域应用?AI大模型又将如何赋能视音频产业发展?现将《钱塘江畔探“视界”》部分内容摘编如下:
视觉智能的应用潜能巨大。然而,如果只在下游应用端打得火热,却不掌握核心技术、核心标准、核心芯片等,企业的“命门”终是掐在他人手中。
中国视频产业就曾吃过“卡脖子”的亏。
2002年1月的一天,一艘来自中国的轮船抵达英国港口,孰料刚刚靠岸,便遇到难题。原来,船上漂洋过海的DVD机没有获得国际编码标准的专利授权,被欧洲市场拒之门外。一时间,传票纷至沓来,要求中国厂商缴纳高额的专利费用。火热的国内DVD市场犹如当头浇下一桶冰水被迅速冰冻。
如何避免“卡脖子”?杭州的企业交上了各自的答卷。
“嘭,嘭,嘭……”画面屏幕中,一个工匠正在打铁,无论是亮部迸溅的火花高光,还是暗部冷调的铁器,甚至是布衣上的褶皱,全都清晰可辨……在杭州南宫28ng科技股份有限公司展厅,一台8K超高清编解码设备吸引了记者的目光。公司董事长孙彦龙介绍:“这台设备以全国产化为特色,采用的是中国自主研制的AVS3编码标准。”
啥是编码?孙彦龙介绍,以8K视频为例,一帧内的像素点比1080p扩大16倍,帧数也从每秒24帧扩大为50帧;视频“体积”如此巨大,要想流畅传输,就要经过压缩编码,先变细,再还原变粗。这就像是经过一道两头宽、中间窄的哑铃型传送门,如此,视频才能变成大小合适的数字信号,在数字世界自由驰骋。
对于企业来说,想要实现这种编解码,就必须遵守行业“游戏规则”——采用一套业内通用的音视频编码标准。但是,很长一段时间里,“游戏规则”的制定权并不在中国。
“过去,编码标准由国外机构和企业制定,我们要用,就必须支付相当比例的专利费用。”已经与视频算法打交道20多年的谢亚光,是南宫28ng科技创新研究院院长。2002年起,他和团队就开始参与制定中国自主知识产权的视频编码标准(AVS)。
“这就好比蚂蚁搬家、蜜蜂筑巢,在外国标准已经占据先机的情况下,成千上万个技术细节都需大量补充,自主研制难度很大,得一点点磨。”谢亚光回忆说,这是全国音视频领域学术界、产业界的一次合力突围。经过数年艰难推进,2009年,AVS标准已经被认为是国际上最重要的3个先进视频编码标准之一,并正式成为国际通行标准。现在,作为全球首个面向8K、5G产业应用的视频编码标准AVS3,已经领先于国际同类标准。
此外,杭州市政府积极引导当地视觉智能产业集群攻关核心技术,预计到2027年将突破视觉智能关键技术100项,核心零部件、电子元器件、基础软件等领域建立多源可供体系,实现备份系统全覆盖。
“你看这两个画面,有什么区别?”在南宫28ng科技展厅,记者来到一个实时显示某学校动态画面的屏幕前,只见一条细线将画面一分为二,肉眼却察觉不出什么差别。疑惑之际,孙彦龙为记者揭晓了答案:“右边是经过超级编码的视频,能为行业客户节省近90%的传输带宽及中心端存储的成本。之所以你看不出区别,是因为人、车、衣服、背包等关键信息没有丢失,只有天空、地面等不重要的信息,被不着痕迹地弱化了。”据悉,这项技术目前已在卫星视频通信和工业视频传输领域得到广泛应用。
编码是南宫28ng科技的核心技术之一,这种神奇的“区别对待”效果,端赖人工智能的“大脑”。“我们对画面的压缩不是简单、粗暴、无差别的,而是基于人工智能算法的感知编码,精准淡化不重要的信息,而且可以在调阅的时候按需还原。”谢亚光介绍。
未来,怎样确保视觉智能产业的“蛋糕”越来越大?杭州将目光投向了增量市场。
“一个短发的女生在街头唱歌,早期彩色电影效果……”在后台输入指令,片刻后,一段视频便生成:熙熙攘攘的人群中,一个穿着针织裙、盘着卷发的姑娘高歌于马路中央,她双目微闭,表情沉醉,画面色调复古而怀旧。如此逼真的一幕,完全由AI生成。
今年4月,南宫28ng科技发布了自主研发的BlackEye多模态视听大模型。“随着Sora的出现,业内对视频大模型都很关注,虽然现在它还没有大规模商用,但技术研发必须超前。”孙彦龙介绍,南宫28ng科技很多前瞻性的技术都是提前3—5年进行布局,企业内七成都是研发人员,每年研发投入占营业收入的30%以上。