允中 整理自 火山引擎量子位 | 公众号 QbitAI
去年7月,外界曾有字节造芯传闻,字节跳动副总裁杨震原在媒体采访中回应称,公司无通用芯片商业计划,没有涉足CPU、GPU等通用芯片业务。
自研芯片探索主要围绕自身视频推荐业务展开,研发团队将为字节跳动大规模视频推荐服务专用场景定制硬件优化,如视频编解码、云端推理加速等,以期提升性能,降低成本。
(资料图)
8月22日的一场活动中,字节跳动旗下火山引擎首次公开发布了自研的视频编解码芯片。
据字节跳动视频架构负责人、火山引擎视频云架构技术总监王悦介绍,这款专用芯片已出片。
经验证,该芯片的视频压缩效率相比行业主流硬件编码器可提升30%以上,未来将服务于抖音、西瓜视频等视频业务,并通过火山引擎视频云开放给企业客户。
以下为王悦演讲全文:
大家好,我是字节跳动视频架构负责人王悦,今天主要与大家分享:面对全行业视频化时代的技术挑战,火山引擎视频云是如何在算力、体验和交互层面进行探索的。
首先,视频化应用在全行业不断深入渗透,视频数据也在持续激增,视频技术和应用在未来主要面临哪些大的挑战呢?我们认为,有三个边界需要突破:
第一个边界是算力边界,视频数据不仅体量在激增,分辨率和清晰度也在持续提升,而且,视频压缩和处理的算法在不断的更新迭代,越来越复杂,因此视频转码和处理的算力需要能够跟得上。但同时,摩尔定律在持续变慢,如何为企业提供算力强、算力足且够便宜的计算基建,是当前视频行业面临的最大挑战;
第二个是体验边界,用户会持续追求极致体验,希望视频更清晰、更流畅。那到底多清晰才是终点呢?随着越来越多的内容被AIGC技术所生成或加工,对这类内容质量的定义和评判标准,以及处理的算法和流程,可能都要跳出现有的基于信噪比的理论框架,重新探索体验的边界在哪里;
第三个是交互边界,近几年沉浸式媒体方向在持续加温,视频的观看体验在逐步从二维画面延伸到三维空间,给予交互更多的自由度。虚拟世界与现实世界将无限融合。今年苹果发布了vision pro,带给了大家一些新的憧憬,也许已近百年的二维画面的呈现与交互边界很快将被突破。
下面我们看一下,火山引擎视频云做了哪些探索和实践,以突破这三个边界。
首先,应对算力挑战,火山引擎视频云基于抖音的大规模应用实践和打磨,实现了从通用计算到异构计算的进阶,沉淀了可以为不同视频场景提供专用且适用的算力支持,不断朝着更强大、更好用、更便宜的方向前行:在我们的异构计算集群中,除了先前主流的x86机器,还有GPU、ASIC、FPGA、ARM板卡阵列等几种不同的计算资源。
对于深度学习、并行计算、高性能渲染,我们会用GPU做算力支撑,主要应用在视频画质检测与分析、质量增强处理、XR云端渲染等场景。
ASIC算力是我们重点规划的研发方向,今天,我们也正式推出火山引擎自研视频编解码芯片。这款芯片有几个数据还是值得兴奋的:
一台视频编解码芯片服务器的转码能力,相当于百台CPU服务器的算力;同时火山引擎自研视频编码芯片的压缩效率也相当优秀,比行业主流硬件编码器提升30%以上;从而,可以让单个视频的计算、存储和传输的边际成本达到平衡。
大家知道在(视频)芯片这个领域,一定要达到一定的规模门槛,累加的边际收益才能够cover前期投入的沉没成本,实现正向的ROI。正是因为抖音等产品的业务规模,为我们供给了一个十分宽广的获得杠杆收益空间,使我们可以在这个方向持续投入顶尖研发团队,不断迭代和进化,最终实现更高密度、更好压缩性能和更极致降本。
我们还支持FPGA算力,它是一种比较折衷的算力资源。相比ASIC,FPGA的密度、吞吐虽然差一些,但它的主要优势是可擦写、更灵活,能够完成渐进迭代,也为我们的ASIC方案提供了先行验证。火山引擎视频云现在的图片和动图转码服务都是跑在FPGA上的。部分点播、直播服务里也在使用FPGA,该编码器整体编码性能比行业标准编码器(GPU)提升30%,在MSU赛事中多次蝉联最佳4K FPGA编码器称号。
此外,火山引擎视频云还有ARM板卡阵列,这个方案本来是用来支持云游戏、云手机等场景需求而研发的。我们把编转码和处理引擎在ARM指令集上深度集成和优化之后,经过大规模实测,发现这种算力资源在密度、成本方面相较x86服务器也有很大优势。因此,我们也在点播场景里不断提升这种资源的使用量,并做到了与云游戏等场景的并池降本。我们这个方案也在不断地迭代与演进,相信对于视频应用的智能升级也将发挥重要的作用。
在突破体验边界方面,随着大模型等AI技术的发展和赋能,我们也确实看到了很多有说服力的成果和乐观的前景,比如「AI修复 」技术。上周,抖音、中国电影资料馆、火山引擎发布了“再续时光-经典香港电影修复计划”, 我们首次将AIGC视觉大模型应用于老片修复场景。充分利用AIGC大模型强大的生成能力和丰富的先验知识,对经典老片进行全面的画质提升。
火山引擎视频云的很多产品能力都有AI技术的加持,例如「智能转档」使用了AI重采样方案,满足了高质量多码率分发需求,支持直播、点播多档位画质提升;「极致超清」是基于人眼的主观感受最优为基准的AI前处理方案,该方案不仅可以提升主观画质,还可以进一步实现整体带宽降低15-35%。
再看看我们在突破交互边界方面的一些进展和成果。在3D和全景技术方面,火山引擎视频云基于在PICO上的实践和探索,沉淀了很多优质的能力。比如,我们的「VR 360°全景图像」技术,在今年CVPR Workshop举办的一项比赛中,双目超分双三次插值保真赛道和360°全景图像超分赛道上,荣获了双料冠军,技术能力达到行业领先水平。
从二维到空间,从理论到实践,火山引擎视频云落地了很多创新项目,努力为用户打造身临其境的体验。结合传统三维重建及神经辐射场技术,我们搭建了一套用于实现复杂动态场景的采集、重建、和播放算法框架,具备很高的清晰度和真实感。这项技术融合在点播、直播及RTC等视频云技术产品中,便可以实现空间视频的点播、直播和实时通信,已经落地于「抖音嘉年华」「抖音戏腔戏调」「PICO古籍寻游记」等项目里,相关成果发表在今年的Siggraph上。
另外火山引擎多媒体实验室自研的三维重建技术,结合视觉重建、多模态重建及SDF技术,可实现高精度、高质量、高效率的自动化重建技术,用于高保真物品及空间重建,也已经应用在博物馆文物重建、电商3D商品、懂车帝3D看车、幸福里VR看房,PICO德爷看非洲等项目中 。
当技术面临瓶颈,也许我们可以换一种姿势奔跑,持续突破算力,体验和交互的边界。我们希望基于抖音大规模实践和打磨,将沉淀下的火种贡献给行业。
通过上面的技术分享,我们可以看到全行业视频化时代,技术是纷繁复杂的,而在这个过程中作为“引擎”的视频处理框架作用就越来越重要,同时也面临着诸多挑战。
接下来我会介绍火山引擎视频云在这一领域所做的探索实践,同时把我们联合NVIDIA开源的多媒体处理框架BMF(Babit Multi-Media Framework)介绍给大家,这也是国内首个开源的同类项目,希望对整个行业起到普惠作用,助力加速视频化新进程。
△NVIDIA开发与技术部门亚太区总经理李曦鹏(左)和火山引擎视频云架构技术总监王悦(右)共同宣布开源BMF多媒体处理框架
在实际算法和工程化落地的过程中,很少有项目可以完全不采用多媒体处理框架。多媒体处理框架作为视频化部署的“底座”,通常起到重要的支撑作用。在体验需求更高、快速试错创新和业务场景融合的新趋势下,面对的场景和需求越来越多样化和复杂化,同时对计算性能和异构计算资源的运用也提出了更多的要求,快节奏的创新速度也迫切的期望框架有强大的能力,能帮助开发者把各种能力和方案优势互补、协同工作、快速落地。传统框架不能很好地应对这些挑战,下一代多媒体处理框架应运而生。
我们开源的这套多媒体处理框架,作为火山引擎视频云全链路服务能力的基础“底座”,不断地根据集团各个业务和产品的需求进行设计、规划、迭代和线上打磨,经历了约3~4年的实践,目前已应用于点/直播转码、云编辑、移动端后处理等主要业务场景。总结下来,相比传统方案,BMF具有以下亮点:
首先,它能支持使用多种语言开发模块,并能通过引擎无缝串联在一个pipeline里执行,还能通过插件化动态管理,提升开发效率;其次,它能实现调度引擎深度优化,在提升灵活性的同时做到效率无损,对于异构平台的支持相比传统框架有较大优势。它还可以支持多语言接口,对于不同语言的开发者非常友好,更容易上手,开源版本还提供了丰富示例,覆盖主要视频场景,使开发者可以低成本构建视频应用。同时,它还完全兼容了ffmpeg的功能和标准,底层支持了多种框架间的数据高效互转。
接下来我们具体看下BMF的整体架构,它分为应用层,框架层,模块层,和硬件抽象层。在应用层,BMF可以对从生产到消费的全链路视频场景进行支持,特别是它也会支持大量视频AI的应用场景,并在架构层自研了“自驱调度”和“动态graph”引擎,适配不同场景的多种执行模式。
在模块层,BMF在设计之初就采用了“松耦合”设计,目前已积累了140+个适用于视频场景的原子能力模块。在硬件抽象层,BMF对多种主流框架的数据实现了无缝转换,使多种主流框架数据互转和协同工作变的更加顺畅和便捷。这里值得特别强调的是,我们和NVIDIA进行了紧密的合作,针对GPU相关的框架层能力、处理能力进行了深度优化。
借此机会,我也特别分享给大家,BMF目前已经全面开源。包含BMF框架层整体开源,9个开箱即用案例,和20+API调用范例,希望能帮助开发者低成本的构建视频应用。开源以后,我们计划持续开源更多核心能力,完善解决方案,包括支持更多异构硬件/更多原子能力/移动端支持等。同时,依托火山引擎,构建云上模块市场,加速视频生态建设。
最后,希望我们的愿景早日达成:面向各行各业,加速视频化进程,共建视频开发生态。
下一篇:最后一页
X 关闭
X 关闭
杨德龙|立方大家谈专栏作家自7月24日中央政治局会议对下半年经济工作进
杭州热电(605011 SH):拟使用不超1 6亿元闲置募集资金进行现金管理,杭
上海贝岭发布半年报,上半年营业收入8 73亿元,同比下降6 61%,净亏损6
终于等到一场雨给湖南消消暑今天有较强降雨过程并伴有强对流天气,26日
【环球时报综合报道】有韩国第一美女DJ之称的黄素熙(DJSODA)日前在日
融创服务上半年扭亏转盈公司拥有人应占溢利3 4亿元,现金流,融创服务
今年5月初,总投入预计将超过60亿元的“京东青年城”正式启动,未来将
中国经济网北京8月21日讯凡拓数创301313SZ近日披露2023年半年度报告公
每经AI快讯,潞安环能(SH601699,收盘价:16 09元)8月17日晚间发布半
“享受”还是“难受”?共享按摩椅需要规范发展