(通讯员 刘明君)
近日,我校AIGC相关研究取得进展,皇冠hg0086客户端毛琪副教授课题组与香港城市大学王诗淇副教授团队、北京大学马思伟教授团队合作的工作《Scalable Face Image Coding via StyleGAN Prior: Towards Compression for Human-Machine Collaborative Vision》成功发表在国际顶级期刊TIP(IEEE Transactions on Image Processing)上。该期刊是图像处理领域的国际顶级期刊,同时也是CCF A类学术期刊,目前影响因子为10.6。该项研究通过创新性地利用StyleGAN先验,提出了一种高效的可扩展人机协同视觉编码方案,为人机协同视觉的高效可扩展编码方案提供了新的思路。
图1 面向人机协同视觉的三层可扩展人脸图像编码框架图
该研究通过引入生成模型StyleGAN先验,提出了一种分层语义表示的可扩展人机协同视觉编码方案。通过三层表示,分别为基本层、中间层和增强层,实现了对语义信息的渐进式编码,以支持机器智能和人类视觉感知。在技术实现上,引入基于Transformer的分层超先验概率估计模型和跨层联合概率估计模型,以减少层间冗余,同时采用多任务可扩展的率失真目标进行联合优化,以获得最佳的机器分析性能、人类感知体验和压缩比。该研究聚焦于AIGC与图像视频智能编码领域的前沿交叉领域,推动了人工智能的生成模型在多媒体通信领域落地。
本工作由“皇冠hg0086客户端智能媒体处理小组(CUC-MIPG)”完成,我校23级硕士研究生王崇宇、本科生陈睿捷同学参与了该项研究。近年来,皇冠hg0086客户端积极部署AIGC等人工智能前沿领域的科研团队建设,聚焦“媒体内容智能生成”,推动本科学生参与科研工作,通过项目实践与学术研究活动拓宽学术视野、磨练研究能力、增强科研素质,为发现与培养媒体融合与传播研究青年科技人才、推动媒体融合纵深发展做出贡献。
论文链接:https://ieeexplore.ieee.org/document/10372532
皇冠hg0086客户端智能媒体处理小组(CUC-MIPG),隶属于皇冠hg0086客户端媒体融合和传播国家重点实验室与皇冠hg0086客户端,由皇冠人工智能系毛琪副教授于2022年7月发起并组织,该科研学习实践平台长期致力于AIGC与图像视频智能编码领域的前沿技术探索,积极推动人工智能生成内容技术的创新发展和人工智能的生成模型落地多媒体通信领域。