2024年4月27日,山东大学软件学院人机交互与虚拟现实研究中心邀请了上海交通大学助理教授易冉、北京大学助理教授陈文拯、清华大学博士后刘健,在数媒楼107会议室进行了“数字媒体内容智能生成”主题系列学术报告,本次报告由人机交互与虚拟现实研究中心的李曼祎副研究员主持。
在此次学术报告中,易冉教授首先展示了其在《可视媒体高效可控智能生成》领域的研究成果。此项研究针对当前可视媒体智能生成在(1)高度信息抽取在明确语义保持间难以平衡,(2)跨模态异构特征差异大、语义关联难,(3)低质、稀缺数据下拓扑易丢失、模型泛化难三个方面的挑战,针对性地提出了三个创新性的解决方案。针对第一个挑战,易教授团队提出了基于多层次对抗特征表示、非对称循环映射结构、自适应序列笔触建模三项成果的高度抽象和序列建模的可视媒体智能生成,并且易教授列举出了很多实验结果;针对第二个挑战,易教授团队提出了基于中间表征的异构特征映射、基于卷积核动态生成的异构特征融合、基于扩散模型先验的异构特征映射三项成果的跨模态异构特征映射的可视媒体智能生成;针对第三个挑战,易教授团队提出了基于关键点-骨架-形状的低质几何补全、基于差分进化的低质几何优化、基于空间-外观解耦表征的稀缺数据生成三项成果的低质稀缺数据下的可视媒体智能生成。最后,易教授还给我们介绍了团队中拟开展研究工作,他们希望实现神经辐射场驱动的可视媒体高效可控智能生成,实现视角一致的三维场景生成、高保真的三维非刚性编辑、高效实时的三维内容呈现,并针对这三个目标分别提出了解决方法。在报告结束后,易教授还对软件学院师生提出的问题进行了专业的解答,提出了宝贵的建议。
陈文拯教授展示了其在《Differentiating Imaging Systems for Boosting 3D Perception》领域的研究成果。为了便于理解,陈文拯教授先介绍了一些基础知识,强调了可微图像系统的重要性,并引出了这次报告将要介绍的两项成果:Differentiable Rendering和Differentiable Structured Light。对于第一个成果Differentiable Rendering,陈教授团队提出了将光栅化和光线追踪相结合的既小型、快速又真实的渲染器DIBR及其进阶版DIBR++;此外,对于复杂拓扑的场景生成,陈教授团队还提出了一个从多视角图像上重建场景的可微渲染器。对于第二个成果Differentiable Structured Light,陈教授团队提出了Optical SGD方法,它能主动学习到最优的条纹图案序列和最优的深度重建函数,从而获得一个优秀的重建结果。在报告过程中,陈教授和软件学院的师生进行了充分地交流,耐心地回答同学们提出的问题,使大家对可微图像系统有了更加深刻的理解。
刘健博士展示了《Embodiment Robotic Grasping》领域上的研究成果。主要分成了两个部分:灵巧手稳定性抓取方法和功能性抓取方法。对于灵巧手稳定性抓取方法,刘博士从数据集、模型、loss函数等多方面对灵巧手稳定性抓取方法进行了介绍。模型是重点介绍内容,他介绍了基于CNN的抓取方法,基于生成模型的抓取方法DVGG和GenDexGrasp等,基于扩散模型的方法DexDiffuer、GraspLDM、UGG等,基于隐式表示的方法NeuralGrasps等。此外,为了进一步提高机器人抓取的准确性和稳定性,刘博士还介绍了一种可微抓取的方法,它使得机器人在进行抓取动作时考虑了物体形状和表面特性。对于机器人功能性抓取方法,主要分成了两类:基于手的抓取和基于物体的抓取,刘博士分别针对这两个方面介绍了对应的一些方法,并提出这些方法存在的一些问题。在报告结束后,刘博士和同学们进行了深入的讨论和互动,大家就机器人抓取技术中的关键问题进行了探讨,包括如何更好地模拟人类手的抓取过程、如何提高机器人在复杂环境中的抓取能力等,使得大家对机器人抓取技术有了更深入的理解和认识。
三位学者的研究工作在推动数字媒体内容智能生成技术在质量、效率和可用性方面的全面进步方面发挥了重要作用。他们的报告内容深入浅出,生动形象地展示了数字媒体内容智能生成技术的最新进展和应用前景,引发了山东大学软件学院师生的强烈兴趣和广泛关注。他们的精彩报告赢得了众多师生的热烈反响,赢得了一致好评。
图/文:李曼祎 责任编辑:王璐