ICML2024|人物交互图像，更懂提示词，北大人物交互图像生成框架

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

该论文的第一作者和通讯作者均来自北京大学王选计算机研究所的 MIPL实验室，第一作者为博士生徐铸，通讯作者为博士生导师刘洋。MIPL 实验室近年来在 IJCV、CVPR、AAAI、ICCV、ICML、ECCV 等顶会上有多项代表性成果发表，多次荣获国内外 CV 领域重量级竞赛的冠军奖项，和国内外知名高校、科研机构广泛开展合作。

人物交互图像生成指生成满足文本描述需求，内容为人与物体交互的图像，并要求图像尽可能真实且符合语义。近年来，文本生成图像模型在生成真实图像方面取得出了显著的进展，但这些模型在生成以人物交互为主体内容的高保真图像生成方面仍然面临挑战。其困难主要源于两个方面：一是人体姿势的复杂性和多样性给合理的人物生成带来挑战；二是交互边界区域（交互语义丰富区域）不可靠的生成可能导致人物交互语义表达的不足。

针对上述问题，来自北京大学的研究团队提出了一种姿势和交互感知的人物交互图像生成框架（SA-HOI）, 利用人体姿势的生成质量和交互边界区域信息作为去噪过程的指导，生成了更合理，更真实的人物交互图像。为了全面测评生成图像的质量，他们还提出了一个全面的人物交互图像生成基准。

论文链接：https://proceedings.mlr.press/v235/xu24e.html

项目主页：https://sites.google.com/view/sa-hoi/

源代码链接：https://github.com/XZPKU/SA-HOI

实验室主页：http://www.wict.pku.edu.cn/mipl

SA-HOI 是一种语义感知的人物交互图像生成方法，从人体姿态和交互语义两方面提升人物交互图像生成的整体质量并减少存在的生成问题。通过结合图像反演的方法，生成了迭代式反演和图像修正流程，可以使生成图像逐步自我修正，提升质量。

研究团队在论文中还提出了第一个涵盖人 - 物体、人 - 动物和人 - 人交互的人物交互图像生成基准，并为人物交互图像生成设计了针对性的评估指标。大量实验表明，该方法在针对人物交互图像生成的评估指标和常规图像生成的评估指标下均优于现有的基于扩散的图像生成方法。

方法介绍

人物交互图像生成基准

图 3：人物交互图像生成基准（数据集 + 测评指标）

考虑到没有针对人物交互图像生成任务设计的现有模型和基准，论文作者收集并整合了一个人物交互图像生成基准，包括一个含有 150 个人物交互类别的真实人物交互图像数据集，以及若干为人物交互图像生成定制的测评指标。

该数据集从开源人物交互检测数据集 HICO-DET [5] 中筛选得到 150 个人物交互类别，涵盖了人 - 物体、人 - 动物和人 - 人三种不同交互场景。共计收集了 5k 人物交互真实图像作为该论文的参考数据集，用于评估生成人物交互图像的质量。

为了更好地评估生成的人物交互图像质量，论文作者为人物交互生成量身定制了几个测评标准，从可靠性 (Authenticity)、可行性 (Plausibility) 和保真度 (Fidelity) 的角度全面评估生成图像。可靠性上，论文作者引入姿势分布距离和人 - 物体距离分布，评估生成结果和真实图像是否接近：生成结果在分布意义上越接近真实图像，就说明质量越好。可行性上，采用计算姿势置信度分数来衡量生成人体关节的可信度和合理性。保真度上，采用人物交互检测任务，以及图文检索任务评估生成图像与输入文本之间的语义一致性。

实验结果

与现有方法的对比实验结果如表 1 和表 2 所示，分别对比了人物交互图像生成指标和常规图像生成指标上的性能。

表 1：与现有方法在人物交互图像生成指标的对比实验结果

表 2：与现有方法在常规图像生成指标的对比实验结果

实验结果表明，该论文中的方法在人体生成质量，交互语义表达，人物交互距离，人体姿态分布，整体图像质量等多个维度的测评上都优于现有模型。

此外，论文作者还进行了主观评测，邀请众多用户从人体质量，物体外观，交互语义和整体质量等多个角度进行评分，实验结果证明 SA-HOI 的方法在各个角度都更符合人类审美。

表 3：与现有方法的主观评测结果

定性实验上，下图展示了不同方法对同一个人物交互类别描述生成结果的对比。在上方的组图中，采用了新方法的模型准确表达了 “亲吻” 的语义，并且生成的人体姿势也更合理。在下方的组图中，论文中的方法也成功缓解了其他方法中存在的人体扭曲和畸变，并且通过在手与手提箱交互的区域生成手提箱的拉杆来增强 “拿手提箱” 这个交互的语义表达，从而得到在人体姿态和交互语义两方面都优于其他方法的结果。

图 4：人物交互图像生成结果可视化

更多研究细节，可参考原论文。

参考文献：

[1] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., and Ommer, B. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF

Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10684–10695, June 2022

[2] HuggingFace, 2022. URL https://huggingface.co/CompVis/stable-diffusion-v1-4.

[3] Chen, K., Wang, J., Pang, J., Cao, Y., Xiong, Y., Li, X., Sun, S., Feng, W., Liu, Z., Xu, J., Zhang, Z., Cheng, D., Zhu, C., Cheng, T., Zhao, Q., Li, B., Lu, X., Zhu, R., Wu, Y., Dai, J., Wang, J., Shi, J., Ouyang, W., Loy, C. C., and Lin, D. MMDetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155, 2019.

[4] Ron Mokady, Amir Hertz, Kfir Aberman, Yael Pritch, and Daniel Cohen-Or. Null-

text inversion for editing real images using guided diffusion models. arXiv preprint

arXiv:2211.09794, 2022.

[5] Yu-Wei Chao, Zhan Wang, Yugeng He, Jiaxuan Wang, and Jia Deng. HICO: A benchmark for recognizing human-object interactions in images. In Proceedings of the IEEE International Conference on Computer Vision, 2015.

幸福双城资讯网

ICML2024|人物交互图像，更懂提示词，北大人物交互图像生成框架

机器心科技身