Sora视频生成模型亮相:技术惊艳但仍有挑战
近日,OpenAI展示了其新型视频生成模型Sora,这一模型在文本转视频技术上取得了显著进步。然而,在彭博社进行的测试中,Sora的表现并不完美,出现了一些不符合现实场景的动作,如鹦鹉飞过猴子时翅膀扭曲,以及猴子身上出现鹦鹉尾巴等。
这些问题反映了Sora在理解和呈现物体物理特性方面的局限性。OpenAI科学家Bill Peebles也承认了这一点,他表示:“确实会在片段中找到一些奇怪的动作。”
Sora采用Diffusion transformer技术,将视频内容分解成一系列patch,并通过去噪技术预测出清晰的原始图像信息。虽然这种方法优化了视频生成效果,但Sora仍面临一系列挑战和局限性。
这些挑战包括物理交互的准确性、对象状态变化的一致性、长期样本的连贯性、物体的自发出现、手部和身体部位的处理、计算资源的需求、模型的泛化能力以及视频编辑和扩展的能力。在复杂场景中,Sora可能会出现不符合现实场景的动作,如篮球穿过篮筐侧面、狗在走路时相互穿过等。
尽管Sora在某些特定场景下表现出色,但OpenAI表示,该模型仍有很长的路要走,需要解决许多技术挑战。随着技术的不断进步,我们有理由相信Sora的未来会更加出色。