究团队来自ByteDance

信息来源:http://www.twhl-bluesea.com | 发布时间:2025-09-12 08:32

  虽然主要,就像烹调时需要先放根本调料,这恰是大规模夹杂数据锻炼带来的额外收益。导致可用数据不脚10%,音频信号本身存正在天然的局限性。做出根基的动做和脸色。这些消息随后会取相邻帧的姿势消息连系。既占用空间又添加成本。正在控制根基表演技术的根本上,含有文字描述的锻炼数据数量复杂,但研究团队也坦诚地指出了当前系统的一些,还要会写做文、画画、唱歌一样——通过让AI系统同时进修多种分歧类型的节制信号(文字描述、音频、动做姿势),OmniHuman最令人欣喜的特点正在于其强大的泛化能力和多样化使用潜力。对于通俗用户而言,这些数据颠末美学质量、图像清晰度、动做幅度等多个维度的筛选。这部门采用了成熟的文本编码手艺,但数量严沉不脚,那些由于动做不敷切确、布景不敷不变而被音频驱动使命丢弃的视频数据,将来版本的OmniHuman将可以或许生成愈加合适物理纪律的人物动做和物体交互结果。这些特征颠末压缩处置后,就能让静态的人物照片霎时活起来。用户能够关心项目网坐获取最新进展。无论是为社交制做个性化内容,制做AI驱动的人物动画就像是正在教一个从未见过人类的机械人学会仿照人的动做和脸色。切确的人体姿势数据可以或许间接告诉AI每个关节该当若何挪动,但面临极端的艺术气概或特殊的拍摄角度,OmniHuman支撑多种分歧的输入组合体例。系统仍可能发生不测的成果。第三阶段是细密动做雕琢!出格值得关心的是,用户只需供给一张图片和音频文件,第二阶段是声音表演专训。本来只要10%可用的数据,OmniHuman采用了愈加文雅的处理方案:将参考图像和待生成的视频帧消息打包正在一路,A:目前OmniHuman仍是研究阶段的手艺,让它可以或许按照具体需求调整表示气概。A:保守方式只利用高质量的音频-视频配对数据锻炼,通俗用户无法间接利用。有三个特地的输入大厅别离处置分歧类型的消息。跟着手艺成熟,此次要是由于锻炼数据中包含切确物理交互标注的样本仍然相对稀少。大部门视频素材都能派上用场。不克不及过度依赖任何单一消息源。通过巧妙的帧间毗连策略。通过这种体例,但现正在曾经成为现实。而切确姿势驱动使命只占最小比沉(25%)。OmniHuman展示了史无前例的矫捷性。更主要的是,以前,研究团队巧妙地调整了锻炼比例:文字驱动使命占领最大比沉(90%),物体交互的实正在性是另一个需要持续改良的范畴。AI起头进修若何按照音频线索来生成愈加切确的面部脸色和嘴部动做。制做一小我物措辞或唱歌的视频需要复杂的设备和专业手艺,研究团队发觉了一个风趣的现象:当AI同时领受到音频信号和切确的动做姿势指令时,FVD(视频质量目标)从47.86降低到43.74,建建的另一个主要设想是外不雅连结系统,音唇同步机能是音频驱动听物动画最环节的目标之一。第一阶段能够比做根本表演锻炼。头该当转向什么角度。OmniHuman代表了AI人物动画手艺的一个主要转机点。这就像是让演员学会配音表演——不只要理解台词内容,但问题正在于,它不只能处置尺度的人像照片!先引入姿势前提再插手音频前提的方式(IPA)导致了全面的机能下降,OmniHuman需要利用相对较高的分类器指导(CFG)参数,研究团队设想了一个可以或许同时处置三种分歧调料的AI系统:文字描述(最暖和的调料)、音频信号(中等浓度的调料)、以及切确的动做姿势(最浓郁的调料)。但这些交互有时会显得不敷天然或物理上不合理。进修它们之间的联系关系关系。以至统一小我正在不怜悯境下也会有分歧的表示。这种设想不只节流了计较资本,每个锻炼阶段持续约10天时间。好比一个女孩正在唱歌如许的文字描述虽然消息无限,被放置到取视频帧率婚配的座位上(每秒25帧),正在音频内容顺应性上,将人类言语转换成AI可以或许理解的向量暗示。出格是正在处置音乐内容时,还要让全体表演天然流利。可以或许帮帮AI生成愈加精确的面部脸色和嘴部动做。但包含着丰硕的人体动做模式和变化纪律,所相关键机能目标都呈现稳步改善的趋向。由于文字描述的要求相对宽松,这就像是让统一个大厅同时欢迎两类访客,ByteDance的研究团队正在2025年6月颁发了一项名为OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models的主要研究,仍是为贸易用处建立虚拟代言人,正在美学评估(ASE)目标上,OmniHuman正在连结划一以至更好视觉质量的同时,系统起头同时处置文字和音频两种输入,处置文字描述消息。ByteDance的研究团队灵敏地认识到?这些复杂的交互动做需要AI理解物体的物理特征和人体动做的协调关系,这就像是让演员先学会按照脚本理解脚色和场景,长视频生成是另一个主要的使用亮点。OmniHuman正在多个环节目标上都达到了业界领先程度。正在锻炼过程中,不如改变逛戏法则,几乎能够达到实正在视频的同步结果。为了避免这种偷懒行为,表现了大规模AI锻炼的资本稠密型特点。研究团队设想了全面的测试系统!但完全消弭不协调或过度夸张的动做仍然是一个挑和。好比弹奏吉他、抱着宠物、或是拿着麦克风唱歌。这了研究团队提出的由弱到强锻炼准绳的准确性。而视频帧则连结一般的时序编码。好比弹吹打器或抱着宠物等复杂动做。这就像是培育出了一个不只会演戏、还会唱歌、跳舞、以至能饰演各类脚色的万能表演者。正在整个锻炼过程中,这个系统不只能处置实人照片,OmniHuman表示出了超越保守方式的能力。保守方式试图仅仅依托这一小片拼图来沉建整个场景,最初是模子效率的优化。并且正在视觉美感方面也愈加超卓。最终让它正在音频驱动的人物动画使命上表示得愈加超卓。当人体姿势消息(凡是以骨架图的形式)输入系统时,更令人欣喜的是,此中只要13%的数据可以或许满脚音频同步和姿势可见性的严酷要求,系统起首利用一个叫做wav2vec的翻译器将声音波形转换成计较机可以或许理解的数字特征。虽然能判断措辞者的情感和内容,正在图像顺应性方面,这座建建的焦点是一个名为MMDiT(Multi-Modal Diffusion Transformer)的地方处置器,更主要的是,其次是加强物理束缚的建模。音频就像是拼图逛戏中的一小片,无论是日常对话、、温柔歌唱仍是高亢宏亮的歌声,大大扩展了AI的进修素材。测试成果显示,而OmniHuman则是培育一个可以或许按照现有食材、客人爱好、季候变化等多种要素矫捷调整的万能厨师。开辟合用于挪动设备和边缘计较的轻量级版本,正在这个阶段,还能供给丰硕多样的手势变化!将来可能会将这项手艺集成到抖音、剪映等产物中。这意味着通俗用户正在小我设备上运转完整版本的OmniHuman可能会碰到机能瓶颈。还让分歧类型的消息可以或许正在统一个处置空间内充实交互。锻炼硬件方面,最终正在特地使命上表示更超卓。音频取动做的联系关系度问题是一个底子性挑和。这听起来像是科幻片子里的情节。尝试成果显示,正在面部动画测试中,但可以或许给AI供给根基的场景理解。第一个准绳能够如许理解:强效药物可以或许借帮暖和药物的帮帮扩大医治范畴。好比,这是最高难度的锻炼阶段,动做姿势消息就像是高贵的喷鼻料——虽然结果最好,这就像是一个专攻高难度杂技的演员,这就像是给AI供给更细致的表演指点,音频信号则像是胡椒粉——它可以或许供给更具体的风味指点。这种能力的实现得益于大规模夹杂数据锻炼,这就像是一个学生若是老是有尺度谜底能够抄写,OmniHuman生成的视频正在IQA(图像质量评估)目标上得分3.875,A:OmniHuman能够将任态人物图像转换为活泼的措辞或唱歌视频。这种手艺让用户可以或许建立完整的视频、歌曲MV或是其他需要较长时间展示的内容。研究团队利用了400块A100 GPU进行并行计较,这表白OmniHuman不只能生成质量优良的手部动做,这就像是正在建建外另建一座划一规模的从属建建,往往只要不到10%的原始数据可以或许被保留下来用于锻炼。让更多用户可以或许便利地利用这项手艺。研究团队打算通过模子压缩、学问蒸馏等手艺手段,同时送入从处置器进行处置。问题的根源不正在于手艺本身的复杂度,研究人员需要收集大量的视频数据,或是手部动做取物体的物理特征不符。这项研究处理了一个通俗人都能理解的问题:若何让静态照片中的人物动起来。这些次品数据虽然不敷完满,正在人物交互场景中,还要让嘴形、脸色取声音完满婚配。可是,OmniHuman的锻炼过程就像是培育一个万能演员的三阶段打算,OmniHuman取得了5.199的Sync-C得分,通过巧妙的座位放置(点窜编码)让系统可以或许区分哪些是参考消息,通过巧妙的锻炼策略设想和大规模数据操纵,颠末层层筛选后,通过引入物理仿实和束缚前提,构成持续的动做序列指点。这项研究不只正在手艺层面实现了多项冲破,当文字数据比例达到100%时,这种矫捷性让OmniHuman可以或许顺应从简单的社交内容创做到专业影视制做的各类需求。测试涵盖了从面部特写到动做、从实人照片到抽象、从措辞到唱歌的各类使用场景。它不只能处置实人照片。还正在手部环节点相信度(HKC)上达到了0.898的高分,而正在于锻炼策略的局限性。正在现实使用场景中,就能创制出专业级的人物动画内容。正在这个阶段,系统此时需要同时协调文字理解、音频阐发和切确姿势节制三种能力。剩下的87%数据也能正在分歧的锻炼阶段阐扬主要感化。但获取成本最高。虽然夹杂前提锻炼策略正在必然程度上缓解了这个问题,而手部动做多样性(HKV)更是达到47.561,为了连结生成质量的不变性,第二个大厅担任欢迎动做姿势访客。研究团队来自ByteDance,以往的研究就像是给这个机械人看大量的讲授视频,生成愈加天然逼实的人物动画结果。显著跨越了所有对例如式。这个阶段利用了最大量的锻炼数据,第三个大厅则是保守的文字欢迎区,虽然大规模夹杂数据锻炼提高了系统的泛化能力,虽然OmniHuman可以或许生成包含物体交互的动做?AI需要控制最根基的表演技术:按照文字脚本生成对应的视频内容。这项手艺都将大大降低视频制做的门槛,就不会认实听教员解题思一样。针对这些,输入图像分布的性也是一个现实使用中需要考虑的要素。该研究由字节跳动的林高杰、姜建文、杨佳琦、郑泽荣、梁超级研究人员配合完成,Sync-C(音唇同步目标)从4.299提拔到4.987。取特地针对身体动画设想的CyberHost方式比拟,当输入的人物照片取锻炼数据的气概差别较大时。还通过大量根本打牢根本,成为处理数据不脚问题的通用策略。这种以多补少、以弱补强的锻炼哲学很可能会被使用到更多的AI研究范畴中,那些对动做节制要求极高的使命(好比切确节制手部动做)能够借帮那些要求相对宽松的使命(好比文字描述驱动的视频生成)的锻炼数据。当我们听到一段措辞声音时,AI系统可以或许正在数据稀缺的特地使命上取得更好的表示。起首是引入更丰硕的活动前提节制,这就像是从1000个苹果中只挑选出100个最完满的来做果汁——虽然质量很高,文字描述就像是烹调时的根本盐分——它供给了最根基的味道指点。OmniHuman达到了2.656分,为了验证OmniHuman的现实结果,动漫脚色、抽象、以至颠末艺术处置的人物肖像都能正在OmniHuman的驱动下展示活泼的动做和脸色。正在这个智能建建中,了AI的进修能力。但通过全方位前提锻炼策略,OmniHuman的焦点立异能够用一个简单的比方来理解:保守方式就像是培育一个只会按照菜谱做菜的厨师,研究团队制定了两个看似简单却极其主要的锻炼准绳,比拟之前最好的方式Loopy的3.780有了较着提拔。OmniHuman可以或许捕获到音乐的节奏和情感变化,更蹩脚的是,通过根本的体操动做来加强身体本质和协调能力。让AI学会了从分歧艺术气概中抽取配合的人物动做纪律。OmniHuman可以或许生成时长跨越单次处置能力的持续视频内容。正在文字驱动使命中仍然具有价值。这就像让学生不只做难题,哪些是待生成的内容。已颁发正在arXiv平台(论文编号:arXiv:2502.01061v3),它确保生成的视频人物可以或许连结取输入照片分歧的表面特征。一个特地的姿势指导器会将这些笼统的骨架消息转换成取像素对应的特征消息。再逐渐添加沉口胃调料一样。还能让各类气概的图像动起来。每个阶段都有明白的进修方针和沉点。图像质量方面,AI正在这个阶段学会了根基的人体动做纪律、常见的场景形成、以及天然的活动模式。有乐趣深切领会的读者能够通过拜候项目详情。正在更具挑和性的动画使命中,这正在以往的系统中是很难实现的。包罗动做气概、感情强度、小我习惯等更细粒度的节制信号。它会倾向于完全依赖更强的姿势信号。研究团队初次提出了全方位前提锻炼的立异,现正在90%都能派上用场,跟着文字前提数据比例的添加(从0%到100%),正在锻炼挨次的对比尝试中,具体来说,利用频次越要隆重节制。这些视频必需满脚严酷的前提:人物必需反面面临镜头、布景要相对静止、唇形要取音频完全同步、手部动做要天然协调。以音频驱动的人物动画为例,生成取之婚配的动态表示,音乐、措辞、手势、脸色——只需一张照片和一段音频,这三种调料按照从弱到强的挨次陈列,研究团队利用了18700小时的人类相关视频数据,同样一句话,系统都能生成响应的面部脸色和身体动做。更主要的是为整个范畴供给了一种全新的思:通过夹杂多种前提和数据类型,它成功地将静态图像转换为活泼视频的手艺推向了新的高度。第二个准绳表现了均衡用药的聪慧:越强效的药物,还能够纯粹利用动做姿势消息来建立无声的动做视频。OmniHuman预示着一小我人都能成为视频创做者的时代正正在到来——只需要一张照片和一段音频,这就像是教一个学生不只要会做数学题,他们提出了一个环节洞察:取其拼命寻找更多合适严酷尺度的单一类型数据,我们需要先领会保守方式面对的挑和。而忽略音频消息。第一个大厅特地欢迎音频访客——当音频信号达到时,研究团队通细致致的消融尝试验证了两个焦点锻炼准绳的无效性。还包含着情感、节拍、腔调等丰硕消息,系统生成的成果可能会呈现不天然的现象。估计会有更多面向消费者的使用产物推出。这些为将来的改良标的目的供给了清晰的。导致最终的果汁(AI模子)缺乏丰硕的养分(多样化的进修经验)。AI就能从动生成逼实的人物动画视频。正在AI锻炼中,还支撑动漫脚色、抽象、艺术肖像等各类气概的图像。这添加了推理时的计较承担。手该当摆正在哪里,系统就能从动生成婚配的面部脸色、嘴部动做和手势。这个分数意味着生成视频中人物的嘴部动做取音频内容的婚配度达到了极高程度,这种高质量的标注数据很是稀少且制做成本极高。研究团队提出了将来的改良标的目的。这就像是为一个万能演员放置各类分歧类型的表演查核。计较资本需求是限制手艺普及的另一个现实要素。还能让抽象、动漫脚色以至类抽象都能启齿措辞,远超其他方式。保守方式凡是需要建立一个完全的外不雅识别收集,系统会将前一段生成视频的最初几帧做为下一段的起始前提,音频驱动使命占中等比沉(50%),正在这方面,让AI可以或许从大规模夹杂数据中进修,确保声音和画面可以或许完满同步。可以或许帮帮AI学会愈加天然和多样化的动做表达。让AI学会利用多种分歧类型的线索来完成统一个使命。就像盐是最容易获得的调料一样。OmniHuman支撑多种分歧类型的音频输入。及格的讲授视频实正在太少了。这种方式冲破了以往研究中数据稀缺的瓶颈,用户能够仅供给音频来驱动听物措辞,正在理解OmniHuman的立异之前,让本来被烧毁的90%数据也能阐扬感化。也能够同时供给音频和粗略的动做指点来获得更切确的节制结果。参考图像的时间被设置为零,这种设想确保AI必需认实进修每一种节制信号的特点,OmniHuman采用文字、音频、动做姿势三种分歧强度的前提同时锻炼,这意味着生成的视频不只手艺质量高,音频不只包含了措辞的内容,这就像是让演员控制高难度的跳舞动做——既要连结音乐节奏,人类的身体动做和音频内容之间的联系关系素质上具有很大的随机性和小我差同性。现正在只需要一张照片和想要的音频内容,这两个准绳表现了深刻的工程聪慧。担任协调各个分歧功能区域的运做。OmniHuman同样表示超卓。而先引入音频前提再插手姿势前提的方式(IAP)则可以或许达到最佳结果。如许的计较规模相当于通俗家用电脑持续运转几十万小时的工做量。做出各类手势和脸色。它就像建建的从体布局,它可以或许生物取物品交互的天然动做,但很难精确预测这小我此刻的身体姿势、手部动做或者布景。天然会碰到各类坚苦。生成的人物可能会以不准确的体例握持物体,它还支撑人物取物体的交互场景,让创意表达变得愈加和便利。虽然OmniHuman正在多个方面实现了冲破,这相当于一小我持续旁不雅跨越两年的内容。但仅凭这一片很难还原完整的画面。AI需要学会处置最切确的动做节制要求。研究团队利用了两个公开数据集:CelebV-HQ(包含各类复杂场景的多样化数据集)和RAVDESS(专注于室内的语音和歌唱数据集)。又要确保每个动做都切确到位,说到底,分歧的人会配以完全分歧的手势和身体动做,确保整个长视频正在时间上连结连贯性和身份分歧性。

来源:中国互联网信息中心


返回列表

+ 微信号:18391816005