2022-06-04 16:23:51 来源:IT之家 阅读量:12515
不到一周,AI画师又进阶了,而且还是一大步——一句话直接生成视频的那种。
输入一个下午在沙滩上跑步的女人,马上会弹出一个4秒32帧的短片:
或者输入一颗燃烧的心,你可以看到一颗包裹在火焰中的心:
这个最新的文本—视频一代人工智能是清华amp致远研究所出品的模型CogVideo。
Demo一放到网上就火了,已经有网友急论文了:
CogVideo与文本图像生成模型CogView2一脉相承。这个系列的AI机型只支持中文输入,外国朋友还得用谷歌翻译才能玩:
看完视频,网友大呼这进步太快了你应该知道,文本图像生成模型DALL—E2和Imagen刚刚问世
有网友设想:如果继续以这个速度发展下去,一句话就能立刻看到VR头显中AI生成的3D视频效果:
那么,这个名为CogVideo的AI模型的由来是什么呢。
在插入帧之前生成低帧视频。
根据该团队的说法,CogVideo应该是最大的和第一个用于文本生成的开源视频模型。
在设计模型上,该模型共有90亿个参数,基于预先训练的文本图像模型CogView2构建,分为两个模块。
第一部分,基于CogView2,由文本生成几帧图像,此时复合视频的帧率还很低,
在第二部分中,基于双向注意模型,对几个生成的图像进行插值,以生成具有更高帧率的完整视频。
CogVideo在训练中总共使用了540万个文本—视频对。
这里不仅仅是把文字和视频直接匹配起来插进AI,而是先把视频拆分成几帧,给每帧图像增加一个额外的帧标记。
这样可以防止AI看到一个字,直接给你生成几个一模一样的视频帧。
其中,每个训练视频原本都是160×160分辨率,被CogView2上采样到480×480分辨率,所以最终视频也是480×480分辨率。
至于AI的插帧部分,设计了双向通道注意力模块,让AI理解前后帧的语义。
最后生成的视频丝滑,4秒视频帧数输出约32。
在人体测评中获得最高分。
本文采用数据测试和人工评分的方法对模型进行评估。
首先,研究人员在UCF—101和Kinetics—600人体动作视频数据集上测试了CogVideo。
FVD用于评估视频生成的整体质量,该值越低越好Is主要从清晰度和多样性两个方面来评价生成图像的质量,数值越高越好
总体来说,CogVideo生成的视频质量处于中等水平。
但从人的偏好来看,CogVideo生成的视频效果远高于其他模型,甚至在目前最好的生成模型中,也取得了最高分:
具体来说,研究人员会给志愿者一个评分表,让他们根据视频生成的效果随机评价几个模型生成的视频,最后判断综合得分:
CogVideo的常用作品洪和丁明,两部作品,三部作品均出自清华大学计算机系。
论文指导老师唐杰是清华大学计算机系教授,致远研究院学术副院长他的主要研究方向是人工智能,数据挖掘,机器学习和知识图谱
对于CogVideo,有网友表示还有一些值得探索的地方。比如DALL—E2和Imagen有一些不同寻常的提示来证明它们是从0生成的,但是CogVideo的效果更像是从数据集拼凑出来的:
比如狮子直接用手喝水的视频,就不太符合我们的常规认知:
但也有网友指出,这篇论文为语言模型提供了一些新的思路:
用视频训练可能会进一步释放语言模型的潜力因为它不仅数据量大,还隐含着一些难以用文字体现的常识和逻辑
目前CogVideo的代码还在建设中,感兴趣的朋友可以先蹲一会儿~
项目amp论文地址:
声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
坚持政治性、人民性是金融工作的初心和使命。作为国内保险行业的领军企业之一,泰康保险集团将落实国家关于金融工作的本质要求作为第一要务,以金融为民、消保至上为题,启...
,太空模拟游戏续作《坎巴拉太空计划2》于2023年初推出了PC抢先体验版。然而,该游戏被发现搞乱了玩家的Windows注册表。 根据游戏官方论坛及其Steam...
,科幻世界杂志宣布,2023雨果奖提名作《赛博朋克2077:夜城迷梦》推出中文版漫画,现已开启预售,售价46元。 该漫画由CDPROJEKTRED与黑马漫画授...
9月26日,是2023年“金融消费者权益保护教育宣传月”集中教育宣传日,为进一步贯彻落实“投资者教育纳入国民教育体系”要求,推动金融知识进校园,提升青少年金融素...
中秋、国庆假期临近,火热的消费需求已经初露端倪。数据显示,从9月13日至20日18时,铁路部门已发售超过1.46亿张火车票;各旅游平台的景区、酒店等相关预订量也...
记者从新疆维吾尔自治区发改委获悉,新疆若羌抽水蓄能电站9月25日在新疆巴音郭楞蒙古自治州若羌县开工,标志着新疆最大、南疆首个抽水蓄能电站项目正式拉开建设序幕。 ...
,《收获日3》自发布以来,遇到了玩家广泛反映的匹配错误和在线服务问题,IT之家此前曾报道,这款游戏发行3天时就已经“多半差评”,截至发稿,这款游戏目前在Stea...
,根据市场调查机构CounterpointResearch追踪的统计数据,苹果iPhone15和iPhone15ProMax两款机型的首销平均等待时间要超出前代...
,武汉市硚口区人民政府与广汽能源战略合作协议签约仪式,未来三年,硚口区拟新增充电桩6000个,同步建设集中充电场站50座,换电站10座。 图源广汽集团公众号 ...
,今天有多个汽车博主放出了2024款小鹏P5的海报。从海报来看全新P5即将在近期公布,主打“卷”。 从海报来看,新款小鹏P5将会在性价比、舒适性、智能化、外观...
摄影本质上是记录光的过程,光线自身的表现对场景和氛围的塑造具有重要的作用,是否能够选择合理的时间进行拍摄也是摄影的要点之一。 那么一天中的各个时间段都适合拍摄...
9月21日至25日,青海省科技厅组织省内外专家对青海省重大科技专项“天文大科学装置冷湖台址监测与先导科学研究”项目及各课题进行验收。这一专项的实施,对未来大型光...
2023年9月23日,第六届中国企业论坛平行论坛“践行ESG理念,创建一流企业——中央企业ESG论坛”在山东济南召开,会上发布《中央企业上市公司ESG蓝皮书》及...
充分发挥自身优势和禀赋,找到正确的“锚点”,借助投顾化服务手段,沿着公司战略方向稳扎稳打,是做好持续营销这门生意的关键 震荡市,新基金发不出量怎么办? 今年...
,开放麒麟系统openKylin1.0.1版本于今日上线,适配集成搜狗输入法NG麒麟桌面版,并上线新版麒麟管家应用,新增飞腾派嵌入式开发板镜像,同时修复100+...
时值仲春、阳和初起,正是春游踏青的好时光。为丰富员工业余生活,营造和谐融洽、团结向上的工作氛围,3月23日,阳...
找到黑匣子之后,下一步做什么?邱超奕对于空难调查而言,黑匣子在找到后,才意味着具体工作的开始。那么,它被送往了...
#8203;“上级对我提的要求,就是让寒门子弟接受更好的教育,让普通孩子上好学。”一所城乡接合部的新学校,为招...
新京报讯据中国民用航空局消息,3月21日,东航一架波音737客机在执行昆明--广州航班任务时,于梧州上空失联。...
专业人力资源机构中智公司21日发布的最新调研结果显示,2022年中国就业形势基本稳定,实体产业对人才吸引力增加...