2024配资炒股 字节跳动新模型提振机器视觉指数,暂未应用至产品端

发布日期:2025-02-22 16:19    点击次数:195

2月10日,字节跳动旗下豆包大模型团队发布视频生成实验模型“VideoWorld”,该模型由豆包大模型团队与北京交通大学、中国科学技术大学联合提出。不同于 Sora 、DALL-E 、Midjourney等主流多模态模型,VideoWorld在业界首次实现无需依赖语言模型即可认知世界。

受该消息影响,今日收盘,据Wind数据,机器视觉指数涨2.45%。成分股中,中光学涨停,格灵深瞳涨9.69%,宇瞳光学涨7.54%。

需注意的是,字节内部人士对记者表示,VideoWorld视觉模型属于学术研究项目,是在探索新的技术方法,目前并未应用至产品端。另外,尽管VideoWorld在围棋和模拟机器人操控环境中展现出较优性能,但在真实世界环境中的应用仍面临着高质量视频生成和多环境泛化等挑战。

据官方披露,为进行该视频模型研究,豆包团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。前者是因为围棋可以评估模型规则学习、推理和规划能力,且围棋关键信息仅有黑白两色及棋盘,可将外观、纹理等复杂细节与高级知识的评估分离。

同时,豆包团队还选取了机器人任务,以考察模型在理解控制规则和规划任务方面的能力。在模型训练环节,团队构建了一个包含大量视频演示数据的离线数据集,让模型“观看”学习,以此得到一个可以根据过往观测,预测未来画面的视频生成器。

经过一段时间的探索,豆包团队发现,视频序列的知识挖掘效率显著落后于文本形式,主要是因为视频中存在大量冗余信息,影响模型的学习效率。比如在学习棋子移动过程中,模型只需通过状态序列中少量位置标记编码,但面向视频数据,编码器则会产生过多冗余标记,不利于模型对复杂知识的快速学习,这也是VideoWorld模型诞生的背景,保留丰富视觉信息的同时,压缩关键决策和动作相关的视觉变化,实现更有效的视频学习。

VideoWorld并非字节发布的首款视频大模型。上周,字节跳动对外披露旗下一站式AI创作平台即梦AI将上线多模态视频生成模型OmniHuman,仅需一张图片与一段音频便可生成一条AI视频,该模型为字节自研闭源模型。此前,字节已发布文生视频大模型MagicVideo - V2、通用多模态大模型UniDoc等产品。

除了字节跳动,阿里、腾讯、快手等企业相继推出视频生成类产品,并披露在多模态领域布局。此前接受第一财经等媒体采访时,字节旗下火山引擎总裁谭待表示,企业做大模型是为了辅助人去做各种事情,需要语言、视觉等方面的完整能力,这就要求大模型具备多模态能力,才能端到端地帮助个人创业者与企业去解决具体问题。

中信证券研报分析称,头部厂商对于多模态大模型的开发继续呈现你追我赶的态势,军备竞赛仍然激烈。多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步。视频模态更符合C端用户的娱乐需求,尤其是与短视频业态有较高匹配度,因此更有希望催生高热度应用,但需要模型性能进一步成熟以及产品定义进一步摸索。

举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。 如需获得授权请联系第一财经版权部:021-22002972或021-22002335;banquan@yicai.com。 文章作者

吕倩

相关阅读 李飞飞团队低成本复刻DeepSeek-R1模型?算力成本桎梏正在被打破

李飞飞团队尝试将模型成本“打下来”的背后,开源、数据和技术的突破都是关键环节。

461 02-07 11:27 人工智能技术发展带动数据标注市场规模增长,计算机视觉市场占比领先︱产业图谱

人工智能技术发展带动数据标注市场规模增长,计算机视觉市场占比领先

18 01-26 15:22 视觉模型训练成本一年下降80%,中国AI厂商“掀起”全球算力降价潮

对中国AI企业来说,一些好的变化正在发生,也有更多挑战等待2025年去回答。

208 01-08 22:40 一个自闭症孩子的父亲,想用大模型为孩子治病

自闭症治疗有一个特别突出的痛点,它没有药物,全部都要靠人工干预。而自闭症的数字疗法主要就是做两件事,一是重构客观世界,二是重构社交场景。

110 2024-12-27 09:39 盘前必读丨12月LPR报价将公布;字节跳动发布风险提示

机构称2024配资炒股,指数仍保持中线上涨态势不变,唯一需要关注的是成交量变化对当前A股的交易风格有较大影响。

627 2024-12-20 07:34 一财最热 点击关闭

相关资讯



Powered by 炒股配资平台_股票配资平台哪家好_配资股票是什么意思 @2013-2022 RSS地图 HTML地图