目录
一、前言
AI大模型技术的火爆,让AI视频赛道也变得热闹。以往让很多人觉得视频制作领域是一个很难跨越的障碍,AI大模型的兴起之后,同时也带动了AI视频技术的革新,不少厂商纷纷加入AI视频的争夺,毕竟短视频经历了多年的沉淀之后,已经成为大多数日常生活中不可或缺的一部分,本文以国产大模型之光的通义万相为例进行详细的说明。
二、AI视频概述
2.1 什么是AI视频
AI视频 是指利用人工智能(AI)技术生成、编辑、增强或分析视频内容的过程和结果。通过AI技术,视频制作、处理和优化的效率得到了显著提升,同时也为创意表达和内容创作带来了更多可能性。AI视频的核心在于利用机器学习、计算机视觉、自然语言处理等技术,自动化或智能化地完成视频相关的任务。
2.2 AI视频核心特点
AI 视频的核心特点主要体现在以下几个方面,这些特点使得 AI 技术在视频领域的应用更加高效、智能和创新:
-
自动化处理
-
AI 可以自动完成视频制作、编辑和处理中的许多任务,减少人工干预。例如:
-
自动剪辑视频片段。
-
自动生成字幕和配音。
-
自动识别并分类视频内容。
-
-
-
智能化
-
AI 能够理解视频内容并做出智能决策。例如:
-
识别视频中的物体、场景、人脸和动作。
-
分析视频的情感基调(如欢乐、悲伤、紧张等)。
-
根据用户偏好推荐个性化视频内容。
-
-
-
制作高效
-
AI 技术可以大幅提升视频处理的效率,节省时间和成本。例如:
-
快速生成高质量视频内容。
-
批量处理视频数据(如转码、压缩、增强等)。
-
实时处理视频流(如直播中的实时字幕或特效)。
-
-
-
具备一定的创新
-
AI 为视频创作带来了全新的可能性,突破了传统技术的限制。例如:
-
生成虚拟角色或深度伪造(Deepfake)视频。
-
创建逼真的特效和动画。
-
将文本或图像转化为动态视频。
-
-
-
支持个性化
-
AI 可以根据用户的需求和偏好生成定制化的视频内容。例如:
-
为不同用户生成个性化的广告视频。
-
根据用户兴趣推荐相关视频内容。
-
生成符合特定风格或主题的视频。
-
-
-
生成的视频质量较高
-
AI 技术可以提升视频的质量和观感。例如:
-
增强视频分辨率(如将低清视频转为高清)。
-
修复老旧或损坏的视频。
-
自动调整视频的色彩、光线和稳定性。
-
-
AI 视频的核心特点是自动化、智能化、高效性、创新性、个性化、高质量、实时性和数据驱动。这些特点使得 AI 技术在视频领域的应用越来越广泛,从内容创作到分发和消费,AI 正在彻底改变视频行业的面貌。
2.3 AI视频应用场景
AI视频技术在多个领域展现出广泛的应用场景,涵盖了从娱乐、教育到商业营销等多个方面。以下是AI视频的主要应用场景及其具体表现:
-
娱乐与社交媒体
-
动态封面与个性化内容:
-
AI可以生成炫酷的动态封面或个性化视频,帮助社交媒体用户吸引更多关注。例如,美食博主可以生成食材飞舞的视频封面,旅行博主可以生成地标建筑的切换视频。
-
-
趣味视频生成:
-
普通用户可以通过AI工具快速生成趣味视频,用于分享、娱乐或发布自媒体。例如,生成梦幻朋友圈配图或节日主题视频
-
-
-
内容创作与影视创作
-
剧本生成与可视化:
-
AI可以根据文字描述生成视频脚本,并初步生成视频片段,帮助创作者优化脚本和场景设计。
-
-
特效与场景生成:
-
AI技术可以生成逼真的虚拟场景和特效,减少实景搭建和后期制作成本。例如,利用生成对抗网络(GAN)生成动态粒子效果或深度场景合成。
-
-
智能剪辑与后期处理:
-
AI可以自动识别视频中的关键情节,进行智能剪辑和优化,提升制作效率。
-
-
-
电商与广告营销
-
产品展示与广告生成:
-
AI可以生成高质量的产品展示视频,例如化妆品涂抹效果或电子产品3D拆解图,提升消费者的购买欲望。
-
-
个性化广告投放:
-
通过分析用户行为和视频内容,AI可以自动植入相关广告,提升广告效果。
-
-
-
教育与科普
-
生动教学视频:
-
AI可以生成历史、科学等学科的生动教学视频,例如古代战争场景或细胞结构动画,提升学生的学习兴趣。
-
-
科普动画制作:
-
通过AI生成科普动画,将复杂知识以趣味化的方式呈现,提高传播效率。
-
-
-
短剧与影视创作
-
AI短剧制作:
-
AI技术已渗透到短剧制作的多个环节,包括剧本生成、场景搭建、特效制作和智能剪辑,大幅压缩制作周期和成本。
-
-
情感与叙事优化:
-
尽管AI短剧在情感共鸣上仍有不足,但通过人机协同创作,可以逐步提升叙事张力和情感表现。
-
-
-
其他创新应用
-
虚拟主播与角色生成:
-
AI可以生成虚拟主播或角色,用于直播、新闻播报等场景,目前已经在一些平台开始投入使用,比如AI数字人等。
-
-
实时视频处理:
-
在直播或视频会议中,AI可以实时生成字幕、翻译或虚拟背景,提升互动体验。
-
-
AI视频的应用场景极为广泛,从娱乐、教育到商业营销,AI技术正在改变视频创作、分发和消费的方式。未来,随着技术的不断进步,AI视频将在更多领域展现出更大的潜力。
三、通义万相介绍
3.1 通义万相概述
3.1.1 什么是通义万相
通义万相 是阿里云推出的一款AI多模态内容生成平台,专注于图像和视频的智能化创作。它基于阿里云通义大模型家族,旨在通过先进的人工智能技术,为用户提供高效、创新的视觉内容生成解决方案。
3.2 通义万相核心特点
通义万相具备多种强大的AI生成能力,主要包括:
-
文本生成图像:
-
根据用户输入的文字描述,生成符合需求的图像,支持多种艺术风格(如水彩、油画、3D卡通等。
-
-
图像风格迁移:
-
用户上传原图和风格图后,AI可以将原图处理为指定风格,实现创意转化。
-
-
视频生成:
-
支持文生视频和图生视频任务,能够生成影视级高清视频,并优化中式元素的表现,特别适合中国风内容的创作。
-
-
相似图像生成:
-
上传任意图片后,AI可以生成内容或风格相似的画作,适合创意发散
-
-
复杂运动生成:
-
能够模拟真实世界的物理规律,生成复杂和大幅度的运动场景,提升视频的真实感
-
3.3 通义万相技术特点
通义万相技术具备如下优势和特点:
-
基于阿里通义大模型:
-
依托阿里巴巴 通义大模型(Tongyi Large Model),结合 扩散模型(Diffusion Model) 和 Transformer 架构 进行高质量图像生成。
-
-
多模态支持:
-
通义万相不仅支持图像生成,还具备视频生成能力,实现了多模态内容的智能化创作。
-
-
高度可控性:
-
基于阿里云研发的组合式生成模型Composer,通义万相能够对配色、布局、风格等设计元素进行精细拆解与智能重组,提供高度可控的图像生成效果。
-
-
中文优化:
-
原生支持中文长文本提示词,能够精准理解并生成符合中国文化和审美的内容,被称为“最懂中国风”的视频大模型。
-
-
开源支持:
-
通义万相2.1模型已全面开源,开发者可以通过Github、HuggingFace等平台获取推理代码和权重,支持文生视频和图生视频任务。
-
通义万相技术优势在于其多模态生成能力、中文优化、高质量输出、高度可控性、技术创新、广泛的应用场景以及开源支持。这些优势使其成为国内AIGC领域的领先平台,为创作者和企业提供了强大的AI赋能工具。未来,随着技术的进一步迭代,通义万相有望在更多领域展现更大的价值。
3.4 通义万相应用场景
通义万相作为阿里云推出的AI多模态内容生成平台,凭借其强大的图像和视频生成能力,在多个领域展现了广泛的应用场景。以下是通义万相的主要应用场景及其具体表现:
-
艺术创作
-
通义万相为艺术家和设计师提供了强大的创意支持,能够根据用户输入的提示词或描述生成个性化的艺术作品。其支持多种艺术风格(如水彩、油画、3D卡通等),帮助创作者探索新的艺术表现形式
-
个性化艺术生成:用户可以通过简单的指令生成独特的艺术作品,满足个人或商业需求。
-
风格迁移:将现有图像转化为指定风格,实现创意转化。
-
-
-
广告与营销
-
通义万相在广告制作和营销领域展现了强大的应用潜力,能够快速生成高质量的视频和图像内容,提升广告的吸引力和效果
-
广告素材生成:生成商品海报、广告图和创意视频,提升营销效率。
-
个性化广告投放:根据用户数据生成定制化广告内容,提高广告投放的精准性。
-
-
-
影视与游戏开发
-
通义万相在影视和游戏开发中发挥了重要作用,能够生成特效、场景预览和角色概念设计,大幅缩短制作周期
-
影视特效生成:生成逼真的特效和背景,提升影视作品的视觉效果。
-
游戏场景与角色设计:生成游戏角色、场景和动画,加速游戏开发进程。
-
-
-
社交媒体平台内容创作
-
通义万相为社交媒体用户和内容创作者提供了强大的工具,能够生成吸引眼球的短视频和动态封面,增强用户互动性
-
短视频生成:生成个性化的短视频内容,吸引粉丝和提高互动。
-
动态封面设计:生成炫酷的动态封面,提升社交媒体内容的吸引力。
-
-
-
商业设计与展示
-
通义万相在商业设计和展示中展现了强大的应用潜力,能够生成高质量的设计素材和展示视频
-
产品展示视频:生成商品展示视频,提升消费者的购买欲望。
-
虚拟店铺装修:生成虚拟店铺装修预览视频,帮助商家展示店铺布局和产品陈列。
-
-
四、DeepSeek + 通义万相制作AI视频流程
4.1 DeepSeek + 通义万相制作视频优势
4.1.1 DeepSeek 优势
Deepseek 生成的内容具有较高的专业性和深度,能够满足不同领域的需求。同时其深度思考能力和联网搜索能力,能够为用户生成最新,且内容丰富程度较高。在使用AI视频生成的场景中,制作视频需要视频脚本,分镜头文案等元素信息,借助Deepseek 强大的对话和深度思考能力,可以生成高质量的视频脚本,然后配合AI视频制作平台的能力,即可快速完成视频的制作。deepseek入口:DeepSeek
4.1.2 通义万相视频生成优势
通义万相作为阿里云推出的AI多模态内容生成平台,在视频生成领域展现了显著的技术优势和应用潜力。以下是通义万相在视频生成方面的主要优势:
-
高质量视频生成
-
通义万相能够生成影视级高清视频,支持1080P分辨率,画面质感细腻,视觉效果出色。其生成的视频在动态场景中表现出极高的流畅度和真实感,适合广告、影视、游戏等多个领域的需求
-
-
中文优化与本土化支持
-
通义万相在中文视频生成方面具有显著优势,能够精准理解中文长文本提示词,并生成符合中国文化和审美的视频内容。例如,用户输入“以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来”的指令,通义万相可以生成具有浓郁东方韵味的视频。
-
-
复杂运动与物理规律模拟
-
通义万相通过自研的高效VAE(变分自编码器)和DiT(图像生成对抗网络)架构,增强了时空上下文建模能力,能够精准模拟复杂运动和真实物理规律。例如,雨滴落在伞上会溅起水花,玻璃杯摔碎时碎片飞溅等场景都能逼真呈现。
-
-
多模态生成能力
-
通义万相支持文生视频和图生视频两种生成模式。用户可以通过输入文本描述或上传图片,快速生成高质量视频内容。这种多模态能力使其在广告设计、短视频创作等领域具有广泛的应用价值。
-
-
丰富的视觉效果与特效
-
通义万相提供了多种视频特效选项,如过渡效果、粒子效果、模拟效果等,用户可以根据需求自由组合,增强视频的表现力和艺术感。例如,一键生成艺术字功能,支持中英文文字特效生成,极大提升了视频的视觉吸引力。
-
-
使用简单创作效率高
-
通义万相通过简洁的操作界面和强大的AI技术支持,大幅降低了视频创作的门槛。即使是普通用户,也能通过简单的指令快速生成高质量视频内容,显著提升了创作效率。
-
-
开源与生态支持
-
通义万相2.1模型已全面开源,开发者可以通过Github、HuggingFace等平台获取推理代码和权重,支持文生视频和图生视频任务。这种开源策略不仅降低了技术使用门槛,还促进了AI社区的协作与创新。
-
4.2 操作过程
接下来通过实际案例演示如何使用DeepSeek + 通义万相生成视频
4.2.1 使用DeepSeek 生成视频脚本
提供如下的文案,即我们接下来我们需要让DeepSeek 生成视频的原始需求
我想做一个治愈系的名山大川的短视频,视频中的元素包括蔚蓝的天空,广阔的山河湖泊,飞鸟,无人机拍摄视角以及特写镜头,以国家地理纪录片的风格,时长30秒
打开deepseek,发出上述指令,稍等一会儿,deepseek便给出了完整的解析和思考过程,比如制作视频的注意点,建议点,优化点等
基于上一步的回答,我们进一步输入指令要求DeepSeek 生成分镜头脚本
通过上面的2步指令输入,就得到了接下来用于生成视频的原始分镜脚本,当然,如果第一次生成的脚本不满意,还可以通过多轮对话的方式进行微调,直到得到满意的脚本为止。
4.2.2 使用通义万相生成视频
进入通义万相之后,找到左侧的视频生成的菜单,拷贝上一步的分镜脚本到输入框中,它会自动将markdown格式的文案进行解析出来,在当前的操作窗口页面,里面还有一些参数可以调整,比如视频比例,可以结合实际需求进行选择,像3:4在一些自媒体平台比较流行,参数部分可自行尝试。
将脚本复制进去之后,点击生成视频按钮,生成视频的时长会根据你的实际分镜不同而有差异。
等待一段时间之后,在右侧就可以看到生成好的视频了。
可以直接打开查看视频的效果,也可以下载到本地
通过上面的操作流程,就完成了一个从生成视频的分镜脚本到制作出视频的完整过程,事实上,这也是很多自媒体创作者利用AI大模型完成AI视频制作的基本操作流程,只不过其中的细节还需要进一步的完善和优化,比如分镜脚本的优化,视频参数的调整,视频导入到其他剪辑工具的调色、剪辑、后期制作等。
四、通义万相其他功能体验
在通义万相的操作界面上还有不少好用的功能可以体验,下面再选取两个高频的场景进行演示操作。
4.1 图生视频
简而言之,即根据你上传的图片生成视频
比如以官方提供的图片为例进行视频生成,选择一张
点击生成视频,通义万相会自动解析图片中的元素内容,生成一段类似于视频脚本的描述文案,然后等待视频生成即可,最后可以看到,这是一段一个类似飞碟的飞行物在低空飞行的视频
4.2 文字作画
即文生图的功能,这个在AI大模型出来不久,很多大模型都开始在这个领域探索,截止到现在,这一技术逐渐成熟,对用使用者来说,只需要提供你的文案描述,文案尽可能的覆盖到待生成的图片元素,这样生成的图效果才好,有点考验一个人的文字功底,如下我们在框里输入一段内容
生成一张猫和狗快乐玩耍的温馨图片,图中小猫伸出爪子去挠小狗的头,旁边有草坪,有几只蝴蝶,有盛开的花朵,蓝色的天空,风格为写实风格
输入进去然后点击生成,稍等一会,即可生成默认的4张图片
4.3 Java API 调用
通义万相也提供了API对接方式,可以在应用程序中进行集成和使用
以左侧的视频生成API为例进行说明,点击之后,跳转到下面的对接文档页面
以Java对接为例进行说明,参考下面的步骤。
4.3.1 导入依赖SDK
在你的springboot工程 pom文件中添加如下依赖
-
需要用比较新的版本,否则可能还没有包含视频生成相关的API能力
<dependency>
<groupId>com.alibaba</groupId>
<artifactId>dashscope-sdk-java</artifactId>
<!-- 请将 'the-latest-version' 替换为最新版本号:https://mvnrepository.com/artifact/com.alibaba/dashscope-sdk-java -->
<version>t2.18.2</version>
</dependency>
4.3.2 获取apikey
登录阿里云的百炼大平台,注册账号后创建一个apikey即可,入口:阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台
4.3.3 代码集成
参考下面的代码
-
只需要将里面的代码中的apkey替换成你自己的即可
package com.congge.chat;
// Copyright (c) Alibaba, Inc. and its affiliates.
// dashscope sdk >= 2.18.2
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesis;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisParam;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisResult;
import com.alibaba.dashscope.exception.ApiException;
import com.alibaba.dashscope.exception.InputRequiredException;
import com.alibaba.dashscope.exception.NoApiKeyException;
import com.alibaba.dashscope.utils.JsonUtils;
public class Text2Video {
/**
* Create a video compositing task and wait for the task to complete.
*/
public static void text2Video() throws ApiException, NoApiKeyException, InputRequiredException {
VideoSynthesis vs = new VideoSynthesis();
VideoSynthesisParam param =
VideoSynthesisParam.builder()
.model("wanx2.1-t2v-turbo")
.apiKey("你的apikey")
.prompt("一只小猫在月光下奔跑")
.size("1280*720")
.build();
System.out.println("please wait...");
VideoSynthesisResult result = vs.call(param);
System.out.println(JsonUtils.toJson(result));
}
public static void main(String[] args) {
try {
text2Video();
} catch (ApiException | NoApiKeyException | InputRequiredException e) {
System.out.println(e.getMessage());
}
System.exit(0);
}
}
运行上面的代码,控制台的输出结果中即包含了生成的视频链接
在浏览器中打开链接自动下载到本地,然后即可播放查看效果
通义万相主页还提供了很多其他有意思的功能,这里就不再一一列举了,感兴趣的同学可以继续研究。
五、写在文末
本文详细介绍了通义万相这款AI工具的使用,并使用DeepSeek+通义万相完成了一个视频制作的完整过程,最后介绍了如何在代码中进行集成的过程,本篇到此结束,感谢观看。
转载自CSDN-专业IT技术社区
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/zhangcongyi420/article/details/146441972