【AI大模型】DeepSeek + 通义万相高效制作AI视频实战详解

AI大模型技术的火爆，让AI视频赛道也变得热闹。以往让很多人觉得视频制作领域是一个很难跨越的障碍，AI大模型的兴起之后，同时也带动了AI视频技术的革新，不少厂商纷纷加入AI视频的争夺，毕竟短视频经历了多年的沉淀之后，已经成为大多数日常生活中不可或缺的一部分，本文以国产大模型之光的通义万相为例进行详细的说明。

二、AI视频概述

2.1 什么是AI视频

AI视频 是指利用人工智能（AI）技术生成、编辑、增强或分析视频内容的过程和结果。通过AI技术，视频制作、处理和优化的效率得到了显著提升，同时也为创意表达和内容创作带来了更多可能性。AI视频的核心在于利用机器学习、计算机视觉、自然语言处理等技术，自动化或智能化地完成视频相关的任务。

2.2 AI视频核心特点

AI 视频的核心特点主要体现在以下几个方面，这些特点使得 AI 技术在视频领域的应用更加高效、智能和创新：

自动化处理
- AI 可以自动完成视频制作、编辑和处理中的许多任务，减少人工干预。例如：
  - 自动剪辑视频片段。
  - 自动生成字幕和配音。
  - 自动识别并分类视频内容。
智能化
- AI 能够理解视频内容并做出智能决策。例如：
  - 识别视频中的物体、场景、人脸和动作。
  - 分析视频的情感基调（如欢乐、悲伤、紧张等）。
  - 根据用户偏好推荐个性化视频内容。
制作高效
- AI 技术可以大幅提升视频处理的效率，节省时间和成本。例如：
  - 快速生成高质量视频内容。
  - 批量处理视频数据（如转码、压缩、增强等）。
  - 实时处理视频流（如直播中的实时字幕或特效）。
具备一定的创新
- AI 为视频创作带来了全新的可能性，突破了传统技术的限制。例如：
  - 生成虚拟角色或深度伪造（Deepfake）视频。
  - 创建逼真的特效和动画。
  - 将文本或图像转化为动态视频。
支持个性化
- AI 可以根据用户的需求和偏好生成定制化的视频内容。例如：
  - 为不同用户生成个性化的广告视频。
  - 根据用户兴趣推荐相关视频内容。
  - 生成符合特定风格或主题的视频。
生成的视频质量较高
- AI 技术可以提升视频的质量和观感。例如：
  - 增强视频分辨率（如将低清视频转为高清）。
  - 修复老旧或损坏的视频。
  - 自动调整视频的色彩、光线和稳定性。

AI 视频的核心特点是自动化、智能化、高效性、创新性、个性化、高质量、实时性和数据驱动。这些特点使得 AI 技术在视频领域的应用越来越广泛，从内容创作到分发和消费，AI 正在彻底改变视频行业的面貌。

2.3 AI视频应用场景

AI视频技术在多个领域展现出广泛的应用场景，涵盖了从娱乐、教育到商业营销等多个方面。以下是AI视频的主要应用场景及其具体表现：

娱乐与社交媒体
- 动态封面与个性化内容：
  - AI可以生成炫酷的动态封面或个性化视频，帮助社交媒体用户吸引更多关注。例如，美食博主可以生成食材飞舞的视频封面，旅行博主可以生成地标建筑的切换视频。
- 趣味视频生成：
  - 普通用户可以通过AI工具快速生成趣味视频，用于分享、娱乐或发布自媒体。例如，生成梦幻朋友圈配图或节日主题视频
内容创作与影视创作
- 剧本生成与可视化：
  - AI可以根据文字描述生成视频脚本，并初步生成视频片段，帮助创作者优化脚本和场景设计。
- 特效与场景生成：
  - AI技术可以生成逼真的虚拟场景和特效，减少实景搭建和后期制作成本。例如，利用生成对抗网络（GAN）生成动态粒子效果或深度场景合成。
- 智能剪辑与后期处理：
  - AI可以自动识别视频中的关键情节，进行智能剪辑和优化，提升制作效率。
电商与广告营销
- 产品展示与广告生成：
  - AI可以生成高质量的产品展示视频，例如化妆品涂抹效果或电子产品3D拆解图，提升消费者的购买欲望。
- 个性化广告投放：
  - 通过分析用户行为和视频内容，AI可以自动植入相关广告，提升广告效果。
教育与科普
- 生动教学视频：
  - AI可以生成历史、科学等学科的生动教学视频，例如古代战争场景或细胞结构动画，提升学生的学习兴趣。
- 科普动画制作：
  - 通过AI生成科普动画，将复杂知识以趣味化的方式呈现，提高传播效率。
短剧与影视创作
- AI短剧制作：
  - AI技术已渗透到短剧制作的多个环节，包括剧本生成、场景搭建、特效制作和智能剪辑，大幅压缩制作周期和成本。
- 情感与叙事优化：
  - 尽管AI短剧在情感共鸣上仍有不足，但通过人机协同创作，可以逐步提升叙事张力和情感表现。
其他创新应用
- 虚拟主播与角色生成：
  - AI可以生成虚拟主播或角色，用于直播、新闻播报等场景，目前已经在一些平台开始投入使用，比如AI数字人等。
- 实时视频处理：
  - 在直播或视频会议中，AI可以实时生成字幕、翻译或虚拟背景，提升互动体验。

AI视频的应用场景极为广泛，从娱乐、教育到商业营销，AI技术正在改变视频创作、分发和消费的方式。未来，随着技术的不断进步，AI视频将在更多领域展现出更大的潜力。

三、通义万相介绍

3.1 通义万相概述

3.1.1 什么是通义万相

通义万相 是阿里云推出的一款AI多模态内容生成平台，专注于图像和视频的智能化创作。它基于阿里云通义大模型家族，旨在通过先进的人工智能技术，为用户提供高效、创新的视觉内容生成解决方案。

网页端入口：通义万相_AI创意作画_AI绘画_人工智能-阿里云

3.2 通义万相核心特点

通义万相具备多种强大的AI生成能力，主要包括：

文本生成图像：
- 根据用户输入的文字描述，生成符合需求的图像，支持多种艺术风格（如水彩、油画、3D卡通等。
图像风格迁移：
- 用户上传原图和风格图后，AI可以将原图处理为指定风格，实现创意转化。
视频生成：
- 支持文生视频和图生视频任务，能够生成影视级高清视频，并优化中式元素的表现，特别适合中国风内容的创作。
相似图像生成：
- 上传任意图片后，AI可以生成内容或风格相似的画作，适合创意发散
复杂运动生成：
- 能够模拟真实世界的物理规律，生成复杂和大幅度的运动场景，提升视频的真实感

3.3 通义万相技术特点

通义万相技术具备如下优势和特点：

基于阿里通义大模型：
- 依托阿里巴巴通义大模型（Tongyi Large Model），结合扩散模型（Diffusion Model）和 Transformer 架构进行高质量图像生成。
多模态支持：
- 通义万相不仅支持图像生成，还具备视频生成能力，实现了多模态内容的智能化创作。
高度可控性：
- 基于阿里云研发的组合式生成模型Composer，通义万相能够对配色、布局、风格等设计元素进行精细拆解与智能重组，提供高度可控的图像生成效果。
中文优化：
- 原生支持中文长文本提示词，能够精准理解并生成符合中国文化和审美的内容，被称为“最懂中国风”的视频大模型。
开源支持：
- 通义万相2.1模型已全面开源，开发者可以通过Github、HuggingFace等平台获取推理代码和权重，支持文生视频和图生视频任务。

通义万相技术优势在于其多模态生成能力、中文优化、高质量输出、高度可控性、技术创新、广泛的应用场景以及开源支持。这些优势使其成为国内AIGC领域的领先平台，为创作者和企业提供了强大的AI赋能工具。未来，随着技术的进一步迭代，通义万相有望在更多领域展现更大的价值。

3.4 通义万相应用场景

通义万相作为阿里云推出的AI多模态内容生成平台，凭借其强大的图像和视频生成能力，在多个领域展现了广泛的应用场景。以下是通义万相的主要应用场景及其具体表现：

艺术创作
- 通义万相为艺术家和设计师提供了强大的创意支持，能够根据用户输入的提示词或描述生成个性化的艺术作品。其支持多种艺术风格（如水彩、油画、3D卡通等），帮助创作者探索新的艺术表现形式
  - 个性化艺术生成：用户可以通过简单的指令生成独特的艺术作品，满足个人或商业需求。
  - 风格迁移：将现有图像转化为指定风格，实现创意转化。
广告与营销
- 通义万相在广告制作和营销领域展现了强大的应用潜力，能够快速生成高质量的视频和图像内容，提升广告的吸引力和效果
  - 广告素材生成：生成商品海报、广告图和创意视频，提升营销效率。
  - 个性化广告投放：根据用户数据生成定制化广告内容，提高广告投放的精准性。
影视与游戏开发
- 通义万相在影视和游戏开发中发挥了重要作用，能够生成特效、场景预览和角色概念设计，大幅缩短制作周期
  - 影视特效生成：生成逼真的特效和背景，提升影视作品的视觉效果。
  - 游戏场景与角色设计：生成游戏角色、场景和动画，加速游戏开发进程。
社交媒体平台内容创作
- 通义万相为社交媒体用户和内容创作者提供了强大的工具，能够生成吸引眼球的短视频和动态封面，增强用户互动性
  - 短视频生成：生成个性化的短视频内容，吸引粉丝和提高互动。
  - 动态封面设计：生成炫酷的动态封面，提升社交媒体内容的吸引力。
商业设计与展示
- 通义万相在商业设计和展示中展现了强大的应用潜力，能够生成高质量的设计素材和展示视频
  - 产品展示视频：生成商品展示视频，提升消费者的购买欲望。
  - 虚拟店铺装修：生成虚拟店铺装修预览视频，帮助商家展示店铺布局和产品陈列。

四、DeepSeek + 通义万相制作AI视频流程

4.1 DeepSeek + 通义万相制作视频优势

4.1.1 DeepSeek 优势

Deepseek 生成的内容具有较高的专业性和深度，能够满足不同领域的需求。同时其深度思考能力和联网搜索能力，能够为用户生成最新，且内容丰富程度较高。在使用AI视频生成的场景中，制作视频需要视频脚本，分镜头文案等元素信息，借助Deepseek 强大的对话和深度思考能力，可以生成高质量的视频脚本，然后配合AI视频制作平台的能力，即可快速完成视频的制作。deepseek入口：DeepSeek

4.1.2 通义万相视频生成优势

通义万相作为阿里云推出的AI多模态内容生成平台，在视频生成领域展现了显著的技术优势和应用潜力。以下是通义万相在视频生成方面的主要优势：

高质量视频生成
- 通义万相能够生成影视级高清视频，支持1080P分辨率，画面质感细腻，视觉效果出色。其生成的视频在动态场景中表现出极高的流畅度和真实感，适合广告、影视、游戏等多个领域的需求
中文优化与本土化支持
- 通义万相在中文视频生成方面具有显著优势，能够精准理解中文长文本提示词，并生成符合中国文化和审美的视频内容。例如，用户输入“以红色新年宣纸为背景，出现一滴水墨，晕染墨汁缓缓晕染开来”的指令，通义万相可以生成具有浓郁东方韵味的视频。
复杂运动与物理规律模拟
- 通义万相通过自研的高效VAE（变分自编码器）和DiT（图像生成对抗网络）架构，增强了时空上下文建模能力，能够精准模拟复杂运动和真实物理规律。例如，雨滴落在伞上会溅起水花，玻璃杯摔碎时碎片飞溅等场景都能逼真呈现。
多模态生成能力
- 通义万相支持文生视频和图生视频两种生成模式。用户可以通过输入文本描述或上传图片，快速生成高质量视频内容。这种多模态能力使其在广告设计、短视频创作等领域具有广泛的应用价值。
丰富的视觉效果与特效
- 通义万相提供了多种视频特效选项，如过渡效果、粒子效果、模拟效果等，用户可以根据需求自由组合，增强视频的表现力和艺术感。例如，一键生成艺术字功能，支持中英文文字特效生成，极大提升了视频的视觉吸引力。
使用简单创作效率高
- 通义万相通过简洁的操作界面和强大的AI技术支持，大幅降低了视频创作的门槛。即使是普通用户，也能通过简单的指令快速生成高质量视频内容，显著提升了创作效率。
开源与生态支持
- 通义万相2.1模型已全面开源，开发者可以通过Github、HuggingFace等平台获取推理代码和权重，支持文生视频和图生视频任务。这种开源策略不仅降低了技术使用门槛，还促进了AI社区的协作与创新。

4.2 操作过程

接下来通过实际案例演示如何使用DeepSeek + 通义万相生成视频

4.2.1 使用DeepSeek 生成视频脚本

提供如下的文案，即我们接下来我们需要让DeepSeek 生成视频的原始需求

我想做一个治愈系的名山大川的短视频，视频中的元素包括蔚蓝的天空，广阔的山河湖泊，飞鸟，无人机拍摄视角以及特写镜头，以国家地理纪录片的风格，时长30秒

打开deepseek，发出上述指令，稍等一会儿，deepseek便给出了完整的解析和思考过程，比如制作视频的注意点，建议点，优化点等

基于上一步的回答，我们进一步输入指令要求DeepSeek 生成分镜头脚本

通过上面的2步指令输入，就得到了接下来用于生成视频的原始分镜脚本，当然，如果第一次生成的脚本不满意，还可以通过多轮对话的方式进行微调，直到得到满意的脚本为止。

4.2.2 使用通义万相生成视频

进入通义万相之后，找到左侧的视频生成的菜单，拷贝上一步的分镜脚本到输入框中，它会自动将markdown格式的文案进行解析出来，在当前的操作窗口页面，里面还有一些参数可以调整，比如视频比例，可以结合实际需求进行选择，像3:4在一些自媒体平台比较流行，参数部分可自行尝试。

将脚本复制进去之后，点击生成视频按钮，生成视频的时长会根据你的实际分镜不同而有差异。

等待一段时间之后，在右侧就可以看到生成好的视频了。

可以直接打开查看视频的效果，也可以下载到本地

通过上面的操作流程，就完成了一个从生成视频的分镜脚本到制作出视频的完整过程，事实上，这也是很多自媒体创作者利用AI大模型完成AI视频制作的基本操作流程，只不过其中的细节还需要进一步的完善和优化，比如分镜脚本的优化，视频参数的调整，视频导入到其他剪辑工具的调色、剪辑、后期制作等。

四、通义万相其他功能体验

在通义万相的操作界面上还有不少好用的功能可以体验，下面再选取两个高频的场景进行演示操作。

4.1 图生视频

简而言之，即根据你上传的图片生成视频

比如以官方提供的图片为例进行视频生成，选择一张

点击生成视频，通义万相会自动解析图片中的元素内容，生成一段类似于视频脚本的描述文案，然后等待视频生成即可，最后可以看到，这是一段一个类似飞碟的飞行物在低空飞行的视频

4.2 文字作画

即文生图的功能，这个在AI大模型出来不久，很多大模型都开始在这个领域探索，截止到现在，这一技术逐渐成熟，对用使用者来说，只需要提供你的文案描述，文案尽可能的覆盖到待生成的图片元素，这样生成的图效果才好，有点考验一个人的文字功底，如下我们在框里输入一段内容

生成一张猫和狗快乐玩耍的温馨图片，图中小猫伸出爪子去挠小狗的头，旁边有草坪，有几只蝴蝶，有盛开的花朵，蓝色的天空，风格为写实风格

输入进去然后点击生成，稍等一会，即可生成默认的4张图片

4.3 Java API 调用

通义万相也提供了API对接方式，可以在应用程序中进行集成和使用

以左侧的视频生成API为例进行说明，点击之后，跳转到下面的对接文档页面

以Java对接为例进行说明，参考下面的步骤。

4.3.1 导入依赖SDK

在你的springboot工程 pom文件中添加如下依赖

需要用比较新的版本，否则可能还没有包含视频生成相关的API能力

<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>dashscope-sdk-java</artifactId>
    <!-- 请将 'the-latest-version' 替换为最新版本号：https://mvnrepository.com/artifact/com.alibaba/dashscope-sdk-java -->
    <version>t2.18.2</version>
</dependency>

4.3.2 获取apikey

登录阿里云的百炼大平台，注册账号后创建一个apikey即可，入口：阿里云登录 - 欢迎登录阿里云，安全稳定的云计算服务平台

4.3.3 代码集成

参考下面的代码

只需要将里面的代码中的apkey替换成你自己的即可

package com.congge.chat;

// Copyright (c) Alibaba, Inc. and its affiliates.

// dashscope sdk >= 2.18.2
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesis;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisParam;
import com.alibaba.dashscope.aigc.videosynthesis.VideoSynthesisResult;
import com.alibaba.dashscope.exception.ApiException;
import com.alibaba.dashscope.exception.InputRequiredException;
import com.alibaba.dashscope.exception.NoApiKeyException;
import com.alibaba.dashscope.utils.JsonUtils;

public class Text2Video {
    /**
     * Create a video compositing task and wait for the task to complete.
     */
    public static void text2Video() throws ApiException, NoApiKeyException, InputRequiredException {
        VideoSynthesis vs = new VideoSynthesis();
        VideoSynthesisParam param =
                VideoSynthesisParam.builder()
                        .model("wanx2.1-t2v-turbo")
                        .apiKey("你的apikey")
                        .prompt("一只小猫在月光下奔跑")
                        .size("1280*720")
                        .build();
        System.out.println("please wait...");
        VideoSynthesisResult result = vs.call(param);
        System.out.println(JsonUtils.toJson(result));
    }

    public static void main(String[] args) {
        try {
            text2Video();
        } catch (ApiException | NoApiKeyException | InputRequiredException e) {
            System.out.println(e.getMessage());
        }
        System.exit(0);
    }
}

运行上面的代码，控制台的输出结果中即包含了生成的视频链接

在浏览器中打开链接自动下载到本地，然后即可播放查看效果

通义万相主页还提供了很多其他有意思的功能，这里就不再一一列举了，感兴趣的同学可以继续研究。

五、写在文末

本文详细介绍了通义万相这款AI工具的使用，并使用DeepSeek+通义万相完成了一个视频制作的完整过程，最后介绍了如何在代码中进行集成的过程，本篇到此结束，感谢观看。

转载自CSDN-专业IT技术社区

原文链接：https://blog.csdn.net/zhangcongyi420/article/details/146441972