XMusic – 腾讯多媒体实验室自主研发的AI通用作曲框架

XMusic是什么

XMusic是腾讯多媒体实验室自主研发的AI通用作曲框架。用户只需上传视频、图片、文字、标签、哼唱等任意内容,XMusic能生成情绪、曲风、节奏可控的高质量音乐。基于自研的多模态和序列建模技术,可将提示词内容解析至符号音乐要素空间,以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。XMusic适用于视频剪辑配乐、商超会场环境音乐选择以及互动娱乐、辅助创作、音乐教育、音乐治疗等诸多场景,能大幅降低音乐创作门槛,随时随地实现AI辅助创作,打造个人专属的“行走的音乐库”。

XMusic的主要功能

多模态输入生成音乐:支持图片、文字、视频、标签、哼唱等多种模态内容作为提示词,生成情感可控的高质量音乐。例如输入“逗趣横生,让人捧腹大笑”的描述,XMusic就会生成一段节奏俏皮、旋律欢快的音乐。情绪、曲风、节奏可控:用户可以根据自己的需求,生成具有特定情绪、曲风、节奏的音乐,满足不同场景下的音乐使用需求。商用级音乐生成能力:基于自研的多模态和序列建模技术,XMusic可以将提示词内容解析至符号音乐要素空间,并以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。

XMusic的技术原理

核心框架:基于本地化部署的Transformers算法框架,该框架具有强大的自然语言处理能力和跨模态学习能力,为音乐生成提供了坚实基础。核心组件:XProjector:将各种形式的提示(如图像、视频、文本、标签和哼唱)解析为符号音乐元素(如情感、流派、节奏和音符)在投影空间内生成匹配的音乐。XComposer:包含生成器和选择器。生成器基于创新的符号音乐表示生成可控制情感且旋律优美的音乐;选择器通过构建涉及质量评估、情感识别和流派识别任务的多任务学习方案来识别高质量的符号音乐。 运行机制:分为解析、生成、筛选三个阶段。解析阶段基于自然语言处理和图像识别技术,对用户输入的提示词进行分析并映射至符号音乐要素投影空间;生成阶段,生成器将音乐要素映射至符号音乐表征序列,解码器根据这些表征序列生成匹配的音乐旋律和节奏;筛选阶段,筛选器对生成的批量音乐进行质量评估,筛选出质量最高、最符合用户需求的音乐。

XMusic的的项目地址

项目官网:https://xmusic-project.github.ioarXiv技术论文:https://arxiv.org/pdf/2501.08809

XMusic的的应用场景

互动娱乐:在互动娱乐场景中,可根据用户的互动行为或输入生成相应的音乐,增强互动体验。辅助创作:为音乐创作者提供灵感和辅助,帮助其快速生成音乐素材,提高创作效率。音乐教育:音乐课的老师可使用XMusic生成多样的节拍、节奏、音高练习曲目,并结合实际教学场景,发挥AI生成音乐的教学辅助能力。音乐治疗:根据治疗需求生成相应的音乐,辅助音乐治疗过程。

Bard Advanced – Home

Bard Advanced官网

Google预计将推出的付费语言模型服务

Bard Advanced简介

需求人群:

“可用于获取信息、进行智能写作、创建虚拟助手等”

使用场景示例:

提出一个数学问题,Bard Advanced可以给出解释过程的解答

让Bard Advanced写一篇关于空气污染的文章

创建一个虚拟客服机器人,通过Bard Advanced赋予其回答问题的能力

产品特色:

回答问题

数学计算

逻辑推理

文本生成

创建自定义机器人

Bard Advanced官网入口网址

https://www.google.com/bard

小编发现Bard Advanced网站非常受用户欢迎,请访问Bard Advanced网址入口试用。

Seaweed APT – 字节跳动推出的单步图像和视频生成项目

Seaweed APT是什么

Seaweed APT是字节跳动推出的对抗性后训练(Adversarial Post-Training)模型,能实现图像和视频的一站式生成。Seaweed APT基于预训练的扩散模型,直接对真实数据进行对抗性训练,而非用预训练模型作为教师来生成目标,在单步生成中实现高质量的图像和视频输出。Seaweed APT引入多项改进,包括确定性蒸馏初始化的生成器、增强的判别器架构及近似R1正则化目标,提高训练的稳定性和生成质量。实验表明,Seaweed APT能在单步中生成1024px的图像和2秒、1280×720、24fps的视频,且在视觉保真度上超越传统的多步扩散模型。

Seaweed APT

Seaweed APT的主要功能

单步高质量图像生成:能生成 1024px 分辨率的图像,且在视觉保真度、细节和结构完整性方面与多步扩散模型相当。单步高分辨率视频生成:首次实现 1280×720、24fps、2 秒长的视频生成,显著提高视频生成的效率和质量。实时生成能力:在单个 H100 GPU 上,Seaweed APT 能在 6.03 秒内生成一个 2 秒的 1280×720 24fps 视频,基于 8 个 H100 GPU 并行化,整个生成过程实现实时处理。超越预训练模型:直接在真实数据上进行对抗性训练,Seaweed APT 避免预计算视频样本的高昂成本,在某些评估标准上超越预训练的扩散模型,特别是在真实感、细节和曝光问题上。

Seaweed APT的技术原理

预训练扩散模型初始化:用预训练的扩散变换器(DiT)作为初始化,避免预计算视频样本的高昂成本,且在某些评估标准上超越预训练模型。对抗性训练:基于对抗性训练目标对真实数据进行训练,直接在真实数据上进行训练,生成更接近真实分布的样本,提高生成质量和真实感。生成器设计:采用确定性蒸馏初始化生成器,用离散时间一致性蒸馏(discrete-time consistency distillation)和均方误差损失进行初始化。生成器在训练过程中主要关注单步生成能力,始终输入最终时间步 T。判别器设计:判别器用预训练的扩散网络进行初始化,在潜空间中直接操作。判别器包含 36 层 Transformer 块,总参数量为 80 亿。基于在多个时间步引入新的交叉注意力块,判别器能更好地区分真实样本和生成样本。近似 R1 正则化:为解决大规模 Transformer 模型中 R1 正则化的高阶梯度计算问题,推出一种近似方法。在真实数据上添加小方差的高斯噪声,减少判别器在真实数据上的梯度,实现与原始 R1 正则化一致的目标。训练细节:首先在图像上进行训练,然后在视频上进行训练。用大量的 H100 GPU 和梯度累积达到较大的批量大小,提高训练的稳定性和结构完整性。采用指数移动平均(EMA)衰减率来稳定训练过程,在训练过程中调整学习率确保训练的稳定性。

Seaweed APT的项目地址

项目官网:https://seaweed-apt.comarXiv技术论文:https://arxiv.org/pdf/2501.08316

Seaweed APT的应用场景

视频广告制作:快速生成高质量、风格多样的视频广告,减少制作成本和时间。影视内容创作:为电影和电视剧生成特定风格的视频片段,提升创作效率和内容多样性。社交媒体内容:生成个性化、高质量的视频和图像,增强用户参与度和内容吸引力。游戏开发:快速生成游戏中的角色、场景和道具图像,加速游戏开发流程。教育与培训:生成教育视频和培训材料,提高教学效果和培训质量。

Own Chat – Home

Own Chat官网

拥有一个与协作的聊天AI

Own Chat简介

需求人群:

“可用于个人学习、工作协作、个人助手等场景”

使用场景示例:

个人学习:用户可以利用Own Chat进行问题求解、知识学习

工作协作:团队成员可以使用Own Chat进行项目讨论、任务分配

个人助手:用户可以将Own Chat作为个人助手,记录日程、提醒事项

产品特色:

创建自己的ChatGPT

协作功能

登录与Google账号

Own Chat官网入口网址

https://ownchat.me/

小编发现Own Chat网站非常受用户欢迎,请访问Own Chat网址入口试用。

OmAgent – Om AI联合浙大开源的多模态语言代理框架

OmAgent是什么

OmAgent是Om AI和浙江大学滨江研究院联合开源的多模态语言代理框架,能简化设备端智能代理的开发。OmAgent支持可重用的代理组件,助力开发者构建复杂的多模态代理,处理文本、图像、视频和音频等多种输入形式。OmAgent赋能各种硬件设备,如智能手机、智能可穿戴设备、IP摄像头等,基于抽象不同设备类型,简化连接到先进多模态模型和算法的过程。OmAgent优化了计算流程,提供实时交互体验,具备易连接多样设备、集成前沿多模态模型、支持复杂问题解决算法等关键特点,提供直观的接口构建可扩展的代理,适应各种应用需求。

OmAgent

OmAgent的主要功能

多设备连接:OmAgent让连接物理设备变得非常简单,比如手机、眼镜等,能构建直接在设备上运行的应用,提供智能手机应用和对应的后端,用户无需担心复杂的设备连接问题,可以专注于代理功能的开发。高效模型集成:集成SOTA模型,整合最先进的商业和开源基础模型,为应用开发者提供了最强大的智能支持。提供算法实现接口:为研究人员和开发者提供易于使用的流程编排接口,方便他们实现最新的代理算法,如ReAct、DnC等。让OmAgent能够支持更复杂的任务和问题解决,拓展代理的功能边界。

OmAgent的技术原理

视频预处理与存储:场景检测:将视频分割成独立的视频块,记录每个块的开始和结束时间戳,并从中均匀采样帧。视觉提示:用面部识别等算法标注视频帧,提供额外的视觉信息。音频文本表示:基于ASR算法将视频中的语音转换为文本,并区分不同的说话者。场景描述:用MLLMs生成每个视频段的详细描述,包括时间、地点、人物、事件等信息。编码和存储:将生成的场景描述向量化并存储在知识数据库中,同时保存原始文本和时间戳信息。分治循环(DnC Loop):任务分解:将复杂任务递归分解为可执行的子任务,直到子任务足够简单直接处理。工具调用:在处理过程中,根据需要调用外部工具(如视频回放工具“rewinder”)补充信息,解决信息丢失问题。任务执行:基于递归树结构存储任务执行路径,确保任务的顺利执行和结果的合并。工具调用机制:自主调用:根据任务信息自主生成工具调用请求参数,调用外部工具(如互联网搜索、面部识别、文件处理等)完成复杂任务。视频回放工具:特别提供“rewinder”工具,在需要时回放特定时间段的视频,提取详细信息。查询处理与检索:时间戳提取:从查询中提取时间信息,用在过滤检索结果。文本编码与检索:将查询文本编码为嵌入向量,用在从知识数据库中检索相关的视频段信息。任务传递:将检索到的视频段信息和原始任务传递给DnC Loop进行处理。结果合成与输出:子任务执行:DnC Loop递归执行子任务,处理复杂任务,在必要时调用工具补充信息。结果合成:将所有子任务的执行结果合成最终答案,基于专门的节点输出最终结果。

OmAgent的项目官网

项目官网:https://www.om-agent.com/GitHub仓库:https://github.com/om-ai-lab/OmAgentarXiv技术论文:https://arxiv.org/pdf/2406.16620

OmAgent的应用场景

视频监控:实时分析监控视频,检测异常事件并发出警报,提高安全性和响应速度。内容推荐:为用户推荐个性化视频内容,结合多模态信息提供更全面的推荐。教育:解析教育视频,生成总结和笔记,通过互动学习提升用户体验。娱乐与影视:分析影视内容,提供剧情总结和角色介绍,增强观众的观影体验。智能客服与支持:通过自然语言查询视频内容,提供详细答案和多模态交互服务。

Chatboat – Home

Chatboat官网

定制AI聊天机器人,轻松集成到您的网站

Chatboat简介

需求人群:

减少支持票数,为访问者提供更好的支持体验

产品特色:

通过上传文档或添加链接来创建聊天机器人

快速、准确地回答问题

与Slack等应用程序无缝集成

Chatboat官网入口网址

https://www.chatboat.co

小编发现Chatboat网站非常受用户欢迎,请访问Chatboat网址入口试用。

KwaiAgents – Home

KwaiAgents官网

基于大模型的通用信息获取智能体系统

KwaiAgents简介

需求人群:

[“开发智能聊天机器人产品”,”用作自动对话系统的核心引擎”,”辅助完成信息获取、任务规划等需求”]

使用场景示例:

用户:最近看了一部很好的电影,想找人聊聊。智能体: 嗯,你觉得那部电影有什么亮点?让我也对它有些了解,然后我们可以好好聊聊你的看法。

用户:我想订一张从北京到上海的火车票。智能体: 好的,我来帮你订票。首先需要知道你要乘坐的日期,我给你提供一些可选的时间。然后根据时间、车次等条件,我们可以在订票网站上选择并订购合适的车票。

用户:请帮我规划一条从公司到机场的行车路线。智能体: 好的,我需要了解你公司的具体地址和你要去的机场。然后可以在地图App上查找行车路线,比较不同线路的时间、距离、收费情况等,给出最佳推荐路线。最后提供详细的导航提示,确保你可以顺利到达机场。

产品特色:

利用大模型实现智能聊天机器人

支持计划、反思、工具使用等智能体功能

提供海量智能体训练数据

提供完善的智能体评估Benchmark

KwaiAgents官网入口网址

https://github.com/KwaiKEG/KwaiAgents

小编发现KwaiAgents网站非常受用户欢迎,请访问KwaiAgents网址入口试用。

T2A-01-HD – 海螺AI海外版推出新的语音模型

T2A-01-HD是什么

T2A-01-HD是海螺AI海外版推出新的语音模型。支持声音克隆,仅需10秒音频即可精准克隆声音,保留情感底色。模型具备智能情感系统,能捕捉语音中的情感细微差别,使语音更生动。用户可选择自动情绪检测或手动控制,获得完美表达。T2A-01-HD支持17种以上语言,能自然呈现地区特色口音。用户通过高级参数控制自定义音调、速度和情感基调,添加专业效果,打造录音室级输出。

T2A-01-HD的主要功能

语音克隆:只需输入10秒的音频,能精准克隆出该声音,保留每一个细微差别和情感底色,高度还原说话者的音色和语调等特征,让用户轻松获得与原声高度相似的语音效果。智能情感系统:能捕捉并复制语音中微妙的情感细微差别,使生成的语音不再是单调生硬的机械声,具有丰富情感色彩的生动语音,让语音表达更具感染力。情绪控制方式:用户可以选择自动情绪检测,模型会根据文本内容自动匹配相应的情感表达;也可以手动控制情绪,用户可根据自身需求精准调整语音的情感基调,以实现完美表达。多语言支持:支持17种以上的语言,涵盖英语(美国、英国、澳大利亚、印度)、中文(普通话和粤语)、日语、韩语、法语、德语、西班牙语、葡萄牙语(包括巴西葡萄牙语)、意大利语、阿拉伯语、俄语、土耳其语、荷兰语、乌克兰语、越南语和印尼语等,这些语言的口音自然,能反映出地道的地区性特色,满足不同用户在多语言场景下的语音合成需求。预建声音库:提供按语言、性别、口音、年龄和风格分类的300多个预建声音库,用户可根据自己的喜好和需求快速选择合适的声音模板,为语音合成提供丰富的基础素材。高级参数控制:用户可以自定义音调、速度和情感基调等参数,对声音进行细致调整,获得更具个性和动态效果的语音。专业效果添加:支持添加室内声学和电话滤波器等专业效果,模拟不同的录音环境和传输方式,进一步提升语音的真实感和专业度,用户能轻松打造出录音室级的语音效果。

如何使用T2A-01-HD

访问官网:访问海螺AI海外版官网。进入音频页面:登录后,找到并进入音频相关页面。选择模型:在音频页面右上角,可以看到模型选择选项,选择“T2A-01-HD”模型。准备音频:准备好一段10秒左右的音频,该音频将用于克隆声音。上传音频:按照页面提示,将音频文件上传至平台。等待克隆:上传完成后,等待模型对声音进行克隆,克隆后的声音会保留原音频的细微差别和情感底色。

T2A-01-HD的应用场景

有声读物制作:可以将文本内容快速转换为高质量的语音,生成有声读物,支持多语言和情感控制,让听众获得更好的听觉体验。影视配音:用语音克隆功能,为影视作品中的角色配音,只需少量原声样本就能克隆出相似的声音,且能通过情感控制使配音更贴合角色情绪。在线教育课程:为在线教育平台生成课程讲解语音,支持多种语言,方便不同地区的学生学习,能根据教学内容调整情感和语速,提高教学效果。语言学习:提供多语言支持,帮助学习者练习发音和听力,通过情感控制模拟不同语境下的语言表达,增强语言学习的趣味性和实用性。语音助手定制:用户可以根据自己的声音或喜欢的声音,定制个性化的语音助手,通过情感控制和音效定制,让语音助手更符合个人喜好。社交媒体内容创作:为社交媒体平台创作音频内容,如语音博客、音频故事等,用多语言和情感控制功能,吸引更广泛的听众。

Rizz! – Home

Rizz!官网

极速AI键盘,轻松畅聊

Rizz!简介

需求人群:

“适用于需要快速智能回复的场景,如社交媒体发布、专业邮件起草、创意构思等。”

使用场景示例:

社交媒体发布:用户可通过Rizz!快速获取智能回复,提升社交媒体发布效率。

专业邮件起草:通过Rizz!上传邮件内容截图,获取个性化回复,提高邮件回复速度。

创意构思:用户可通过Rizz!上传提示,获取创意灵感,提高构思效率。

产品特色:

上传对话截图获取个性化回复

快速社交媒体发布

轻松起草专业邮件

快速构思创意

制造幽默风趣的开场白

Rizz!官网入口网址

https://apps.apple.com/us/app/rizz/id1661403200

小编发现Rizz!网站非常受用户欢迎,请访问Rizz!网址入口试用。

Uni-AdaFocus – 清华大学推出通用的高效视频理解框架

Uni-AdaFocus是什么

Uni-AdaFocus是清华大学自动化系的研究团队推出的通用的高效视频理解框架,框架通过自适应聚焦机制,动态调整计算资源的分配,实现对视频内容的高效处理。具体而言,Uni-AdaFocus能根据视频帧的重要性进行智能筛选,优先处理包含关键信息的帧,对其他帧则采用简化处理或跳过处理,大幅减少了不必要的计算开销。

Uni-AdaFocus的主要功能

降低时间冗余性:能动态定位和聚焦于任务相关的关键视频帧,将计算资源集中在这些关键帧上,避免对所有帧进行同等处理,减少时间维度上的冗余计算,提高处理效率。降低空间冗余性:在每一帧视频中,只有一部分空间区域与任务相关。Uni-AdaFocus可以动态定位和聚焦于视频帧中的任务相关空间区域,仅对这些区域进行重点处理,降低空间冗余,进一步提升效率。降低样本冗余性:将计算资源更多地分配给更为困难的样本,在不同样本间差异化分配计算资源,对于相对“容易”的视频则减少计算投入,实现样本维度的冗余性建模,提升整体处理效果。高效端到端训练:使用一些数学方法处理了时空动态计算不可微分的问题,可以方便地进行高效端到端训练,无需强化学习等更为复杂的方法。兼容性强:兼容多种现成的高效骨干网络,如TSM和X3D,能够显著提升这些骨干网络的推理效率。推理成本可灵活调整:Uni-AdaFocus的推理成本可以在线调整,无需额外训练,通过修改样本条件计算的标准即可,能充分利用不稳定的计算资源,或灵活地以最小功耗达到期望的性能水平。

Uni-AdaFocus的技术原理

全局编码器:使用轻量化的特征提取网络(如MobileNet-V2等)对均匀采样的视频帧进行粗略处理,获取视频整体的时空分布信息,即全局特征。策略网络:基于全局编码器提取的全局特征,自适应地采样关键帧以及其中的关键区域,得到值得关注的patches。patch的形状和大小根据视频帧的具体特性自适应地决定。局部编码器:参数量大、准确率高的大容量神经网络,仅处理策略网络选择出的patches,即局部特征。分类器:逐帧聚合全局特征和局部特征以得到最优的视频理解结果,同时通过早退机制实现对样本维度计算冗余性的建模。

Uni-AdaFocus的项目地址

GitHub仓库:https://github.com/LeapLabTHU/Uni-AdaFocusarXiv技术论文:https://arxiv.org/pdf/2412.11228

Uni-AdaFocus的应用场景

视频推荐系统:Uni-AdaFocus能通过高效识别视频内容中的关键信息,为用户提供更加个性化的推荐服务。视频监控与安全预警:通过实时监测视频流中的异常行为和突发事件,Uni-AdaFocus能快速响应并发出警报,帮助相关部门及时采取措施。智能编辑与创作:对于视频创作者来说,能自动识别视频中的关键场景和精彩瞬间,帮助创作者快速完成剪辑和后期制作。教育与培训:Uni-AdaFocus可以准确捕捉教师的教学动作和学生的学习反应,提升教学质量和学习效果。健康医疗:使用脑部磁共振成像(MRI)诊断阿尔兹海默症和帕金森综合征时,Uni-AdaFocus可以高效地识别和分析MRI图像中的关键特征,辅助医生进行更准确的诊断。