ParGo – 字节与中山大学联合推出的多模态大模型连接器

ParGo是什么

ParGo是字节团队与中山大学合作提出的创新的多模态大语言模型连接器,提升视觉和语言模态在多模态大语言模型(MLLMs)中的对齐效果。通过结合局部token和全局token,使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的同时增强了局部区域之间的关系建模,考虑图像的细节与全局视角,克服了传统方法中忽视细节的问题。

ParGo的主要功能

高效连接视觉与语言模态:ParGo采用全局+局部视角联合的方式,通过Partial-Global Perception Block(PGP)和Cascaded Partial Perception Block(CPP)两个关键模块,将视觉特征映射为Partial token和Global token,分别提取图像的局部和全局信息,实现了视觉特征和大语言模型(LLM)的高效连接,克服了传统方法对显著区域的过度聚焦问题。提升多模态大语言模型效果:在多个MLLM基准测试中表现出色,如在MME基准测试中相比传统的Q-Former投影器提升了259.96。特别是在强调细节感知能力的任务中,ParGo显著优于其他投影器,能够更准确地进行文字识别、更好地描述图像细节以及更有效地识别局部元素。自监督学习增强上下文理解:在训练阶段引入自监督学习策略,通过预测遮挡部分的内容来增强模型对上下文的理解能力,提高了模型的泛化性能,减少了对大规模标注数据的依赖。

ParGo的技术原理

全局+局部视角联合:ParGo采用两种类型的可学习token,基于attention机制,同时从局部和全局视角将视觉特征映射到大语言模型(LLM)中。Partial-Global Perception Block (PGP):在ParGo中,视觉编码器的特征被映射为两种不同类型的token:Partial token和Global token,能够分别提取图像的局部和全局信息。Partial tokens:每个token仅与部分视觉特征进行交互,专注于图像的局部信息。Global tokens:全局token则与所有视觉特征进行交互,捕捉图像的全局信息。Cascaded Partial Perception Block (CPP):ParGo在Partial-Global Perception模块之前引入了Cascaded Partial Perception (CPP)模块。CPP模块的核心是带有特殊设计掩码的自注意力机制,随着层数的增加,每个Partial token能访问到更多的相邻token,逐步扩展其感知范围。自监督学习策略:在训练阶段,ParGo引入了自监督学习策略,即通过预测遮挡部分的内容来增强模型对上下文的理解能力。

ParGo的项目地址

Github仓库:https://github.com/bytedance/ParGoarXiv技术论文:https://arxiv.org/pdf/2408.12928

ParGo的应用场景

视觉问答系统:ParGo能理解图像中的视觉线索,解析文本中的语义信息,在视觉问答任务中表现出色。图像字幕生成:ParGo在COCO Caption等任务上表现尤为突出,能生成高质量的图像字幕。能描述图像的全局信息,还能捕捉到图像中的局部细节,生成更加准确和丰富的字幕。跨模态检索:ParGo可以用于跨模态检索任务,帮助用户通过文本查询找到相关的图像,或者通过图像查询找到相关的文本。情感分析:ParGo能理解图像和文本中的情感信息,在情感分析任务中提供更准确的结果。 图像内容理解:ParGo可以用于图像内容理解任务,帮助系统更好地理解图像中的细节和全局信息。

TwoSlash – Home

TwoSlash官网

生成、改进、翻译内容,提升写作和语法,AI助手插件

TwoSlash简介

需求人群:

适用于写作、社交媒体管理、电子邮件沟通等场景

产品特色:

生成社交媒体内容

优化Google Sheets公式

改进电子邮件回复

提升语法和写作

翻译内容

TwoSlash官网入口网址

https://twoslash.ai/

小编发现TwoSlash网站非常受用户欢迎,请访问TwoSlash网址入口试用。

OmniAI – Home

OmniAI官网

将想法转化为人工智能生成的杰作

OmniAI简介

需求人群:

“适用于个人写作、生产力提升、图像创作、聊天互动、语音转文字场景等”

使用场景示例:

使用AI Writer编写博客,提升排名

使用AI Code快速编写应用程序

使用AI Image生成惊艳的艺术图片

产品特色:

AI Writer:编写SEO优化博客、销售邮件等

AI Code:以光速编写代码

AI Image:通过文字创作出想象中的画面

AI Chat Bot:与人类非常相似的、亲切有趣的聊天机器人

Speech to Text:将语音转换为文本

Text to Voice:将文本转换为栩栩如生的语音

OmniAI官网入口网址

https://omniai.club/

小编发现OmniAI网站非常受用户欢迎,请访问OmniAI网址入口试用。

LuDe – Home

LuDe官网

AI音视频生成工具

LuDe简介

需求人群:

LuDe可以用于创建各种类型的视频,无论是个人创作、商业营销还是社交媒体发布。它适用于任何需要音视频内容的场景。

产品特色:

智能转写音频

视频背景更换

视频生成

LuDe官网入口网址

https://beta.lude.page

小编发现LuDe网站非常受用户欢迎,请访问LuDe网址入口试用。

评论罗伯特 – Home

评论罗伯特官网

微博评论智能机器人

评论罗伯特简介

需求人群:

“用户可以使用评论罗伯特来自动回复微博评论、进行网友交流以及学习人类的语言习惯和逻辑。”

使用场景示例:

用户A发布了一篇微博,评论罗伯特自动回复并表达了自己的观点。

用户B在微博评论区遇到了困惑,评论罗伯特给出了解答。

用户C与评论罗伯特展开了一次有趣的对话。

产品特色:

自动评论和回复微博

与网友进行交流

学习并模仿人类的语言习惯和逻辑

评论罗伯特官网入口网址

https://weibo.com/p/1005055762999670/

小编发现评论罗伯特网站非常受用户欢迎,请访问评论罗伯特网址入口试用。

MatterGen – 微软推出的无机材料生成模型

MatterGen是什么

MatterGen是微软推出的创新生成模型,专门用在设计无机材料。基于独特的扩散过程,逐步细化原子类型、坐标和周期晶格,生成跨越周期表的稳定、多样化的无机材料。MatterGen能被微调,满足广泛的性能约束,如化学组成、对称性、磁性、电子和机械性能等。与以往的材料生成模型相比,MatterGen在生成稳定、独特且新颖的材料方面表现出色,其生成的结构更接近DFT局部能量最小值。MatterGen能在给定的DFT属性计算预算内,找到更多满足极端性能约束的材料。

MatterGen

MatterGen的主要功能

生成稳定、多样化的无机材料:跨越周期表生成各种无机材料,且生成的材料具有较高的稳定性、独特性和新颖性。满足广泛性能约束:基于微调,生成满足特定化学组成、对称性、磁性、电子和机械性能等约束条件的材料,如高磁性密度的磁性材料、特定带隙的半导体材料、高体模量的超硬材料等。逆向材料设计:直接根据目标性能约束生成材料结构,突破传统基于已知材料筛选方法的限制,大大提高寻找新型材料的效率。

MatterGen的技术原理

扩散模型:基于扩散模型生成晶体材料。扩散模型基于逆转固定的破坏过程生成样本,该过程用学习到的分数网络实现。对于晶体材料,定义考虑其独特周期结构和对称性的定制化扩散过程,分别对原子类型、坐标和周期晶格进行破坏和去噪。分数网络:预训练等变分数网络,在大型稳定材料结构数据集上联合去噪原子类型、坐标和晶格。分数网络输出等变分数,用在去除噪声,无需从数据中学习对称性。适配器模块:引入适配器模块,在具有性能标签的额外数据集上对分数模型进行微调。适配器模块是注入基础模型每一层的可调组件,能根据给定的性能标签改变模型输出,实现对目标性能约束的引导生成。数据集:用大型多样化数据集Alex-MP-20进行预训练,该数据集包含从Materials Project和Alexandria数据集中重新计算的607,683个稳定结构。

MatterGen的项目地址

项目官网:https://www.microsoft.com/en-us/research/blog/mattergen技术论文:https://www.nature.com/articles/s41586-025-08628-5

MatterGen的应用场景

能源存储:用在设计新型电池材料,如高比容量的锂离子电池正极材料和高性能的固态电解质,提高电池的能量密度和功率密度。催化:开发高选择性催化剂,用在石油化工和精细化工中的特定化学品合成,及环境催化中的汽车尾气处理,提高反应效率和环境友好性。碳捕获:设计高效吸附二氧化碳的材料和将二氧化碳转化为有用化学品的催化材料,实现碳的循环利用,助力环境保护。电子材料:研发新型半导体材料和高性能磁性材料,用在制造高性能的电子器件,推动电子技术的发展。超硬材料:开发用在切削工具和耐磨涂层的超硬材料,提高机械部件的耐磨性和抗腐蚀性,应用于航空航天、汽车等领域。

iTextMaster – Home

iTextMaster官网

智能PDF交互AI插件,轻松与PDF进行对话

iTextMaster简介

需求人群:

适用于学生、研究人员、专业人士以及任何需要处理PDF文档的人群

产品特色:

智能对话:与PDF文档进行交互式对话,提供准确答案

快速摘要:提取PDF文档的关键信息,节省阅读时间

精确搜索:快速定位PDF文档中的特定内容

iTextMaster官网入口网址

https://chrome.google.com/webstore/detail/itextmaster-chatpdf-text/hdofgklnkhhehjblblcdfohmplcebaeg?hl=en

小编发现iTextMaster网站非常受用户欢迎,请访问iTextMaster网址入口试用。

AI Studios by DeepBrain AI – Home

AI Studios by DeepBrain AI官网

AI Studios是一个人工智能创作平台

AI Studios by DeepBrain AI简介

需求人群:

“适用于内容创作者、设计师、开发者等,需要利用AI技术进行创作和编辑的用户。”

使用场景示例:

使用AI工具生成艺术作品

编辑和优化视频内容

创作音乐和声音效果

产品特色:

AI项目管理

图像和视频创作

音频处理

AI工具集成

AI Studios by DeepBrain AI官网入口网址

https://app.deepbrain.io/dashboard

小编发现AI Studios by DeepBrain AI网站非常受用户欢迎,请访问AI Studios by DeepBrain AI网址入口试用。

Keyboard with GPT SmartBoard – Home

Keyboard with GPT SmartBoard官网

键盘中集成 AI,提高工作效率

Keyboard with GPT SmartBoard简介

需求人群:

“适用于编写社交媒体帖子、邮件、短信等工作场景”

产品特色:

与 AI 聊天,快速编写内容

直观的界面,预览和插入回复

翻译多种语言

月度订阅模式

Keyboard with GPT SmartBoard官网入口网址

https://apps.apple.com/us/app/smartboard-ai-keyboard-writer/id6450285666

小编发现Keyboard with GPT SmartBoard网站非常受用户欢迎,请访问Keyboard with GPT SmartBoard网址入口试用。

Voxify – Home

Voxify官网

超逼真AI语音生成

Voxify简介

需求人群:

Voxify适用于任何需要高质量语音合成的人群,可以用于各种项目和应用场景,如广告、教育、媒体制作等。

产品特色:

高质量的语音合成

多语言支持

快速交付

可定制的语音合成

情感丰富的语音合成

价格合理

Voxify官网入口网址

https://voxify.ai

小编发现Voxify网站非常受用户欢迎,请访问Voxify网址入口试用。