Transformer

共 9 篇网址

排序

发布更新浏览点赞

Janus-Pro-1B

Janus-Pro-1B 是一个创新的多模态模型，专注于统一多模态理解和生成。它通过分离视觉编码路径，解决了传统方法在理解和生成任务中的冲突问题，同时保持了单个统一的 Transformer 架构。这种设计不仅提高了模型的灵活性，还使其在多模态任务中表现出色，甚至超越了特定任务的模型。该模型基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建，使用 SigLIP-L 作为视觉编码器，支持 384x384 的图像输入，并采用特定的图像生成 tokenizer。其开源性和灵活性使其成为下一代多模态模型的有力候选。

0250

图像生成 # Transformer # 图像生成 # 多模态

Llama-3.3-70B-Instruct

Llama-3.3-70B-Instruct是由Meta开发的一个70亿参数的大型语言模型，专门针对多语言对话场景进行了优化。该模型使用优化的Transformer架构，并通过监督式微调(SFT)和基于人类反馈的强化学习(RLHF)来提高其有用性和安全性。它支持多种语言，并能够处理文本生成任务，是自然语言处理领域的一项重要技术。

0190

文案写作 # Transformer # 多语言 # 大型语言模型

Megatron-LM

Megatron-LM是一个用于大规模Transformer语言模型训练的开源工具，支持高效的模型并行和多节点预训练，以及混合精度训练，适用于各种自然语言处理任务和大规模数据集的训练。

0180

商业AI 生产效率 # Transformer # 深度学习

Bailing-TTS

Bailing-TTS是由Giant Network的AI Lab开发的大型文本到语音(TTS)模型系列，专注于生成高质量的中文方言语音。该模型采用持续的半监督学习和特定的Transformer架构，通过多阶段训练过程，有效对齐文本和语音标记，实现中文方言的高质量语音合成。Bailing-TTS在实验中展现出接近人类自然表达的语音合成效果，对于方言语音合成领域具有重要意义。

0180

语音处理 # Transformer # 半监督学习 # 文本到语音

Llama-3.2-1B

Llama-3.2-1B是由Meta公司发布的多语言大型语言模型，专注于文本生成任务。该模型使用优化的Transformer架构，并通过监督式微调（SFT）和人类反馈的强化学习（RLHF）进行调优，以符合人类对有用性和安全性的偏好。该模型支持8种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语，并在多种对话使用案例中表现优异。

0140

智能聊天机器人 # Transformer # 多语言 # 对话系统

Neuralblender

Neuralblender是一个提供AI图像艺术创作的网站，它利用先进的AI技术，如vqgan、CLIP、neural art、biggan和transformer等，使用户能够创建自己的AI艺术。

0130

AI图像与设计 # AI图像艺术创作 # biggan # clip

NeuralBlender.com翻译站点

NeuralBlender.com: 使用最先进的人工智能技术创建您自己的AI艺术，从文本输入生成图像。

0120

AI艺术生成器 # aiart # AI相片和图像生成器 # AI艺术生成器

Unified-IO 2

Unified-IO 2是一个统一的多模态生成模型,能够理解和生成图像、文本、音频和动作。它使用单个编码器-解码器Transformer模型,将不同模式(图像、文本、音频、动作等)的输入和输出都表示为一个共享的语义空间进行处理。该模型从头开始在大规模的多模态预训练语料上进行训练,使用了多模态的去噪目标进行优化。为了学会广泛的技能,该模型还在120个现有数据集上进行微调,这些数据集包含提示和数据增强。Unified-IO 2在GRIT基准测试中达到了最先进的性能,在30多个基准测试中都取得了强劲的结果,包括图像生成和理解、文本理解、视频和音频理解以及机器人操作。

0100

音频处理 # Transformer # 动作 # 图像

Reformer

Reformer-pytorch是一个高效的Transformer模型，具有LSH attention、可逆网络和分块等特性，适用于自然语言处理和语音识别等任务。

0100

商业AI 生产效率 # PyTorch # Transformer