热门

Llasa-1B

11个月前发布 20 00

Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构，通过结合 XCodec2 代码本中的语音标记，能够将文本转换为自然流畅的语音。该模型在 25 万小时的中英文语音数据上进行了训练，支持从纯文本生成语音，也可以利用给定的语音提示进行合成。其主要优点是能够生成高质量的多语言语音，适用于多种语音合成...

收录时间：

2025-05-29

打开网站手机查看

文案写作 # 中英文支持 # 人工智能 # 开源模型 # 文本转语音 # 语音合成

Llasa-1B

Llasa-1B

Llasa-1B 是一个由香港科技大学音频实验室开发的文本转语音模型。它基于 LLaMA 架构，通过结合 XCodec2 代码本中的语音标记，能够将文本转换为自然流畅的语音。该模型在 25 万小时的中英文语音数据上进行了训练，支持从纯文本生成语音，也可以利用给定的语音提示进行合成。其主要优点是能够生成高质量的多语言语音，适用于多种语音合成场景，如有声读物、语音助手等。该模型采用 CC BY-NC-ND 4.0 许可证，禁止商业用途。

数据统计

相关导航

o1-pro

o1-pro 模型是一种先进的人工智能语言模型，专为提供高质量文本生成和复杂推理设计。其在推理和响应准确性上表现优越，适合需要高精度文本处理的应用场景。该模型的定价基于使用的 tokens，输入每百万 tokens 价格为 150 美元，输出每百万 tokens 价格为 600 美元，适合企业和开发者在其应用中集成高效的文本生成能力。

Veo3API.ai

Veo3API.ai 提供性价比最高的 Veo 3 API，支持从文本和图像生成同步音频的4K视频。具有高扩展性和稳定性，价格实惠，适合各种视频生成需求。

Blip 3o

Blip 3o 是一个基于 Hugging Face 平台的应用程序，利用先进的生成模型从文本生成图像，或对现有图像进行分析和回答。该产品为用户提供了强大的图像生成和理解能力，非常适合设计师、艺术家和开发者。此技术的主要优点是其高效的图像生成速度和优质的生成效果，同时还支持多种输入形式，增强了用户体验。该产品是免费的，定位于开放给广大用户使用。

OuteTTS-0.1-350M

OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术，它不需要外部适配器或复杂架构，通过精心设计的提示和音频标记实现高质量的语音合成。该模型基于LLaMa架构，使用350M参数，展示了直接使用语言模型进行语音合成的潜力。它通过三个步骤处理音频：使用WavTokenizer进行音频标记化、CTC强制对齐创建精确的单词到音频标记映射、以及遵循特定格式的结构化提示创建。OuteTTS的主要优点包括纯语言建模方法、声音克隆能力、与llama.cpp和GGUF格式的兼容性。

NeuralSVG

NeuralSVG是一种用于从文本提示生成矢量图形的隐式神经表示方法。它受到神经辐射场（NeRFs）的启发，将整个场景编码到一个小的多层感知器（MLP）网络的权重中，并使用分数蒸馏采样（SDS）进行优化。该方法通过引入基于dropout的正则化技术，鼓励生成的SVG具有分层结构，使每个形状在整体场景中具有独立的意义。此外，其神经表示还提供了推理时控制的优势，允许用户根据提供的输入动态调整生成的SVG，如颜色、宽高比等，且只需一个学习到的表示。通过广泛的定性和定量评估，NeuralSVG在生成结构化和灵活的SVG方面优于现有方法。该模型由特拉维夫大学和MIT CSAIL的研究人员共同开发，目前代码尚未公开。

AI对联生成器

AI对联生成器是一款利用人工智能技术开发的在线工具，能够根据用户输入的主题或关键词，快速生成对仗工整、富有文化内涵的对联。该产品结合了自然语言处理和深度学习技术，通过对大量对联文本的学习和分析，掌握了对联的创作规律和特点，从而能够为用户提供高质量的对联创作服务。其主要优点是操作简单、生成速度快、对联质量高，能够满足用户在节日、庆典、装饰等多种场景下的对联需求。该产品由Timothy Yin开发，由DeepSeek提供技术支持，目前处于v0.1.4版本，是一款免费的在线工具，旨在为用户提供便捷的对联创作体验。

Klyra AI

Klyra AI是一款集成了AI视频生成、AI头像、AI产品照片、文本转语音、语音克隆、AI语音合成、AI博客编写、AI音乐生成等30多种强大工具的全能AI平台。该产品不仅适用于内容创作者、营销人员和教育者，还可以帮助商业用户生成视频、头像、产品照片、博客、音乐和语音。

DeepScaleR-1.5B-Preview

DeepScaleR-1.5B-Preview 是一个经过强化学习优化的大型语言模型，专注于提升数学问题解决能力。该模型通过分布式强化学习算法，显著提高了在长文本推理场景下的准确率。其主要优点包括高效的训练策略、显著的性能提升以及开源的灵活性。该模型由加州大学伯克利分校的 Sky Computing Lab 和 Berkeley AI Research 团队开发，旨在推动人工智能在教育领域的应用，尤其是在数学教育和竞赛数学领域。模型采用 MIT 开源许可，完全免费供研究人员和开发者使用。

暂无评论

您必须登录才能参与评论！

none

暂无评论...