计算机视觉

共 46 篇网址

排序

发布更新浏览点赞

Google Imagen

Google Imagen是一个研究项目，旨在推动计算机视觉和机器学习的发展。它提供了一个大规模的图像数据库，供研究人员使用和分享。

0410

AI模型框架 AI赋能 # Google Imagen # 人工智能 # 图像优化

Spot AI

你最喜欢的新AI摄像系统，通过云和边缘计算使视频片段可操作，让你可以立即浮出水面并解决问题。

0320

AI在线工具 AI赋能 # AI摄像系统 # Spot AI # 云和边缘计算

Labelbox

了解领先团队如何使用Labelbox构建人工智能应用程序、训练和微调模型，以及使用LLM实现任务自动化.

0270

AI在线工具 AI赋能 # AI技术 # Labelbox # LLM（Large Language Model）

TurboLens

TurboLens是一个集OCR、计算机视觉和生成式AI于一体的全功能平台，它能够自动化地从非结构化图像中快速生成洞见，简化工作流程。产品背景信息显示，TurboLens旨在通过其创新的OCR技术和AI驱动的翻译及分析套件，从印刷和手写文档中提取定制化的洞见。此外，TurboLens还提供了数学公式和表格识别功能，将图像转换为可操作的数据，并将数学公式翻译成LaTeX格式，表格转换为Excel格式。产品价格方面，TurboLens提供免费和付费两种计划，满足不同用户的需求。

0250

智能翻译 # OCR # 图像识别 # 文档处理

智东西

智东西是中国领先的智能产业媒体和创新服务平台。聚焦于以人工智能为核心的新技术驱动的创新创业和传统产业升级。自创立以来，智东西以“聚焦智能变革服务产业升级”为愿景，已形成媒体、公开课以及产业活动三大产品业务体系，并构建了庞大的智能产业垂直社群。

0250

03-科技数码 # 03-科技数码 # AI芯片 # CPU

智东西

打赏赞微海报分享

0230

新闻热榜科技新闻 # AI芯片 # CPU # GPU

CameraBench

CameraBench 是一个用于分析视频中相机运动的模型，旨在通过视频理解相机的运动模式。它的主要优点在于利用生成性视觉语言模型进行相机运动的原理分类和视频文本检索。通过与传统的结构从运动 (SfM) 和实时定位与*构建 (SLAM) 方法进行比较，该模型在捕捉场景语义方面显示出了显著的优势。该模型已开源，适合研究人员和开发者使用，且后续将推出更多改进版本。

0200

视频创作 # 开源模型 # 深度学习 # 相机运动

CVAT – Computer Vision Annotation Tool

CVAT是一款用于计算机视觉数据标注的工具，支持图像、视频和3D数据，提供自动标注、多种标注工具、云端存储等功能，适用于医疗、零售、无人机、运动、汽车和制造等行业。

0190

其它AI工具科研助手 # 免费 # 数据标注 # 计算机视觉

StableAnimator

StableAnimator是首个端到端身份保留的视频扩散框架，能够在不进行后处理的情况下合成高质量视频。该技术通过参考图像和一系列姿势进行条件合成，确保了身份一致性。其主要优点在于无需依赖第三方工具，适合需要高质量人像动画的用户。

0180

视频创作 # 人像动画 # 深度学习 # 视频合成

UniAnimate

UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间，以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列，支持随机噪声输入和首帧条件输入，显著提高了生成长期视频的能力。此外，它还探索了基于状态空间模型的替代时间建模架构，以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果，并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

0180

视频生成 # 人物动画 # 扩散模型 # 时间建模

CrowdAI

CrowdAI是一款面向所有技术能力的用户的计算机视觉平台，提供一站式解决方案，帮助用户从像素到价值，实现自动化视觉数据分析。

0170

数据分析 # 付费 # 数据分析 # 计算机视觉

ImageNet

ImageNet是一个按照WordNet层次结构组织的图像数据库，包含超过1400万张图片，可用于计算机视觉和深度学习研究。

0170

AI记忆助手其它AI工具 # 图像数据库 # 计算机视觉

Tencent-Hunyuan-Large

Tencent-Hunyuan-Large（混元大模型）是由腾讯推出的业界领先的开源大型混合专家（MoE）模型，拥有3890亿总参数和520亿激活参数。该模型在自然语言处理、计算机视觉和科学任务等领域取得了显著进展，特别是在处理长上下文输入和提升长上下文任务处理能力方面表现出色。混元大模型的开源，旨在激发更多研究者的创新灵感，共同推动AI技术的进步和应用。

0170

生产力 # 人工智能 # 开源 # 混合专家模型

DINO-X

DINO-X是一个以物体感知为核心的视觉大模型，具备开集检测、智能问答、人体姿态、物体计数、服装换色等核心能力。它不仅能识别已知目标，还能灵活应对未知类别，凭借先进算法，模型具备出色的适应性和鲁棒性，能够精准应对各种不可预见的挑战，提供针对复杂视觉数据的全方位解决方案。DINO-X的应用场景广泛，包括机器人、农业、零售行业、安防监控、交通管理、制造业、智能家居、物流与仓储、娱乐媒体等，是DeepDataSpace公司在计算机视觉技术领域的旗舰产品。

0170

智能聊天机器人 # 人体姿态识别 # 智能问答 # 物体计数

TrueFace.AI

Trueface是一家领先的计算机视觉公司，利用现有的摄像头数据生成可操作的数据。他们的技术包括人脸识别、物体检测和欺诈防范等功能，可以轻松部署在您的基础设施上，为您的客户、员工、访客等创造更安全、更智能的环境。

0170

代码助手编程AI # 人脸识别 # 计算机视觉

Logistify AI

Logistify AI提供基于计算机视觉的自动化库存验证解决方案，可帮助企业降低库存损失，减少劳动成本，提高库存管理效率。

0160

商业AI 电子商务 # 自动化库存验证 # 计算机视觉

Nova A.I. Video Analysis and Search

Nova A.I.是一款强大的计算机视觉视频搜索引擎，帮助您快速搜索视频内容中的特定场景，节省时间，提高工作效率。

0160

其它AI工具搜索引擎 # 视频搜索 # 计算机视觉

中国图象图形学学会

积极开展图像图形基础理论和高新技术的研究，促进该学科技术的发展和在国民经济各个领域的推广应用。

0160

AIGC权威机构 AI相关协会 # 人才举荐 # 决策咨询 # 医学影像处理

Diffusion-Vas

这是一个由卡内基梅隆大学提出的视频非可见物体分割和内容补全的模型。该模型通过条件生成任务的方式，利用视频生成模型的基础知识，对视频中的可见物体序列进行处理，以生成包括可见和不可见部分的物体掩码和RGB内容。该技术的主要优点包括能够处理高度遮挡的情况，并且能够对变形物体进行有效的处理。此外，该模型在多个数据集上的表现均优于现有的先进方法，特别是在物体被遮挡区域的非可见分割上，性能提升高达13%。

0160

视频创作 # 3D UNet # 内容补全 # 条件生成

AI工具箱

打赏赞微海报分享

0160

一为导航导航网站 # AI工具合集 # AI工具导航 # AI工具箱官网

Caffe官网

CaffeUC伯克利研究推出的深度...Caffe是一款由Berkeley AI Research实验室开发的开源深度学习框架，具有高效的设计和执行，广泛应用于计算机视觉、自然语言处理等领域。

0150

AI开发框架 AI编程开发 # AI开发框架 # 开源 # 搞笑

VastGaussian

VastGaussian是一个3D场景重建的开源项目，它通过使用3D高斯来模拟大型场景的几何和外观信息。这个项目是作者从零开始实现的，可能存在一些错误，但为3D场景重建领域提供了一种新的尝试。项目的主要优点包括对大型数据集的处理能力，以及对原始3DGS项目的改进，使其更易于理解和使用。

0150

销售管理 # 3D场景重建 # 图形学 # 开源项目

VideoWorld

VideoWorld是一个专注于从纯视觉输入（无标签视频）中学习复杂知识的深度生成模型。它通过自回归视频生成技术，探索如何仅通过视觉信息学习任务规则、推理和规划能力。该模型的核心优势在于其创新的潜在动态模型（LDM），能够高效地表示多步视觉变化，从而显著提升学习效率和知识获取能力。VideoWorld在视频围棋和机器人控制任务中表现出色，展示了其强大的泛化能力和对复杂任务的学习能力。该模型的研究背景源于对生物体通过视觉而非语言学习知识的模仿，旨在为人工智能的知识获取开辟新的途径。

0150

视频创作 # 人工智能 # 机器人控制 # 知识学习

Synthesis

Synthetic Data for Computer Vision and Perception AI是一种用于计算机视觉和感知人工智能的合成数据，可以生成带有标签的训练数据，用于训练准确、高性能的模型。

0150

图像AI 设计助理 # 付费 # 合成数据 # 计算机视觉

PSHuman

PSHuman是一个创新的框架，它利用多视图扩散模型和显式重构技术，从单张图片中重建出逼真的3D人体模型。这项技术的重要性在于它能够处理复杂的自遮挡问题，并且在生成的面部细节上避免了几何失真。PSHuman通过跨尺度扩散模型联合建模全局全身形状和局部面部特征，实现了细节丰富且保持身份特征的新视角生成。此外，PSHuman还通过SMPL-X等参数化模型提供的身体先验，增强了不同人体姿态下的跨视图身体形状一致性。PSHuman的主要优点包括几何细节丰富、纹理保真度高以及泛化能力强。

0150

图像生成 # 3D重建 # 人体模型 # 人工智能

Microsoft Face API

Azure AI Vision with OCR and AI是微软Azure提供的一项人工智能服务，通过OCR和AI技术，帮助用户从图像和视频内容中提取洞察力，实现自动化的文本识别和图像分析。

0140

AI记忆助手其它AI工具 # OCR # 计算机视觉

text-to-pose

text-to-pose是一个研究项目，旨在通过文本描述生成人物姿态，并利用这些姿态生成图像。该技术结合了自然语言处理和计算机视觉，通过改进扩散模型的控制和质量，实现了从文本到图像的生成。项目背景基于NeurIPS 2024 Workshop上发表的论文，具有创新性和前沿性。该技术的主要优点包括提高图像生成的准确性和可控性，以及在艺术创作和虚拟现实等领域的应用潜力。

0140

文案写作 # 姿态估计 # 扩散模型 # 文本到图像

Netra

Netra是一家人工智能公司，它使用计算机视觉来增强数据科学、机器学习和产品团队的能力，以大规模利用内容理解来构建创新模型，从而创造和获取价值。

0140

AI在线工具 AI赋能 # Netra # 产品团队 # 人工智能公司

Computer Vision

Azure AI Vision with OCR and AI是一种基于Microsoft Azure的计算机视觉开发工具，可以通过OCR、目标检测和图像分析等功能，加速对图像和视频内容的开发和分析，从中获取有价值的信息。

0140

商业AI 生产效率 # OCR # 计算机视觉

AutoSeg-SAM2

AutoSeg-SAM2是一个基于Segment-Anything-2（SAM2）和Segment-Anything-1（SAM1）的自动全视频分割工具，它能够对视频中的每个对象进行追踪，并检测可能的新对象。该工具的重要性在于它能够提供静态分割结果，并利用SAM2对这些结果进行追踪，这对于视频内容分析、对象识别和视频编辑等领域具有重要意义。产品背景信息显示，它是由zrporz开发的，并且是基于Facebook Research的SAM2和zrporz自己的SAM1。价格方面，由于这是一个开源项目，因此它是免费的。

0130

视频创作 # 对象追踪 # 开源项目 # 自动化

Thera

Thera 是一种先进的超分辨率技术，能够在不同尺度下生成高质量图像。其主要优点在于内置物理观察模型，有效避免了混叠现象。该技术由 ETH Zurich 的研究团队开发，适用于图像增强和计算机视觉领域，尤其在遥感和摄影测量中具有广泛应用。

0130

图像生成 # 图像处理 # 深度学习 # 计算机视觉

OpenCV

OpenCV是世界上最大的计算机视觉库，提供了实时优化的计算机视觉算法和深度学习模块，支持多种硬件平台，可以应用于图像处理、视频处理和人脸识别等领域。

0130

AI记忆助手其它AI工具 # 图像处理 # 计算机视觉

Accord

Accord.NET是一个完全由C#编写的.NET机器学习框架，结合了音频和图像处理库，可用于构建生产级的计算机视觉、计算机听觉、信号处理和统计应用。

0130

商业AI 生产效率 # 机器学习 # 计算机视觉

Aforge

在这篇文章中，我们将介绍最佳的在线百家乐游戏平台，提供世界各地最受欢迎的游戏，以及丰富的奖金和活动。

0120

开发者工具编程AI # 人工智能 # 计算机视觉

EasyControl

EasyControl 是一个为 Diffusion Transformer（扩散变换器）提供高效灵活控制的框架，旨在解决当前 DiT 生态系统中存在的效率瓶颈和模型适应性不足等问题。其主要优点包括：支持多种条件组合、提高生成灵活性和推理效率。该产品是基于最新研究成果开发的，适合在图像生成、风格转换等领域使用。

0120

图像生成 # Diffusion Transformer # 图像生成 # 深度学习

Describe Anything

Describe Anything 模型（DAM）能够处理图像或视频的特定区域，并生成详细描述。它的主要优点在于可以通过简单的标记（点、框、涂鸦或掩码）来生成高质量的本地化描述，极大地提升了计算机视觉领域的图像理解能力。该模型由 NVIDIA 和多所大学联合开发，适合用于研究、开发和实际应用中。

0120

图像生成 # 图像描述 # 深度学习 # 自然语言处理

Nova A.I. Video Analysis and Search

Nova A.I.是一款强大的计算机视觉视频搜索引擎，帮助您快速搜索视频内容中的特定场景，节省时间，提高工作效率。

0120

其它AI工具搜索引擎 # 视频搜索 # 计算机视觉

Chooch AI

Chooch的计算机视觉解决方案利用生成式人工智能和计算机视觉技术，帮助企业自动化视频和图像的审查和分析任务，以实现更快的洞察力和更高效的资源利用。

0120

商业AI 生产效率 # 人工智能 # 计算机视觉

DeepLobe

DeepLobe是一个无代码AI平台，可以将任何图像、文本或视频转化为深入的洞察力，提供标注、训练和部署功能，适用于各种行业和应用场景。

0120

低代码/无代码编程AI # 免费 # 无代码AI # 计算机视觉

OpenAI’s CLIP

CLIP是一种连接文本和图像的神经网络，通过自然语言指导学习视觉概念，具有广泛的应用潜力。

0120

商业AI 生产效率 # 深度学习 # 计算机视觉

Google AutoML Vision

Google Cloud的Vision AI是一个强大的计算机视觉解决方案，可以通过AutoML Vision、预训练的Vision API模型或自定义模型从图像中获取洞察力。

0110

商业AI 生产效率 # 图像识别 # 计算机视觉

Albumentations

Albumentations是一个快速、灵活的图像增强库，可用于提高机器学习和计算机视觉模型的性能。它支持多种任务和领域的数据，并与深度学习框架无缝集成。

0110

其它AI工具科研助手 # 图像增强 # 计算机视觉

Datagen

Datagen是一款强大的计算机视觉合成数据生成工具，可帮助用户生成符合其需求的人类中心数据集，用于各种计算机视觉任务。

0110

图像AI 图像生成器 # 合成数据 # 计算机视觉

PaperClipapp

PaperClip是一款专为AI研究者打造的二脑，帮助你记录每天的AI论文复习情况，记住论文中的重要细节，随时随地查找重要的研究成果。

0100

其它AI工具科研助手 # 免费 # 计算机视觉

Segment Anything 2 for Surgical Video Segmentation

Segment Anything 2 for Surgical Video Segmentation 是一个基于Segment Anything Model 2的手术视频分割模型。它利用先进的计算机视觉技术，对手术视频进行自动分割，以识别和定位手术工具，提高手术视频分析的效率和准确性。该模型适用于内窥镜手术、耳蜗植入手术等多种手术场景，具有高精度和高鲁棒性的特点。

090

医疗健康 # 医疗影像分析 # 手术视频分割 # 计算机视觉

Video Depth Anything

Video Depth Anything 是一个基于深度学习的视频深度估计模型，能够为超长视频提供高质量、时间一致的深度估计。该技术基于 Depth Anything V2 开发，具有强大的泛化能力和稳定性。其主要优点包括对任意长度视频的深度估计能力、时间一致性以及对开放世界视频的良好适应性。该模型由字节跳动的研究团队开发，旨在解决长视频深度估计中的挑战，如时间一致性问题和复杂场景的适应性问题。目前，该模型的代码和演示已公开，供研究人员和开发者使用。

080

视频创作 # 深度估计 # 深度学习 # 视频处理