Midjourney 是一家社区资助的研究实验室,团队约 60 人,专注于构建高质量且具有美学追求的人工智能模型,尤其以图像与视频生成见长。其理念围绕“midjourney”这一隐喻,强调人类处于既有过去又面向未来的过程,致力于探索我们想成为什么样的人以及技术如何助力这一过程。网站展示了多项正在推进的项目,涵盖想象力、协作、反思、美学与人类繁荣等主题,并计划在未来推出更多软件和硬件产品。Midjourney 强调社区参与与协作,主要通过 Discord 社区提供产品支持与交流,同时提供文档、帮助页面和招聘信息,面向开发者、艺术家与研究者开放。
Luma AI 是一家专注于多模态生成与理解的人工智能公司,目标是构建能够在物理世界中生成、理解与操作的多模态通用智能。其产品线包括面向创意生产的 Dream Machine、用于高保真视频生成的 Ray3、以及高效图像生成模型 Photon,同时提供开放的 Luma API 以便开发者将图像与视频生成功能集成到应用中。Luma AI 强调生产级别的质量、速度与可控性,适用于影视制作、广告创意、教育与企业级部署等场景,并通过 Learning Hub、Creative Partner Program 和社区渠道支持创作者与教育者。公司同时发布研究报告和模型评估,推动视频与图像生成领域的技术前沿。
OpenMMLab 是一个面向计算机视觉领域的开源生态与工具集合,汇聚了大量由社区维护的算法库、模型以及配套工具,覆盖目标检测、语义分割、姿态估计、视频理解、3D 检测、图像生成等研究与工程任务。官网展示了丰富的代码库(如 MMDetection、MMSegmentation、MMPose、MMEngine 等)与箱式工具(toolbox),并提供文档、基准测试与示例代码,方便科研复现与工业部署。社区活跃,拥有大量贡献者、星标与合作机构,支持多语言文档与交流渠道,是视觉领域快速上手、复现论文与构建工程系统的重要平台。
Ultralytics 是一家专注于计算机视觉与物体检测的公司,核心产品包括开源的 Ultralytics YOLO 模型库和面向企业与个人的无代码平台 Ultralytics HUB。该网站展示了从数据上传、模型训练到模型导出与部署的一体化工作流,支持多种导出格式(如 TensorFlow、ONNX、CoreML 等),并可在移动设备与云端运行。Ultralytics 同时以开源社区驱动,拥有活跃的 GitHub 项目与大量星标,面向初创企业、科研机构、开发者与爱好者提供不同层级的解决方案与企业授权。网站还展示了客户案例、合作伙伴与行业信任标识,强调易用性、可扩展性和行业落地能力。
Viso 是一家面向企业的视觉AI平台,核心产品为 Viso Suite,提供端到端的计算机视觉基础设施,帮助企业将摄像头数据转化为可操作的实时洞察。平台支持快速部署与扩展,兼容现有摄像头与系统,强调企业级安全与隐私合规,旨在缩短从概念到投产的时间并降低总体拥有成本。Viso Suite 包含即用型视觉应用、模型训练与数据管理工具、边缘与云端部署能力,广泛应用于制造、建筑、物流、能源与零售等行业,用例包括 PPE 检测、危险区域识别、物体计数与预测性维护等。通过集中化的平台管理与自动化运维,Viso 助力企业实现更高的运营效率与安全性,同时支持持续学习与模型优化以提升长期价值。
Albumentations 是一个面向计算机视觉的图像增强库,旨在通过高效、可扩展的增强方法提升深度神经网络在有限数据下的表现。它提供了丰富的变换集合(像素级与空间级)、对不同目标类型(图像、分割掩码、边界框、关键点等)的统一支持,以及与 PyTorch、TensorFlow 等主流框架的无缝集成。该库强调性能与可复现性,支持 YAML/JSON 序列化增强管道并提供基准测试以验证开销最小化的实现。在科研、工业、竞赛(如 Kaggle)和开源项目中被广泛采用,并由多个大厂与研究机构信赖与引用。
LearnOpenCV 是由 Satya Mallick 创建的计算机视觉与深度学习学习平台,聚焦于 OpenCV、PyTorch、TensorFlow 以及视觉-语言模型(VLM)等前沿技术。网站提供大量实战教程、代码示例、论文解读与应用指南,涵盖图像处理、目标检测、语义分割、3D 重建与模型部署等主题。同时提供多门免费的入门与进阶课程(如 OpenCV Crash Course、VLM Bootcamp、TensorFlow/PyTorch Bootcamps)以及证书学习路径,适合学生、研究者与工程师快速上手并将模型部署到实际项目中。内容兼顾理论与工程实现,常配有 C++ 与 Python 示例代码、安装指南与实用工具,社区与订阅服务帮助持续获取更新。
PyImageSearch 是由 Adrian Rosebrock 博士创办的计算机视觉与深度学习学习与实战平台,专注于将复杂的理论转化为可操作的实践教程与课程。网站提供大量面向初学者与进阶开发者的免费教程、每周更新的技术文章、以及系统化的付费课程与书籍,如《Deep Learning for Computer Vision with Python》和 PyImageSearch University。平台内容覆盖 OpenCV、目标检测(如 YOLO 系列)、人脸应用、嵌入式设备(Raspberry Pi、Jetson 等)及模型部署实务,强调代码示例、Colab 笔记本与工程化实践。无论是自学入门还是企业级落地,PyImageSearch 都提供循序渐进且高度实用的学习路径与社区支持。
MIT CSAIL(麻省理工学院计算机科学与人工智能实验室)是世界领先的计算机科学与人工智能研究机构,汇聚了大量教授、研究人员和学生,覆盖从人工智能与机器学习到人机交互、编程语言与软件工程等广泛领域。该网站展示了科研项目、团队成员、新闻报道和视频资料,便于公众、学者与产业界了解最新研究进展与合作机会。CSAIL 强调跨学科合作与技术转化,推动基础研究向现实世界应用落地,同时提供教育与公开资源以支持学术交流与人才培养。网站内容结构清晰,包含项目目录、研究小组、新闻动态和多媒体档案,适合检索与跟踪前沿科研成果。
Wild Me 是由 Conservation X Labs 支持的开源项目与平台生态,致力于将机器学习与软件工程应用于野生动物保护与科研。该网站介绍了多个面向物种识别与种群监测的工具与平台(如 Wildbook、Scout、Fin Finder 等),并提供代码、文档、服务以及社区支持。Wild Me 强调长期数据管理、跨区域协作与高性能的 AI 处理能力,支持研究者进行自动化个体识别、种群评估与科研出版。网站同时提供捐赠与合作途径,汇集研究成果与社区案例,推动基于人工智能的保护实践落地。
Pachama 是一家以遥感和数据驱动为核心的气候科技公司,致力于通过技术支持自然修复与碳移除项目的甄选、尽职调查与长期监测。其平台整合卫星影像、地面数据和先进的算法(通常称为 DMRV:动态测量、报告与验证),为企业和投资者提供可核查的项目筛选与绩效跟踪能力。Pachama 的产品线包括 Source、Diligence、Track 等模块,能够在短时间内收集标准化数据、自动化筛查并持续验证项目成长与风险。2025 年已被 Carbon Direct 收购,技术与产品将协助扩大碳市场与自然基解决方案的规模化部署。
Wildlife Insights(野生动物洞察)是一个将先进科技与生物多样性保护结合的平台,致力于帮助研究者、保护组织和社区管理与分析相机陷阱(camera trap)数据。平台提供在线存储、快速批量上传与分享功能,并通过机器学习模型自动识别照片中的物种,大幅降低人工标注成本。用户还可以利用内置的数据分析和可视化工具生成地图与图表,支持基于证据的决策与保护行动。该平台鼓励全球协作与数据共享,支持不同项目与机构之间的知识交流与复用,从而推动更广泛的物种保护与科研工作。
Skydio 是一家专注于自主飞行无人机和智能空中系统的公司,致力于为公共安全、基础设施检修、国家安全等关键行业提供端到端无人机解决方案。其产品线包括高性能的 Skydio X10、适用于部署场景的 Dock for X10、小型任务的 R10 以及配套的软件平台(如 DFR 指挥与实时情报中心 RTIC),能够实现远程自主起飞、实时视频传输与自动化巡检。Skydio 强调基于 AI 的主动避障、自动任务规划与快速响应能力,帮助客户在危险或复杂环境中更安全、更高效地获取情报与数据。大量行业客户与案例(如电力公司、执法机关与航空企业)证明了其在实战部署与规模化运营方面的成熟度与可靠性。
viAct 是一家以计算机视觉和场景驱动的 AI 监控为核心的企业,专注于为建筑工地和工业现场提供自动化的安全监控与实时警报服务。平台通过 **PPE 检测**、**危险区入侵告警**、**环境监测**、**车辆与工队管理**、以及 **高处作业/受限空间监控** 等模块,实现 24/7 视频分析和即时通知,从而提前预防风险、降低事故率并提升施工效率。产品强调 **隐私设计(Privacy by Design)**、即插即用集成和可视化仪表盘,帮助客户减少人力成本、提高合规性并在事故发生时快速响应。viAct 同时获得多项业界奖项与媒体关注,在实际项目中宣称能显著降低事故与管理成本。
Orca AI 是一家专注于海事领域的人工智能与计算机视觉公司,致力于为航运业提供增强态势感知与操作决策支持的解决方案。其主要产品包括面向桥楼的 **SeaPod**、面向办公室的 **FleetView** 以及用于数据共享与协同的 **Co-Captain**,通过摄像头、传感器和海量航行数据实现对周边目标的自动检测、告警与优先级排序。Orca AI 帮助船舶降低人为失误、提高合规性与运营效率,同时通过早期预警和路径优化实现燃油节约与可持续性目标。官网展示了实际案例(如 Seaspan、Maran Tankers)和企业合作,强调已在拥挤水域实现的自主商业航行与显著的安全与经济效益。
Standard AI 的 VISION 平台通过持续分析现有监控摄像头视频流,实时提供实体店的顾客行为与互动洞察,帮助零售商和品牌获得与电商等效的门店数据能力。其核心指标之一“Visual Engagement Score”用于衡量顾客与商品、促销和店内媒体的互动强度,从而判定何者能真正驱动转化。部署无需大量新增硬件,系统在店内本地处理数据,强调隐私优先并明确不进行面部识别,同时在可视化仪表盘中展示停留时间、可视率、互动路径和陈列效果等关键指标。适用于提升店内媒体变现、优化陈列与人力配置,并将店内行为数据与销售结果相连,支持品牌和零售商做出数据驱动的陈列、促销与选址决策。
Auror 是一家专注于零售损失预防与安全的科技公司,提供以情报驱动的零售犯罪解决方案。平台汇集前线门店上报的可检索情报,结合人工智能和自动化工具,帮助零售商快速上报事件、调查案件、识别高危人员及车辆,并通过数据洞察降低损失与风险。Auror 的产品线包括事件上报、案件调查、AI 关联(Connect the Dots)、仪表盘与洞察、车牌识别(LPR)、审计与债务回收等,支持与多家第三方系统集成。其社区覆盖上万家门店与数千家执法机构,常见效果指标包括“3 分钟生成高质量事件报告”“13 天从首次事件到案件结案”等,旨在通过协作与技术减少门店犯罪、降低损失并提升员工与顾客安全。
FaceFirst 是一家专注于门店和公共场所的面部比对软件提供商,利用人工智能与人工审核相结合的方式帮助零售商、医院、赌场、机场和场馆预防暴力、盗窃与欺诈。平台强调高准确率和可扩展性,能在复杂摄像头角度与光照条件下稳定工作,并提供实时告警与可操作的情报建议以支持既定处置策略。产品支持与现有摄像头和监控系统的即插即用集成,旨在实现快速部署、低实施成本与可观的投资回报。FaceFirst 还提供强大的访客检索功能,能将人工查询工作从数周缩短到数分钟,并为执法与起诉提供带时间戳的证据包。
OpenCV(Open Computer Vision Library)是全球最大、最广泛使用的开源计算机视觉库之一,由非营利组织 Open Source Vision Foundation 运营,起始于 2000 年。该网站展示了 OpenCV 的核心库和生态系统,包括超过 2500 个算法、面向实时应用的高性能实现以及对多语言接口(C++、Python、Java)的支持。网站同时提供丰富的学习资源(文档、教程、课程与免费速成课)、社区渠道(论坛、GitHub、Slack 等)以及商业支持与服务(OpenCV.AI 咨询、OpenCV University、面部识别产品和会员商店)。OpenCV 使用 Apache 2 许可,允许商业用途,且支持跨平台(Linux、macOS、Windows、iOS、Android),适合研究、工程和产业化部署。网站还发布博客、新闻和合作伙伴信息,帮助开发者获取最新技术、示例与最佳实践。
MVTec 是一家总部位于德国慕尼黑的领先机器视觉软件供应商,专注于为工业自动化和物联网场景提供高端视觉技术与软件解决方案。其主要产品包括 HALCON(通用机器视觉标准软件)、MERLIC(无需编程的可视化开发环境)和 Deep Learning Tool(便捷的深度学习标注与训练工具),覆盖 3D 视觉、深度学习与嵌入式视觉等领域。MVTec 同时提供培训、技术支持、定制化解决方案与在线学习平台 MVTec Academy,并通过案例与成功故事展示实际应用成效。网站还发布新闻、活动(如 MVTec Innovation Day)与合作信息,展示公司在行业内的技术推进与生态协作。
Roboflow 是面向开发者和企业的计算机视觉平台,提供从数据采集、可视化与标注,到模型训练、评估与一键部署的完整流水线。平台支持云端与边缘部署、托管推理 API 以及开源工具(如 inference、supervision、notebooks)以加速开发周期。Roboflow 强调与常见存储、相机与训练框架(如 AWS S3、Google Cloud、PyTorch、TensorFlow、Ultralytics 等)的深度集成,并提供企业级安全合规(SOC2、HIPAA 支持)与可扩展性,已被上百万开发者和数千家企业用于工业、零售、医疗等多种场景。
Modl.ai 是一家面向游戏行业的 AI 测试平台,利用 AI 代理与分析师来自动化游戏质量保证流程,帮助 QA 团队在发布前发现更多缺陷并提升测试覆盖率。该平台采取“黑盒”视觉检测方式,无需在游戏中集成 SDK 或修改代码,测试通过上传构建并用自然语言描述测试任务即可启动。系统支持自动运行测试、录制视频与日志、检测视觉漏洞、缺失资源、性能下降和逻辑错误,并生成包含截图、视频与严重性评分的详尽报告。平台目前支持 Android 与桌面测试,iOS 与更多主机/PC 工作流正在扩展中,并通过定制训练的模型适应具体游戏的视觉与交互特性。
Landing AI 是一家以视觉人工智能(Visual AI)为核心的平台公司,致力于将文档和图像等非结构化数据转化为可操作的业务洞察。其产品包括 LandingLens、Agentic Document Extraction 以及与 Snowflake 的深度集成,提供从复杂布局提取、图表与图片解析到视觉定位(Visual Grounding)等能力。平台通过 API 与开发者工具支持端到端的模型构建、优化与部署,并强调加速 MLOps、提高模型效率与数据治理。面向制造、生命科学、电子、医疗器械等多个行业,Landing AI 宣称可大幅缩短部署时间并支持大规模推理与高可用性。
Photomath 是一款面向从小学生到大学生的数学学习与解题应用,主打通过拍照或输入题目即时给出逐步解答,帮助用户理解每一步的推导过程。应用支持算术、代数、几何、三角、统计与微积分等多类题型,并提供多种解法与智能计算器输入方式,适合用于课后复习、自主学习与题目核对。Photomath 提供免费基础版本与按月或按年订阅的高级版,高级版包含可视化讲解与更详细的“如何/为什么”提示,旨在培养用户的数学思维而非单纯给出答案。该平台每月为数百万学习者提供帮助,并通过文章与学习资源扩展学习维度。