工业智能和无人巡检发展迅猛,但AI如何在复杂、危险且动态变化的真实工厂环境中可靠地“看”懂场景、评估安全,仍是阻碍其大规模落地的核心瓶颈。现有公开数据集大多来自仿真环境或静态近景拍摄,缺乏真实扰动、多模态对齐和细粒度的安全语义标注,导致训练出的模型“纸上谈兵”,在实际部署中频频失效。
为攻克这一难题,清华大学、天创机器人、达摩院与东南大学团队联合发布InspecSafe-V1——业界首个基于真实巡检机器人日常作业构建的工业多模态安全评估基准数据集。该数据集旨在将真实工业场景的动态复杂性转化为结构化基准,为开发下一代可靠的工业视觉-语言大模型奠定坚实的数据基石。
为什么工业AI需要“更真、更全”的数据?
当前已公开的工业视觉数据集多在受控的实验室环境下采集,背景干净、光照稳定、视角固定。然而,真实的巡检现场充斥着剧烈光照变化、粉尘烟雾遮挡、金属表面强反射、复杂背景干扰等挑战。仅用“纯净”数据训练的模型,面对真实场景往往表现“失明”。更重要的是,工业安全评估远不止识别物体。它需要系统理解物体状态及其关联,例如:人员是否闯入危险区、设备温度是否异常攀升、气体泄漏与通风状况的耦合关系。这要求数据必须提供:
细粒度物体标注:支撑对设备、部件、隐患的精确识别。
多模态同步信息:融合视觉、热成像、声音、气体等多维度传感证据。
场景级安全语义:明确的安全等级描述与风险评估。
来自工业一线的“全景记忆”档案
研究团队摒弃了传统的固定机位采集方式,直接将数据采集前端部署于41台正在实际服役的轮式与轨道式巡检机器人上。这些机器人穿梭于隧道、电力设施、冶金烧结、石油化工、输煤栈桥这五大典型工业场景中,从2239个有效巡检点收集了5013个巡检实例。
1
双重机器人平台,覆盖全场景视角
轮式机器人:地面灵活移动,提供对设备的近距离特写视图。
轨道式机器人:沿固定轨道运行,可跨越障碍,执行长距离、连续性的广域巡检。
二者结合,实现了对工业环境“由近及远、动静结合” 的全方位覆盖。
2
多模态同步感知,构建安全证据链
每个巡检实例都提供了严格时间同步的八种模态数据,宛如为机器人装备了“超感官”:
核心视觉:高清RGB视频、热红外视频
三维几何:深度点云、雷达点云
环境感知:气体浓度、温度、湿度监测
音频监听:环境噪音
3
层级精细标注,定义安全评估新标准
数据集不仅提供原始数据,更提供了深度加工的“知识”:
像素级实例分割:对234类关键工业对象(如管道、阀门、螺栓、防护网)进行精细勾勒。
语义场景描述:用自然语言概括场景环境、关键对象和可见事件。
安全等级标签:依据行业安全规范,将场景安全分为I级(高风险)至 IV级(无异常)。例如,在石油化工场景中,“明火”、“烟雾”、“人员倒地”被定义为I级风险。
VLMs大模型面临真实工业场景大考
研究团队基于InspecSafe-V1设立了标准化的安全评估基准任务,用于衡量现有通用视觉-语言大模型在复杂工业环境下的理解与推理能力。
评测任务:模型需要根据输入的工业场景RGB图像,输出场景描述和安全等级判断。
核心发现:
模型性能不单纯取决于参数规模。一些参数量较小的模型,由于具备更好的推理对齐能力,其表现可能优于参数量更大的模型。
“推理增强型”模型显著优于“仅指令微调”的模型。例如,在Qwen3-VL家族中,具备推理能力的版本比指令微调版本准确率高出约8个百分点,并减少了误报。
真实工业场景干扰是主要错误来源。多数误报并非源于真实危险,而是由强烈反光、逆光、高对比度阴影、颗粒物散射等恶劣视觉条件引发的模型“幻觉”。部分保守模型(如GPT-5.2)误报率超30%,这在真实场景中会导致警报泛滥,增加运维成本。
存在两类典型错误:
场景误判引发连锁失败:如将输煤栈桥误判为化工厂,导致后续安全标准完全错用。
细粒度违规漏检:如未能检测出人员未戴安全手套、使用手机等行为,暴露了通用模型在细粒度行为识别上的局限。
数据开源与应用展望
InspecSafe-V1数据集已公开发布,包含所有多模态原始数据、精细标注文件、标定参数与元数据索引。主要应用方向:
工业安全评估与预警模型开发
多模态感知与融合算法研究
视觉-语言联合建模与具身推理
领域自适应与跨场景泛化能力测试
使用说明:数据集以“巡检实例”为中心组织,格式通用(MP4, WAV, ROS bag, JSON)。每个实例均包含RGB图像及其对应的像素级标注和语义标签,确保研究起点的一致性。
通往可靠工业智能的基石
InspecSafe-V1的发布,标志着工业AI数据建设从“实验室洁净数据”迈向 “现场复杂数据”的关键一步。其核心贡献在于:
真实性:源自真实作业机器人,内置了光照变化、遮挡等核心挑战。
多模态性:八种传感器同步,支撑跨模态融合推理。
语义丰富性:提供实例、场景、安全三层级标注,直接服务于安全理解任务。
要构建真正可信、可用的工业基础模型,必须首先为其提供能够反映物理世界复杂性和任务语义多样性的“养料”。InspecSafe-V1正是这样一块坚实的基石,天创机器人为探索工业环境下可靠感知与安全的下一代AI开启了大门。
北京天创万安科技装备有限公司(TC-VIE)坐落于北京市北京经济技术开发区高新科技园区,服务于公共安全和生产安全领域,致力于先进安全装备的科技研发和生产制造,立志成为全球公共安全和生产安全行业的高科技装备制造标杆。
北京天创万安科技装备有限公司拥有一流的研发团队,其中硕士及以上学历研发人员达到35%,本科学历研发人员达到40%,公司与中国科技大学、中国矿业大学等单位合作,在煤矿安全装备、消防救援装备、特种安全装备、环保装备、石油、石化、电力等领域取得先成果,产品涉及环境参数检测及探测及采样类装备、生命探测仪类装备、特种机器人及模块装备、安保安全防范及抓捕类装备及器材、音视频记录取证类装备、无人机等十几个大类的研发。市场覆盖矿山企业、安监局、安保系统、消防部队、各级救援队、民政救灾、地震救援系统、国防系统、铁路系统、石油石化系统等多个领域。部分产品已出口到国外市场。
上市产品有矿用本安型平板计算机、矿用安标识别仪、本质安全型音视频记录仪、本质安全型红外测温仪、本质安全型红外热成像仪、单一气体测定器、多参数气体测定器、有毒有害气体检测仪、矿用本安型温湿度检测仪、本质安全型激光测距仪、便携式数字式粉尘测定仪、防爆粉尘采样器、矿用本安型数码相机、矿用本安型噪声检测仪、矿用本安型个人声暴露计、矿用通风多参数检测装置、矿用本安型激光指向仪、脉冲气压喷雾水枪、音频生命探测仪、视频生命探测仪、音视频生命探测仪、雷达生命探测仪、特种作业机器人、侦测无人机、安全监管移动手持终端、远距离灾区环境侦测系统、灾区无线音视频通讯装置、防爆探照灯、防爆对讲机、防爆型计时器、红外夜视仪、便携式烟气分析仪、矿用机械风速表等。
公司产品以每年30%的速度递增。
北京天创万安第一个研发出防爆型计时器的厂家;
北京天创万安第一个研发出超远距离遥控破胎器的厂家;
北京天创万安第一个研发出超级静音电钻的厂家;
北京天创万安第一个研发出超级穿墙雷达的厂家;
企业使命:让生命更安全 让生产更安全 让生活更安全
企业精神:质量第一 服务至上 真诚沟通 奉献社会
企业宗旨:为客户解决实际问题,以客户需求为导向


