引言
将前一项任务中学到的知识,应用到新的任务中,这是人类大脑的一项最重要的机制。可是,对于机器人来说,将自主的行为,在部分相似的环境中进行重用,这仍然是一个公开的难题。然而,卡耐基梅隆大学的研究人员最近发表的一篇论文,在这个方向上迈出了一小步。他们提出了一种学习“可迁移的运动策略”的通用架构,旨在利用相似域中的训练数据,解决目标域的学习问题。他们使用自主飞行微型无人机,在复杂凌乱的户外森林环境中,进行了飞行试验,验证方法的有效性。
现有无人机“自主”飞行的训练方法及其弊端
如今,无人机应用已十分广泛。然而,在复杂环境中,让无人机进行有效的自主操作,完成特殊任务例如避障,就需要人工智能,神经网络,机器学习领域的复杂知识,设计“感知器”和“软件控制系统“。这些年,许多人工智能和机器学习算法,在无人机的感知和控制方面,扮演了重要角色。
但是,这种“数据驱动”方法,有一个主要弊端,即“吃一堑,长一智”,知识主要来源于对象受到的“损伤”,另外还需要复杂的数据获取和训练流程。
而在新研究中,研究人员认为对于许多机器人任务来说,获取训练数据几乎不可能。例如,训练昂贵的机器人系统,使用模仿学习进行避障,通常需要搜集失败范例的数据。这常常是危险而具有灾难性的,例如让一架直升机坠毁。所以,需要借助其他办法,例如综合仿真,训练真实世界中的模型。
对于那些获取训练数据的任务,由于数据集“有限的变化性”,已学到的策略,也只能应用在他们所处的特定环境和物理系统中。另外,真实世界常常会遇到动态变化,例如环境和光线,这些常常会改变域属性。
基于“域自适应”的学习策略
通过传统的学习方法,并不能保证策略有效。所以,需要新技术来减少失败的成本,利用相关源域的标签数据,例如现有数据集和综合仿真。“域自适应”,可以正式的解决领域偏差,就也是解决问题的方法。目前,有关提高“学习策略可迁移性”的“迁移学习”的尝试仍然很少。更进一步地,通过真实世界的实验来进行验证,则更少。
而研究人员通过在杂乱的环境中,使用基于视觉的自主微型无人机的飞行实验,来拓展这些想法,通过“迁移学习”从源域获取标签数据,使用“域自适应”的方法,有效地加速新目标域的学习。
技术和实验方法
技术方法主要是,使用自主的微型无人机飞行,来学习可迁移的策略。首先,在展示的系统中,商用平台的微型无人机,在最高1.5米/秒的速度下近地,低负载的自主飞行,通过浓密的森林环境,使用被动单目视觉系统作为唯一传感器。研究人员使用了一种分布式处理的网络,从前向摄像头搜集图像流,通过Wi-Fi发送到基站。基站对于这些图像进行处理,然后发送相应的命令给无人机。
研究人员通过观察无人机在坠落前的几次飞行的平均距离,来评估系统性能。测试,在具有不同树木密度的森林区域展开。人类控制的1千米飞行,作为源域的训练数据搜集方法。然后,在近1千米的自主飞行中,使用学习到的策略,在使用和不使用“域自适应”的两种条件开展测试。测试结果和上下限:使用随机策略的飞行,和使用完整训练数据的飞行,进行比较。
A. 使用"模仿学习"学习反应性策略
摄像头输入的视觉功能,提供了用来控制无人机和进行避障的一组丰富信息。基于“模仿学习”的技术,通过视觉输入,直接学习无人机左右速度的线性控制器。研究人员通过人类飞行员在复杂的森林环境中的示范,以及相关图片,训练控制器,学习反应性策略,可以调整无人机飞行时朝向,避开树木。经过几次学习和经验,学习者可以学会一个优化策略,模仿和飞行员在这种环境中一样的行为。然而,这种方法的主要限制是,它无法无缝的通用化到新环境中。
B. 使用"深度域自适应"的策略迁移
一种使用使用深度适应网络的框架,从模拟的源域到目标域,学习可转移的策略。
在研究中,研究人员,使用来自源域的有标签信息和来自目标域的无标签的信息,将以上的方法拓展到学习"域自适应"的策略。问题就变成了,训练一个模型来学习一些列特征,来减少跨域的偏差。基于深卷积神经网络(CNN)的模型,比传统的方法在解决复杂学习问题方面,更具优势。他们已经显示出对于新的任务的适应性。而主要挑战就是目标域,没有有标签的信息。所以,通过微调对于目标域直接采取CNN,是不可能的。所以,研究最近构建了一个深度适应网络(DAN)架构,将深度卷积神经网络普遍化,进“域自适应”方案中。主要的目标,就是提高在深度神经网络的特殊任务层面的域可迁移性,减少域之间的偏差。
基于三种迁移的性能评估方法
跨系统迁移
我们可以从一个传感器配置到另外一个,在不同的物理系统间迁移策略吗?
研究人员,使用ARDrone作为源域,使用一个修改过的,装备有高动态范围的PointGrey Chameleon摄像头的3DR ArduCopter作为目标域。传感器系统,图像分辨率和摄像头内部,都和ARDrone不一样。因此,从一个系统学习的到的策略,不能在另外一个系统通用。
跨气候条件迁移
我们可以从夏季到冬季,在不同的气候条件间迁移策略吗?
研究人员从夏天搜集训练数据作为源域,然后使用冬季的目标域,进行策略迁移。在这种情况中,域变化由于不同视觉表现引起的。夏季,充满浓密植物;冬季,缺少植物,白雪一片。
跨环境迁移
我们可以从一个物理地点到另外一个,在不同的环境间迁移策略吗?
这相当于使用现成的数据集作为源域,在另外一个独立的目标域进行测试,研究人员使用苏黎世大学的丛林小路作为源域,数据集提供了大规模的,森林环境中,尝试飞行(左,右或者中间)的图像集。使用这些源标签,他们测试了微型无人机的反应性控制,并且在卡耐基梅隆大学附近的森林环境作为目标域中进行了测试。这里,域偏差通过物理位置和自然任务的不同而引入。
实验和数据
(第一行)ARDrone和 ArduCopter间的物理系统迁移
(第二行) 夏天到冬天间的气候条件迁移
(第三行) 瑞士苏黎世大学和卡耐基梅隆大学间的环境迁移
实验结果分析
这项研究中获取的主要结果,是使用建议的方法进行“迁移学习”,相对于在新的域中比简单的复用学习策略,对象的性能显著提升。定量分析方面,在不同树木浓密度的在环境中,进行了6千米的飞行实验。尽管没有训练数据,在目标域中,微型无人机能够成功的避开1900个树,精准率达90%。
对于飞行测试的定性评估来说,如下图所示,自然的训练数据,来自夏天,无人机飞行的路径上,时间顺序展开的预测的左右速度命令的快照。更长远的说,同时他们也分析了没有使用“域自适应”,这种方法学习到的策略,是通过使用快照图像作为输入的预测控制命令(离线)进行。观察结果是,“域自适应”的方法相对更好,可以通用化到新的域。
在浓密森林中的一次示例飞行的定性可视化。训练数据,在夏季(第一列)同样的环境中搜集,并且在冬季(第二列)测试。微型无人机拍摄的图像序列,自上而下按时间顺序,并且使用建议方法的学习到的策略发布的颜色编码命令进行覆盖。另外,也研究人员也计算了没有使用“域自适应”的策略(第三列),作为定性比较。
研究人员观测了前两个实验,对象在目标域中的表现好过源域。
对于物理系统之间的迁移来说,这个归因于无人机的动力学。ArduCopter具有更精准和稳固的定位系统,抗风性能好,这是比ARDrone坠落次数少的主要原因。另外,目标域具有更好的传感器。分辨率的增加,可以更好的帮助检测更小的树木。对于气候条件间迁移来说,目标域也有相应的性能提高。对于失败案例的经验分析,表明一部分的失败因为树枝和树叶,在冬天的条件显著减少,对于性能提高有帮助。相对于前两个实验,对于环境间的迁移中来说,性能只有稍微提高。
总结
通过“域自适应”和“迁移学习”的方法,进行策略学习,有效的提高了无人机自主学习的性能,也有望应用于其他机器人自主操作的训练中,不仅降低了训练风险,也有效的提升了训练能力。
随着人工智能和机器学习技术的不断发展,这些新方法,必然会对无人机和机器人相关的应用领域的智能化,带来更有效的推进。
2025-04-29 14:05
2025-04-29 13:46
2025-04-29 13:44
2025-04-28 13:44
2025-04-27 11:13
2025-04-27 11:01
2025-04-24 10:38
2025-04-24 10:30
2025-04-24 10:27
2025-04-23 10:17