标题

Human-Robot Commensality: Bite Timing Prediction for Robot-Assisted Feeding in Groups

链接:2207.03348 (arxiv.org)

解决问题

作者首先自己建立了视频数据集,然后基于此数据集训练模型预测机器人喂食最佳的feeding时间(要求是不破坏社交动力,理想目标是seamless interactions during robot-assisted feeding in a social dining scenario),最终让残疾病人也有和朋友一起愉快的聚餐体验。

大致的贡献

  1. Collecting a Human-Human Commensality Dataset (HHCD) containing 30 groups of three people eating together
  2. Use this dataset to analyze human-human commensality behaviors and develop bite timing prediction models in social dining scenarios.
  3. Transfer these models to human-robot commensality scenarios

方法

现有方法的问题:

  1. Although there are several automated feeding systems on the market, require manual triggering of bite timing by the user, which is challenging for users with cognitive disabilities and inconvenient in social settings

  2. Current robot feeding systems are not designed with that experience in eating together

挑战:

  1. Infer appropriate bite timing to a social dining setting requires not only attuning to the user’s eating behavior but also to the complex social dynamics of the group. For example, a robot should not attempt to feed a user who is actively engaged in conversation.

问题定义:

  1. 一个人用餐时机器人捕捉一个信号U,U是用户发出来的指示,例如声音,手势,表现用户现在有意愿进食(捕捉到信号时表明此刻机器臂需要喂食,即合适的喂食时间)。单人进餐的模型是输入U,输出t+1时刻的y,y是布尔值,表明+1的这个时刻是否想进食。

    The objective of the bite timing prediction problem in robot-assisted feeding with a single diner is to predict the timing of when this user will take a bite of food by capturing their signals U such as voice, body gestures, head movements or speaking status. We define the proper timing for when a robot should feed as when the user intends to take a bite of food. It takes input signals U(t0 : t) from time t0 to time t and learns a function F(U) to predict a Boolean y(t + h) = F (U(t0 : t)),

  2. (这篇论文)有两位一起用餐的朋友,此时相比于单人用餐时,多了两个社交信号L与R。在这样的聚餐下,模型的输入则是,两个社交信号以及用户的个人信号U(history),三者结合输出t+1时刻的y,y也是布尔值,表明+1的这个时刻是否想进食。

    In this paper, we consider a social variant of the bite timing prediction problem where a user is interacting with two co-diners. Our goal is to predict the timing of a user to take a bite of food based on the social cues within the interaction. From an initial time t0 to time t, the user receives social signals L(t0 : t) and R(t0 : t) from their left and right conversational co-diners, respectively. Given these external social signals and the target user’s own history of signals U(t0 : t), we aim to predict y.

模型:

  1. Triplet-SoNNET:三个信号LRU分别输入并相互叠加(类似残差的感觉),例如L信号在经历卷积后的输出叠加进入R然后再次和R的输入一起卷积。

  2. Triplet-SoNNET存在问题:训练数据集LR全是身体健康的人,在坐姿,社交信号等方面会和user不同,导致模型结果不精确。

  3. 改进: Couplet-SoNNET—user的信号U仅保留了 bite features,其他的social signals from the target user被忽略。

    Couplet-SoNNET, where we ignore most social signals from the target user by removing the last channel in Triplet-SoNNET.

限制

实验存在很多假设,例如用户不会因为机械臂的存在改变用餐习惯等。以及需要考虑更多的社会因素,例如用户的文化,一起用餐的人(更精确的用餐场景,和同学?和老师?商务?轻松?),更多的因素可以包括在人类与机器人的共生关系这个话题中

其他

1.Some English sentences from the original paper

2.A socially-aware robot(我比较喜欢这个词,因为人类的社交是非常复杂的系统,包括了许多涌现现象)

3.摘要翻译:

我们开发了数据驱动模型,用于预测机器人在社交用餐场景中何时应该进食。对于行动不便的人来说,能够独立地与朋友和家人进餐是最令人难忘和最重要的活动之一。虽然现有的为行动不便者喂食的机器人系统侧重于单独用餐,但共餐(即一起用餐)往往是人们选择的做法。与他人共餐会带来一个问题,那就是机器人咬合时机的社会适宜性,即机器人喂食的适当时机,同时又不会破坏共餐的社会动力。我们的主要见解是,考虑到社交线索的微妙平衡的咬合时机策略可以在社交用餐场景中实现机器人辅助喂食时的无缝互动。我们通过收集包含 30 组三人共同进餐的人-人共处数据集(HHCD)来解决这个问题。我们利用该数据集分析人与人之间的共餐行为,并开发社交用餐场景中的咬合时机预测模型。我们还将这些模型应用到人与机器人的共餐场景中。我们的用户研究表明,当我们的算法使用用餐者之间的多模态社交信号线索来模拟咬合时机时,预测效果会有所改善。HHCD 数据集,用户研究视频、

4.介绍翻译

在美国,近 27% 的人患有残疾,近 2400 万 18 岁或以上的人在日常生活活动(ADL)方面需要帮助[1]。这些活动中最主要的是喂食,这对照顾者来说既费时,对接受照顾者(患者)来说在社会上接受起来也具有挑战性[2]。事实上,需要帮助完成一项或多项日常活动是搬到辅助或机构生活的最主要原因[3, 4]。虽然市场上有几种自动喂食系统 [5-13],但它们还没有被广泛接受。其中一个主要原因是,所有这些系统都需要用户手动触发咬合时机,这对有认知障碍的用户来说是个挑战。这对有认知障碍的用户来说很困难,而且在社交场合也不方便。

因此,实现自主机器人喂食系统的一个关键挑战是推断正确的咬合时机[14]。
虽然现有系统侧重于单独进餐(例如 [15-32]),但共同进餐(即一起进餐)往往是人们选择的做法。人们喜欢与他人共餐。共同进餐的社交体验是整个进餐体验的重要组成部分,而目前的机器人喂食系统在设计时并没有考虑到这种体验。要将推断适当的进食时间这一难题转移到社交用餐环境中,不仅需要适应用户的进食行为,还需要适应群体的复杂社交动态。例如,机器人不应试图给正在积极交谈的用户喂食。

越来越多的研究试图开发机器人在群体环境中发挥作用的模型[33, 34],受此激励,我们提出了一个看似简单的问题: 在不断变化和动态的社交用餐场景中,辅助喂食机器人应该如何决定正确的喂食时机?我们开发了一种智能自主机器人辅助喂食系统,该系统利用多模态传感技术在动态社交用餐场景中为人们喂食。我们收集了一个新颖的视听人-人共生数据集(HHCD),该数据集捕捉了人类的社交进食行为。利用这些数据,我们训练了多模态机器学习模型来预测人与人共餐时的咬合时间。我们探索了在人与人共餐场景中训练的模型在人与机器人共餐场景中的表现,并在用户研究中对这些模型进行了评估。整体工作流程如图 1 所示。我们通过咨询护理对象、护理人员和职业治疗师,做出了算法和实验设计决策。我们发现,当我们的模型考虑到用餐者之间的社交信号时,咬合时机的预测会有所改善,而且这种模型比手动触发器和固定间隔触发器更受欢迎。我们的主要贡献包括

  • ASOcial Nibbling NETwork (SoNNET)可捕捉人与人以及人与机器人群体中微妙的人际社交动态,用于预测社交用餐场景中的咬合时机。
  • 我们在一项用户研究中评估了从人与人之间的共处线索中学习到的咬合时机策略,并将其应用于 10 个三元人类群体中的机器人。
  • 一种具有社会意识的机器人辅助喂食系统,可将我们在单独环境中喂食的能力扩展到共享一餐的群体中。
  • 分析人与人共餐过程中影响人类进食行为的各种社会和功能因素。
  • 一个新颖的人与人共餐数据集(HHCD),包含多视角 RGBD 视频和定向音频记录,捕捉了 30 组三人共餐的场景