対話者の非言語行動のマルチモーダル相乗作用解明のための機能スペクトラム解析

项目来源

日本学术振兴会基金(JSPS)

项目主持人

大塚 和弘

项目受资助机构

横浜国立大学

立项年度

2024

立项时间

未公开

项目编号

24K02998

项目级别

国家级

研究期限

未知 / 未知

受资助金额

18460000.00日元

学科

合同審査対象統計科学関連、知能情報学関連;知能情報学関連;統計科学関連

学科代码

未公开

基金类别

基盤研究(B)

关键词

対話 ; 非言語行動 ; 非負値行列因子分解 ; 相互作業 ; 顔表情 ; 頭部運動 ; 視線 ; 会話 ; 機械学習 ;

参与者

未公开

参与机构

横浜国立大学,大学院工学研究院

项目标书摘要:まず、非言語機能コーパスの構築のテーマに関して、当初計画以上の6組を対象として、各組について、計画した対話収録を実施することができた。参加者として、20代から30代の大学生から社会人まで多様な背景をもつ成人男女を一般より募り、初対面同士の対話グループを構成することができた。対話のタスクとしては、夫婦別姓の是非など様々な二律背反な議題についての合意形成とし、合意に至る対話の過程を詳細に記録することができた。また、併せて発話区間毎の対話者本人の共感・反感スコアを取得し、対話のダイナミクスを理解するための重要な基礎データを得ることが出来た。その後、非言語機能のアノテーション作業においても、計画どおり、3名の外部評定者を雇用することができ、2025年9月末を目処として評定作業を進めているところである。これまで発話書き起こしや視線方向などの基本的なラベル、及び、頭部運動機能に関するラベル付けまで終了し、以後、顔表情、視線、相槌の各機能のラベル付け作業が進行中である。また、非言語機能スペクトラム解析のテーマについても、当初の計画どおり、既存の小規模コーパスを用いた事前検討により、頭部運動と顔表情の相乗機能を分析するための方法(sFSA)を提案することができた。具体的には、非負値行列分解による相乗機能空間の構成、及び、畳み込みニューラルネット(CNN)を用いた、相乗機能スペクトラムの推定法の実装・評価まで進んでいる。また、個人の非言語機能から対話者間の相互作用上の機能へと分析の対象を拡大させるため、その初期検討として、話し手と話し手が話しかける相手(受け手)の間において、視線を介して生じる相互作用機能を分析するための方法(GI-FSA)を提案し、その有効性を確認することができた。以上のように本課題はおおむね順調に進展していると言える。まず、非言語機能コーパスの構築のテーマに関して、対話実験を実施し、非言語機能の評定作業を開始した。対話実験は、男女混合4人を一組とした6グループを対象として、各グループにて対面2セッション、遠隔2セッションの合意形成型対話を実施し、その様子を映像にて記録した。各セッションの長さは約10分であり、合計約240分の対話データを取得した。各セッション後には、直前の対話における各々の発話区間について、対話者本人によって共感・反感のスコアのラベル付けが行われた。これにより本人感情が細かい時間粒度で付与された他に類を見ないデータが得られた。加えて、対話実験後、外部評定者3名により、対話中に生じた非言語行動の機能に関するアノテーション作業を開始した。また、非言語機能スペクトラム解析のテーマについては、まず対話中の個人の頭部運動と顔表情が連携して発揮する相乗機能を明らかにするため、相乗機能スペクトラム解析法(sFSA:synergistic functional spectrum analysis)を開発し、その方法の提案を行った論文が、トップジャーナル(IEEE Transactions on Affective Computing)に採録された。また、対話中の話し手と聞き手との間にて生じる視線行動を通じて生じる相互作用上の機能を分析するための方法として、視線相互作用スペクトラム解析法(GI-FSA:gaze interactional functional spectrum analysis)を考案し、国際会議Int.Conf.Multimodal Interacction'24(ICMI'24)にて発表した。これらにより非言語機能スペクトラム解析の基本概念の提案、及び、その有効性の確認がなされ、今後の発展の基盤を構築することができた。非言語機能コーパスの構築のテーマに関して、2年目となる2025年度は、前年度中盤より開始した非言語機能の評定作業を完了させ、非言語機能コーパスの完成を目指す。予定期日内での完了のため、頻出する機能を取捨選択することで、評定に要する稼働を削減することも検討する。また、当初計画を超えて、談話行為などの言語面での評定も併せて検討する予定である。非言語機能スペクトラム解析のテーマについても、前年度に提案した個人の2モダリティのsFSA、及び、2者間の1モダリティのGI-FSAを発展させて、複数人対話において3モダリティ(頭部、顔、視線)を介して生じる相互作用上の機能を分析できる方法を開発する予定である。これにより当初計画の目標に到達することが可能となる。さらに前述の非言語機能スペクトラム解析法が主に機能の多重性の解明に焦点を当てた分析法であったのに対して、もう一つの非言語行動の側面である、「機能解釈の曖昧性」の解明にも取り組む予定である。そのアプローチとして、これは複数の外部観察者の知覚傾向の一致性・不一致性を陽に捉えるため、非言語機能スペクトラムの分解の枠組みにおいて、従来の機能の多重性を表す基底ベクトルに加えて、知覚傾向の一致・不一致を表す基底ベクトルを新たに導入し、テンソル因子分解によりこれらの基底を求めるというアプローチが有望であると考えている。このような新たな非言語機能スペクトラムの因子分解により、従来法では、渾然一体としていた機能多重性と解釈曖昧性を分離して分析することが可能となり、対話者の非言語行動の機能的側面がより深く理解できる考えられる。この分析法は、さらに内面感情の予測のテーマの実施において、有用な基盤技術となることが目される。Reason:まず、非言語機能コーパスの構築のテーマに関して、当初計画以上の6組を対象として、各組について、計画した対話収録を実施することができた。参加者として、20代から30代の大学生から社会人まで多様な背景をもつ成人男女を一般より募り、初対面同士の対話グループを構成することができた。対話のタスクとしては、夫婦別姓の是非など様々な二律背反な議題についての合意形成とし、合意に至る対話の過程を詳細に記録することができた。また、併せて発話区間毎の対話者本人の共感・反感スコアを取得し、対話のダイナミクスを理解するための重要な基礎データを得ることが出来た。その後、非言語機能のアノテーション作業においても、計画どおり、3名の外部評定者を雇用することができ、2025年9月末を目処として評定作業を進めているところである。これまで発話書き起こしや視線方向などの基本的なラベル、及び、頭部運動機能に関するラベル付けまで終了し、以後、顔表情、視線、相槌の各機能のラベル付け作業が進行中である。また、非言語機能スペクトラム解析のテーマについても、当初の計画どおり、既存の小規模コーパスを用いた事前検討により、頭部運動と顔表情の相乗機能を分析するための方法(sFSA)を提案することができた。具体的には、非負値行列分解による相乗機能空間の構成、及び、畳み込みニューラルネット(CNN)を用いた、相乗機能スペクトラムの推定法の実装・評価まで進んでいる。また、個人の非言語機能から対話者間の相互作用上の機能へと分析の対象を拡大させるため、その初期検討として、話し手と話し手が話しかける相手(受け手)の間において、視線を介して生じる相互作用機能を分析するための方法(GI-FSA)を提案し、その有効性を確認することができた。以上のように本課題はおおむね順調に進展していると言える。Outline of Research at the Start:人の対話における非言語行動の機能を解明するための分析法を構築する。非言語行動として、頭部運動、顔表情、視線、相槌に着目し、機能として、話し掛け、強調、反応確認、傾聴、思考、理解、同意等を対象とする。まず、対話収録を行い、機能のラベルを付与したコーパスを構築する。次に機能の分布強度を表す「機能スペクトラム」に対して、非負値行列分解等を用いたスペクトラム分解を行い、モダリティ間・機能間の関連性を表現する「相乗機能空間」を構成する。さらに頭部運動や顔表情などのデータより相乗機能空間上のスペクトラムを推定する深層学習モデルを構築し、更にその結果から対話者の内面感情の予測を行うモデルを構築・検証する。

  • 排序方式:
  • 1
  • /
  • 1.Disentangling Perceptual Ambiguity in Multifunctional Nonverbal Behaviors in Conversations via Tensor Spectrum Decomposition

    • 关键词:
    • Behavioral research;Decomposition;Factorization;Human computer interaction;Human engineering;Matrix algebra;Tensors;Base matrix;Conversation;;Functionals;Head movement;;Head movements;Label aggregation;Label aggregation;;Non-verbal behaviours;Nonverbal behavior;;Tensor factorization
    • Tamura, Issa;Tajima, Momoka;Kumano, Shiro;Otsuka, Kazuhiro
    • 《27th International Conference on Multimodal Interaction, ICMI 2025》
    • 2025年
    • October 13, 2025 - October 17, 2025
    • Canberra, ACT, Australia
    • 会议

    A framework named perceptual functional spectrum analysis (pFSA) for analyzing how people perceive the multifunctional nonverbal behaviors that emerge in conversations is proposed. The goal is to elucidate the intrinsic nonverbal properties, called functional multiplicity and interpretational ambiguity, in a separable way. The former property is that a single behavior could imply multiple meanings, and the latter is that different observers could interpret the same behaviors differently. In the pFSA framework, the labels of multiple raters across multiple functions over time are represented as a third-order tensor. This study then formulated a semiorthogonal nonnegative tensor factorization (SO-NTF) that approximates the input tensor as a linear combination of the functional basis matrix, perceptual basis matrices, and perceptual coefficient matrices. The functional basis matrix consists of functional spectra that represent fundamental functionalities in conversations. The perceptual basis matrices represent the perceptual tendencies, which consist of the sensitivities of the raters to the fundamental functionalities. The perceptual coefficient matrices represent the temporal activations of the perceptual tendencies. The pFSA framework constructs the perceptual basis matrices to characterize both label reliability and diversity. This study targeted 32 head movement functions labeled by ten raters. The experimental results confirmed that pFSA could successfully analyze the levels of ambiguity for multiple functionalities, such as low ambiguity for addressing and backchannel functions and high ambiguity for thinking functions. © 2025 Copyright is held by the owner/author(s). Publication rights licensed to ACM.

    ...
  • 2.Analyzing Multimodal Multifunctional Interactions in Multiparty Conversations via Functional Spectrum Factorization

    • 关键词:
    • Beam plasma interactions;Behavioral research;Human computer interaction;Human engineering;Interactive computer systems;Matrix algebra;Spectrum analysis;Functionals;Group conversation;Interaction;Multi-modal;Multifunctionals;Multimodal nonverbal behavior;Non-verbal behaviours;Nonnegative matrix factorization;Spectra analysis;Spectra's
    • Tajima, Momoka;Tamura, Issa;Otsuka, Kazuhiro
    • 《27th International Conference on Multimodal Interaction, ICMI 2025》
    • 2025年
    • October 13, 2025 - October 17, 2025
    • Canberra, ACT, Australia
    • 会议

    An analytic framework named an interactional functional spectrum analysis (iFSA) is proposed to reveal how people interact with each other via multimodal nonverbal behaviors in multiparty conversations, focusing on their interactional functional aspects. Based on the representation called functional spectrum, which is the distribution of perceptual intensities over multiple functions of nonverbal behaviors, this study extends such approach to analyze multiparty multimodal multifunctional interactions. More specifically, the iFSA introduces three key extensions: i) nonverbal modalities consisting of facial expressions, head movements, and gaze behaviors; ii) group-level interactions consisting of a speaker, addressee, and other listeners; and iii) temporal spectrum pooling to account for reaction time. From the multiparty multimodal functional spectra, the iFSA conducts spectrum decomposition via semiorthogonal nonnegative matrix factorization (SO-NMF), which approximates the input spectra as the product of a basis matrix called interactional functional basis and a coefficient matrix called interactional functional spectrum. The former represents fundamental patterns of multimodal interactions, and the latter indicates the temporal activation of each basis vector, i.e., each interaction pattern. The experiments targeting four-party conversation data revealed several essential interactions, such as the speaker’s full-modal addressing response with attentive listening by the addressee and other listeners. © 2025 Copyright held by the owner/author(s). Publication rights licensed to ACM.

    ...
  • 3.Exploring Interlocutor Gaze Interactions in Conversations based on Functional Spectrum Analysis

    • 关键词:
    • Convolutional neural networks;Matrix algebra;Non-negative matrix factorization;Spectrum analyzers;Speech analysis;Convolutional neural network;Functional basis;Functionals;Gaze interaction;Multi-modal;Multimodal nonverbal behavior;Non-verbal behaviours;Nonnegative matrix factorization;Spectra analysis;Spectra's
    • Tashiro, Ayane;Imamura, Mai;Kumano, Shiro;Otsuka, Kazuhiro
    • 《26th International Conference on Multimodal Interaction, ICMI 2024》
    • 2024年
    • November 4, 2024 - November 8, 2024
    • San Jose, Costa rica
    • 会议

    A novel framework named a gaze interactional functional spectrum analysis (GI-FSA) is proposed to explore the functional aspects of gaze interactions among interlocutors in conversations. It aims to reveal the primary and distinctive interactional functionalities that emerge via the gaze behaviors of the speaker, and the listener whom the speaker looks at. To capture the intrinsic nature of gaze functions, such as multiple functionalities and ambiguity, this study introduces a novel representation called a gaze functional spectrum representing the distribution of perceptual intensity of multiple gaze functions and presents a gaze functional spectrum corpus that targets 43 gaze functions covering various speech-related, listening-related and other functions. Then, semiorthogonal nonnegative matrix factorization (SO-NMF) is employed to decompose the concatenated speaker-listener functional spectra into a interactional functional spectrum in a lower-dimensional functional space spanned with functional bases, each of which represents a distinct aspect of interactional functionalities. Targeting four female conversations, the GI-FSA revealed interpretable functional bases such as addressing-listening and joint positive emotion. In addition, this paper proposes convolutional neural networks (CNNs) that can recognize the binary level of the interactional functional spectrum from observable multimodal nonverbal behaviors, including head pose, utterance status, eyeball direction and facial expressions. These experimental fndings validate the potential of the GI-FSA as a promising framework for analyzing gaze interactions among interlocutors, and understanding communication dynamics. © 2024 Copyright held by the owner/author(s).

    ...
  • 4.Exploring Multimodal Nonverbal Functional Features for Predicting the Subjective Impressions of Interlocutors

    • 关键词:
    • Facial expression; feature selection; group meeting; head movement;multimodal recognition; nonverbal communication; social signal;subjective impression; group meeting; head movement; multimodalrecognition; nonverbal communication; social signal; subjectiveimpression;FEATURE-SELECTION; CONVERSATION; PERSONALITY; JAPANESE; GAZE
    • Ito, Koya;Ishii, Yoko;Ishii, Ryo;Eitoku, Shin-Ichiro;Otsuka, Kazuhiro
    • 《IEEE ACCESS》
    • 2024年
    • 12卷
    • 期刊

    This paper proposes models for predicting the subjective impressions of interlocutors in discussions according to multimodal nonverbal behaviors. To that end, we focus mainly on the functional aspects of head movement and facial expressions as insightful cues. For example, head movement functions include the speaker's rhythm and the listener's back channel and thinking processes, as well as their positive emotions. Facial expression functions include emotional expressions and communicative functions such as the speaker addressing the listener and the listener's affirmation. In addition, our model employs synergetic functions, which are jointly performed with head movements and facial expressions, assuming that the simultaneous appearance of head and face functions could strengthen the results or lead to multiplexing. On the basis of these nonverbal functions, we define a set of functional features, including the rate of occurrence and composition balance among different functions that emerge during conversation. Then, a feature selection scheme is used to identify the best combinations of intermodal and intramodal features. In the experiments, an SA-Off corpus of 17 groups of discussions involving 4 female participants was used, including interlocutors' self-reported scores for 16 impression items felt during the discussion, such as helpfulness and interest. The experiments confirmed that our models' predictions were significantly correlated with the self-reported scores for more than 70% of the impression items. These results indicate the effectiveness of multimodal nonverbal functional features for predicting subjective impressions.

    ...
  • 5.Synergistic Functional Spectrum Analysis: A Framework for Exploring the Multifunctional Interplay Among Multimodal Nonverbal Behaviours in Conversations

    • 关键词:
    • Convolution;Matrix algebra;Non-negative matrix factorization;Regression analysis;Spectrum analyzers;Vector spaces;Conversation;Convolutional neural network;Functionals;Multi-modal;Multifunctionals;Multimodal nonverbal behavior;Non-verbal behaviours;Nonnegative matrix factorization;Spectra analysis;Spectra's
    • Imamura, Mai;Tashiro, Ayane;Kumano, Shiro;Otsuka, Kazuhiro
    • 《IEEE Transactions on Affective Computing》
    • 2024年
    • 期刊

    A novel framework named the synergistic functional spectrum analysis (sFSA) is proposed to explore the multifunctional interplay among multimodal nonverbal behaviours in human conversations. This study aims to reveal how multimodal nonverbal behaviours cooperatively perform communicative functions in conversations. To capture the intrinsic nature of nonverbal expressions, functional multiplicity, and interpretational ambiguity, e.g., a single head nod could imply listening, agreeing, or both, a novel concept named the functional spectrum, which is defined as the distribution of perceptual intensities of multiple functions by multiple observers, is introduced in the sFSA. Based on this concept, this paper presents functional spectrum corpora, which target 44 facial expression and 32 head movement functions. Then, spectrum decomposition is conducted to reduce the multimodal functional spectrum to a synergetic functional spectrum in a lower dimension functional space that is spanned by functional basis vectors representing primary and distinctive functionalities across multiple modalities. To that end, we propose a semiorthogonal nonnegative matrix factorization (SO-NMF) method, which assumes the additivity of multiple functions and aims to balance the distinctiveness and expressiveness of the factorization. The results confirm that some primary functional bases can be identified, which can be interpreted as the listener’s backchannel, thinking, and affirmative response functions, and the speaker’s thinking and addressing functions, and their positive emotion functions. In addition, regression models based on convolutional neural networks (CNNs) are presented to estimate the synergistic functional spectrum from the head poses and facial action units measured from conversation data. The results of these analyses and experiments confirm the potential of the sFSA and may lead to future extensions. © 2010-2012 IEEE.

    ...
  • 排序方式:
  • 1
  • /