複数人会話に参与するロボットのための音声認識・対話システム

项目来源

日本学术振兴会基金(JSPS)

项目主持人

河原 達也

项目受资助机构

京都大学

项目编号

25H01142

立项年度

2025

立项时间

未公开

项目级别

国家级

研究期限

未知 / 未知

受资助金额

45630000.00日元

学科

人間情報学およびその関連分野

学科代码

未公开

基金类别

基盤研究(A)

关键词

音声認識 ; 音声対話 ; 多人数会話 ;

参与者

井上昂治;井本桂右;熊田孝恒;吉井和佳

参与机构

京都大学,情報学研究科;京都大学,工学研究科

项目标书摘要:Outline of Research at the Start:従来の音声認識・対話システムは、原則としてユーザが1人、すなわち1人の話者がシステムに話すことが大前提となっている。これに対して本研究では、複数人がいる会話に参与することを目指して、音声認識と音声対話の両面からモデル化及びシステム実装を行う。具体的には、(1)音声分離・発話者検出(誰が話しているのか)、(2)発話権認識(次に誰が話すのか)、(3)聞き手反応の生成(発話権がない時にどう反応するか)、(4)感情・雰囲気の認識に基づく対話生成、の課題に取り組む。ロボット・AIが、複数人がいる状況で、基本的なコミュニケーション能力及び社会性を身に着けることができるかという問いに答えるものである。

  • 排序方式:
  • 1
  • /
  • 1.Joint Analysis of Acoustic Scenes and Sound Events Based on Semi-supervised Training of Sound Events With Partial Labels

    • 关键词:
    • Audio acoustics;Classification (of information);Cost effectiveness;Learning algorithms;Learning systems;Semi-supervised learning;Acoustic scene classification;Detection performance;Event-based;Joint analysis;Labour-intensive;Partial label;Scene classification;Semi-supervised trainings;Sound event detection;Sound events
    • Imoto, Keisuke
    • 《APSIPA Transactions on Signal and Information Processing》
    • 2025年
    • 14卷
    • 1期
    • 期刊

    Annotating time boundaries of sound events is labor-intensive, limiting the scalability of strongly supervised learning in audio detection. To reduce annotation costs, weakly-supervised learning with only clip-level labels has been widely adopted. As an alternative, partial label learning offers a cost-effective approach, where a set of possible labels is provided instead of exact weak annotations. However, partial label learning for audio analysis remains largely unexplored. Motivated by the observation that acoustic scenes provide contextual information for constructing a set of possible sound events, we utilize acoustic scene information to construct partial labels of sound events. On the basis of this idea, in this paper, we propose a multitask learning framework that jointly performs acoustic scene classification and sound event detection with partial labels of sound events. While reducing annotation costs, weakly-supervised and partial label learning often suffer from decreased detection performance due to lacking the precise event set and their temporal annotations. To better balance between annotation cost and detection performance, we also explore a semi-supervised framework that leverages both strong and partial labels. Moreover, to refine partial labels and achieve better model training, we propose a label refinement method based on self-distillation for the proposed approach with partial labels. © 2025 K. Imoto.

    ...
  • 排序方式:
  • 1
  • /