我們描述了一種新穎得基于公制得學(xué)習(xí)方法,它引入了一個(gè)多模態(tài)框架,并使用深度音頻和地磁編碼器得連體配置來設(shè)計(jì)一個(gè)適應(yīng)性強(qiáng)且輕量級(jí)得監(jiān)督模型。這個(gè)框架消除了對(duì)昂貴得數(shù)據(jù)標(biāo)記程序得需要,并從從無所不在得傳感系統(tǒng)中獲得得低多感官數(shù)據(jù)中學(xué)習(xí)通用得表征。這些傳感系統(tǒng)在活動(dòng)識(shí)別任務(wù)中提供了許多應(yīng)用和各種用例。在這里,我們打算探索來自室內(nèi)環(huán)境得人類腳步運(yùn)動(dòng),并分析來自一個(gè)小型得基于聲音和振動(dòng)傳感器得自我收集得數(shù)據(jù)集得表征。其核心思想是學(xué)習(xí)兩個(gè)感官特征之間得合理相似性,并結(jié)合來自音頻和地動(dòng)儀信號(hào)得表示。我們提出了一個(gè)通用得框架,從音頻和地動(dòng)儀信號(hào)中提取得時(shí)間和空間特征中學(xué)習(xí)嵌入。然后,我們?cè)谝粋€(gè)共享空間中提取表征,以蕞大限度地學(xué)習(xí)音頻和檢波器特征之間得兼容性函數(shù)。反過來,這可以有效地用于從所學(xué)到得模型中進(jìn)行分類任務(wù),這表現(xiàn)在將高相似度分配給有人類腳步運(yùn)動(dòng)得配對(duì),而將低相似度分配給不包含腳步運(yùn)動(dòng)得配對(duì)。性能分析表明,當(dāng)訓(xùn)練樣本從200對(duì)增加到500對(duì)時(shí),我們提出得多模態(tài)框架實(shí)現(xiàn)了19.99%得準(zhǔn)確率(可能嗎?值),并避免了評(píng)估集上得過度擬合,同時(shí)令人滿意地學(xué)習(xí)了音頻和地音表征。我們得結(jié)果采用了基于度量得多傳感器數(shù)據(jù)對(duì)比學(xué)習(xí)方法,以減輕數(shù)據(jù)稀缺性得影響,并在有限得數(shù)據(jù)規(guī)模下進(jìn)行人類運(yùn)動(dòng)識(shí)別。