羅伊在客廳10個區(qū)域收集聲音資料
人類如何學會語言?小嬰兒是如何從外界接受語言信號,逐漸建立起自己的語言能力,與人交流?這些一直都是科學家們非常感興趣的,但又一直找不到一個普遍認可的答案。美國的一名科學家為了解決這個問題,決定觀察嬰兒學習語言的過程。
據(jù)英國廣播公司(BBC)5 月19日報道,美國麻省理工學院教授迪布?羅伊喜獲貴子后,決定借此便利觀察他的兒子是如何學習語言的,將通過三年的錄音、錄像等手段記錄下這個寶貴的過程,并希望通過數(shù)據(jù)分析最終獲得人類初生如何學習語言的答案。記錄已經開始十一個月,本報記者通過郵件采訪了羅伊教授,向他了解開始和進展情況。
14個麥克風 11部全方位攝像機記錄嬰兒成長過程
羅伊教授和他的研究小組把這一計劃稱為Human Speechome(人類家庭語言)計劃。11個月前當羅伊教授的兒子出生后離開醫(yī)院,這個計劃便啟動了。14個麥克風和11個全方位攝像機將在這個新生兒來到這個世界的最初三年里一直保持工作狀態(tài)。在羅伊的兒子醒著的時間里,他的一切活動和發(fā)音都被這些設備記錄。監(jiān)視系統(tǒng)在早上八點打開直到晚上十點關閉,每天收集大約350吉伯的壓縮數(shù)據(jù)。
這11部全方位數(shù)字攝像機和14個麥克風隱藏在各個房間的天花板上,包括廚房、餐廳、客廳、游戲室、門口、健身房、三個臥室、走廊和衛(wèi)生間。攝像機可以捕捉到房里發(fā)生的任何可能是潛在的嬰兒學習語言的因素,每秒鐘可以記錄14個畫面,任何微小的動作都被記錄。不過,由于現(xiàn)有技術的程度限制,諸如眨眼等非常細微的面部表情都還無法被捕捉,這些表情都被認為是學習語言非常重要的線索。
14個麥克風組成層級式錄音系統(tǒng),記錄這所房子里任何的聲音資料。在記錄聲音的過程中,錄音系統(tǒng)會自動地將噪音削弱。14個麥克風可以把所有房間的聲音記錄,通過14個頻道刻錄到CD盤中。當房間中沒有雜音時,即使是輕聲的耳語都不會被漏掉。
經過計算,3年的記錄工作將記錄下33.8萬小時的數(shù)據(jù),其中包括14.2萬小時的視頻和19.6萬小時的音頻。
龐大系統(tǒng)共同繪制一幅幼兒經歷的感官刺激的完整圖畫
羅伊教授介紹說,數(shù)據(jù)搜集工作結束后,隱藏在天花板里的數(shù)據(jù)線將會把這些數(shù)據(jù)資料傳送到麻省理工學院媒體實驗室的一個巨大容量的磁盤儲存系統(tǒng)中,該系統(tǒng)儲存容量達到5千兆。所有的圖像都會通過10臺串聯(lián)的電腦進行大規(guī)模數(shù)據(jù)分析,而聲音數(shù)據(jù)將會儲存在地下室的一個標本取樣器中。
據(jù)羅伊教授介紹,目前對語言進行數(shù)據(jù)分析有兩個途徑。第一個是通過自動語言識別器轉錄,但是即使是最好的自動語言識別器出錯率也很高,很多噪音也可能被作為有用信息轉錄。因此還有第二種途徑是通過人工轉錄,通過人工識別,是嬰兒產生的聲音,還是噪音,盡量減小轉錄過程中的誤差。而現(xiàn)今的一些轉錄設備用于大量的語音轉錄工作都不是很理想。羅伊教授和他的研究組在這些轉錄設備的基礎上自行設計了一套系統(tǒng),可以自動識別長時間記錄中的語音,通過數(shù)學運算,描繪出類似于光譜的聲音圖像。在有聲音活動的區(qū)域,該系統(tǒng)會將聲音自動記錄重放進行轉錄。根據(jù)之前的實驗,每一分鐘的對話,都需要2.5分鐘的轉錄時間。
這些不同的各個系統(tǒng)將共同完成一幅幼兒經歷的感官刺激的完整圖畫,這樣就可建立一個可以取代羅伊教授兒子的模型。(馬佳)
對話
嬰兒并非最先會叫媽媽
北京科技報:您的試驗開始了多久了?目前有什么新進展嗎?
羅伊教授:我們的數(shù)據(jù)收集工作已經開始了11個月。已經得到了非常有用的數(shù)據(jù),我的兒子在數(shù)千小時中,在家中呀呀學語的記錄。這些都將用于語言發(fā)展的研究。
北京科技報:在中國普通人都會認為孩子們學說話最早說出的詞語是“媽媽”,您認為是這樣嗎?這是不是應認為這個詞語發(fā)音簡單?
羅伊教授:其實這并不是嬰兒最早學會的單詞,即使是中國。但是“媽媽”這個詞確實很簡單,你是對的,因此這個詞出現(xiàn)的也很早。
北京科技報:在你的家里安裝那么多的機器,你們會不會覺得不自在?如果遇到有隱私問題,怎么辦?
羅伊教授:開始確實不是很自在,但現(xiàn)在已經習慣了。所有的音頻和視頻記錄都可以由人工控制,安裝在墻上的微型觸摸控制器可以在必要時分別開關音頻或視頻的記錄。這樣的微型控制器一共有八個,都安在燈的開關旁邊。另外,我們還可以通過“哎呀”按鈕控制,擦除任何一段不需要的記錄。
北京科技報:人們在知道有設備在進行拍攝記錄時,會不會故意地去和嬰兒對話,影響結果的客觀性?
羅伊教授:通常在實驗中,觀察者對實驗的影響只會持續(xù)24到48個小時。我們的記錄工作已經進行了相當長的一段時間,這種影響應該已經不是一個問題了。
北京科技報:在記錄工作結束后,你們將如何進行分析,數(shù)據(jù)的那一部分是研究嬰兒學習語言的有用資料嗎?
羅伊教授:我們將通過計算機建立模型,并復制我的孩子在學習語言中的單詞和語法。這些模型將幫助我們分析學習的整個過程。
北京科技報:您是什么時候開始涉足人類語言這個領域的?是什么激發(fā)您這個想法?
羅伊教授:我在十年前就有了這個想法,那時我在做我的博士論文,題目就是“語言獲取模型”。
北京科技報:為什么數(shù)據(jù)記錄的時間是3年而不是更短或者更長呢?
羅伊教授:2到3年這個時間是學習第一個單詞到簡單的語法出現(xiàn)的一個臨界時間,這段時間是我們研究關注的重點時期。
北京科技報:關于嬰兒如何學會語言有很多爭論,您能介紹一下有哪些嗎?您支持哪一種觀點?
羅伊教授:這個問題非常復雜,很難用簡短的語言說清楚。但非常明顯的是,天生的語言結構與環(huán)境造就的語言結構都是起到重要作用的。我們的研究計劃就是想要在這方面打開一扇新的大門。這項計劃將為研究人類語言獲取過程的研究提供一個自然、豐富、縱向的參考。通過超過30萬小時的記錄,我們先要建立一個模型并計算出幼兒獲取語言的精確過程。我們希望這項技術除了可以研究人類的語言學習過程外,還可以應用于像個人視頻或分析從監(jiān)視器中獲得的影像資料這樣的其他領域。北京科技報
本文來自:逍遙右腦記憶 http://yy-art.cn/zaojiao/725154.html
相關閱讀: