



馬克斯普朗克人類歷史科學研究所發布最新版本的跨語言共詞化數據庫CLICS(CREDIT:J.-M. List, T. Tresoldi / S. J. Greenhill)
(神秘的地球uux.cn報道)據EurekAlert!:由馬克斯普朗克人類歷史科學研究所的學者領導的一組科學家發布了最新版本的跨語言共詞化數據庫(Database of Cross-Linguistic Colexifications CLICS),涵蓋了超過3100種語言的斯普所發數據關聯詞匯。新版本的朗克歷史V型《749*3814》西安未央區外圍女酒店服務提供外圍女小姐上門服務快速安排人到付款數據庫以前所未有的規模提供了詞匯數據,并為數據聚合提供了詳細、人類可復制的科學跨語庫工作流,使世界各地的研究言共學者都可以為數據庫的未來版本做出貢獻。
在每種語言中,布最本都有兩個或兩個以上的新版概念用同一詞表示的情況,例如英語單詞fly,詞化既指飛行的馬克行為,又指蒼蠅。斯普所發數據語言學家將這種模式稱為共詞化(colexification)。朗克歷史通過比較不同語言中的人類共詞化現象,研究人員可以洞悉廣泛的科學跨語庫問題,包括人類的研究言共V型《749*3814》西安未央區外圍女酒店服務提供外圍女小姐上門服務快速安排人到付款感知,語言的演變和語言的接觸。 CLICS數據庫的第三部分顯著增加了早期版本中可用的語言、概念和數據源的數量,從而使研究人員能夠以前所未有的細節和深度在全球范圍內研究共詞化現象。
借助詳細的計算機輔助工作流程,CLICS促進了語言數據集的標準化,并為語言研究中的許多持續挑戰提供了解決方案。 Tiago Tresoldi表示:“過去數據匯總通常是通過臨時決定的步驟完成,但我們的新工作流程和最佳實踐指南是確保語言研究可重復性的重要一步?!毖芯繎米C明CLICS的有效性 最近在《科學》雜志上發表的一項研究中已經說明了CLICS提供新證據以解決心理學和認知方面的前沿問題的能力,該研究集中在情感概念在全球語言中的不同表達。
這項研究比較了來自全球語言樣本中的用于情感概念的共詞化網絡,并發現情感的含義在不同的語言家族中差異很大?!霸谶@項研究中,使用CLICS來研究世界各地語言在情感詞匯方面的差異,但是數據庫的潛力并不局限于情感概念。”Johann-Mattis List說,“我們將來還會解決更多有趣的問題?!毙聵藴屎凸ぷ髁鞒虨槭占蓮椭频娜蛟~匯數據提供可能性。
基于2018年首次提出的跨語言研究中標準化數據格式的新指南(guidelines for standardized data formats in cross-linguistic research,DOI:10.1038 / sdata.2018.205),CLICS團隊把數據庫從300種語言和1200種概念增加到了3156種語言和2906種概念。新版本還保證了數據聚合(data aggregation)過程的可重復性,符合研究數據管理中的最佳實踐原則。“由于我們開發了新的標準和工作流程,我們的數據不僅是公開、公平的(可查找、可訪問、可互操作和可再現),而且將語言數據從其原始形式提升到我們的跨語言標準的過程也更加高效?!盧obert Forkel說。
為CLICS開發的工作流的有效性已經在涉及大量學者和學生的各種驗證實驗中得到測試和證實。兩項不同的學生任務為此展開,創建了新的數據集并逐步改進了現有數據。這兩項任務要求學生完成研究中描述的數據集,并創建的不同步驟,例如數據提取,數據映射(到參考目錄)和源識別。“讓核心團隊以外的人使用和測試你的工具是必不可少的,這對微調所有流程有很大幫助,”Christoph Rzymski說。 隨著CLICS及其工作流程可供更廣泛的受眾使用,學者們將來不僅可以直接對數據庫做出貢獻,還可以在數據庫中使用。他們還可以從既有的設備中獲利并開始自己的目標收藏?!胺e極使用我們的標準和工作流程的語言學家的數量正在不斷增加。我們希望這個新版本的CLICS能夠進一步傳播它們?!盨imon Greenhill說。