ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 언어 다양성과 그 진화에 대한 조명
    건강과 과학/과학기술 2022. 7. 3. 09:50

    언어 다양성과 그 진화에 대한 조명
    언어학자와 컴퓨터 과학자가 협력하여 대규모 글로벌 Open Access 어휘 데이터베이스를 게시합니다.
    날짜:
    2022년 6월 16일
    원천:
    막스 플랑크 진화 인류학 연구소
    요약:
    학자들은 언어 데이터의 새로운 글로벌 저장소를 만들었습니다. 이 프로젝트는 오늘날 전 세계에서 사용되는 언어의 단어와 소리의 진화에 대한 새로운 통찰력을 촉진하도록 설계되었습니다. Lexibank 데이터베이스에는 2000개 이상의 언어에 대한 표준화된 어휘 데이터가 포함되어 있습니다. 지금까지 수집된 가장 광범위한 공개 컬렉션입니다.

    독일 막스 플랑크 진화 인류학 연구소(Max Planck Institute for Evolutionary Anthropology)와 뉴질랜드 오클랜드 대학(University of Auckland)의 학자들이 언어 데이터의 새로운 글로벌 저장소를 만들었습니다. 이 프로젝트는 오늘날 전 세계에서 사용되는 언어의 단어와 소리의 진화에 대한 새로운 통찰력을 촉진하도록 설계되었습니다. Lexibank 데이터베이스에는 2000개 이상의 언어에 대한 표준화된 어휘 데이터가 포함되어 있습니다. 지금까지 수집된 가장 광범위한 공개 컬렉션입니다.

    세계의 많은 언어가 "mama"와 "papa"와 같은 단어를 "mother"와 "father"로 사용한다는 것이 사실입니까? 언어가 "팔"과 "손" 모두에 대해 하나의 단어만 사용하는 경우 "다리"와 "발" 모두에 대해 하나의 단어만 사용합니까? 언어는 어떻게 그렇게 많은 개념을 표현하기 위해 상대적으로 적은 수의 단어를 사용합니까? 언어학자, 계산 과학자 및 심리학자로 구성된 학제 간 팀은 계산 방법의 도움으로 이러한 질문과 더 많은 질문을 연구하는 데 사용할 수 있는 대규모 공개 데이터베이스를 만들었습니다.

    "2014년에 언어 및 문화 진화학과가 설립되었을 때 저는 동료들에게 야심 찬 목표를 제시했습니다. 세계에는 7000개 이상의 언어가 있습니다. 가능한 한 언어 다양성에 대한 가장 광범위한 문서로 데이터베이스를 만드십시오." 플랑크 감독 러셀 그레이. "우리의 영감은 전 세계의 생물학자들이 게놈 데이터를 저장한 대규모 유전 데이터베이스인 Genbank에서 나왔습니다."라고 Gray는 말합니다. "Genbank는 게임 체인저였습니다. 자유롭게 사용할 수 있는 대량의 시퀀스 데이터는 우리가 생물학적 다양성을 분석하는 방식에 혁명을 일으켰습니다. 우리는 첫 번째 글로벌 언어 데이터베이스인 Lexibank가 유사한 언어 다양성에 대한 지식을 혁신하는 데 도움이 되기를 바랍니다. 방법."

    새로운 표준과 새로운 소프트웨어

    Lexibank 저장소는 2000개 이상의 다양한 언어에 대한 표준화된 단어 목록 형식의 데이터를 제공합니다. "Lexibank에 대한 작업은 언어 데이터베이스에서 보다 일관된 데이터 형식에 대한 추진과 일치했습니다. 따라서 Lexibank는 표준화의 이점에 대한 대규모 예이자 추가 표준화의 촉매 역할을 할 수 있습니다."라고 전산학을 주도한 Robert Forkel이 보고합니다. 데이터 수집의 일부입니다. " Cross-Linguistic Data Formats 라고 하는 자체 표준을 만들기로 결정했습니다. 이 표준 은 현재 우리 부서가 관련된 수많은 프로젝트에서 성공적으로 사용되고 있습니다."

    팀이 제안한 새로운 표준에는 언어학자의 작업 흐름을 크게 촉진하는 새로운 소프트웨어 도구가 수반됩니다. 데이터 큐레이션의 실질적인 부분을 주도한 Johann-Mattis List는 "우리는 기존 언어 데이터 세트를 비교할 수 있게 해주는 새로운 컴퓨터 지원 워크플로를 설계했습니다. "이러한 워크플로를 통해 데이터 표준화 및 데이터 큐레이션의 효율성이 크게 향상되었습니다."

    언어 진화의 패턴 식별

    표준화된 언어 데이터를 수집하고 공유하는 것 외에도 저자는 언어 다양성의 진화에 대한 질문에 답하기 위해 새로운 계산 기술을 설계했습니다. 그것들은 언어가 60가지 다른 기능과 관련하여 어떻게 다르거나 동의하는지 계산하여 이러한 방법을 사용할 수 있는 방법을 보여줍니다.

    "언어 데이터의 표준화된 표현 덕분에 이제 'mama'와 'papa'와 같은 단어를 'mother'와 'father'로 사용하는 언어를 쉽게 확인할 수 있습니다."라고 List는 보고합니다. Lexibank 프로젝트의 창시자 중 한 명인 Simon J. Greenhill은 "이 패턴은 실제로 세계의 많은 언어와 매우 다른 지역에서 발견될 수 있음이 밝혀졌습니다."라고 덧붙였습니다. "이 패턴을 가진 모든 언어는 서로 밀접하게 관련되어 있지 않기 때문에 1968년에 위대한 언어학자인 Roman Jakobson이 제안한 것처럼 독립적인 병렬 진화를 반영합니다."

    데이터 확장 및 새로운 방법 개발

    새로운 데이터 수집과 자동으로 계산된 언어 기능은 언어 다양성과 언어 진화에 대한 열린 질문에 대한 새로운 통찰력에 기여할 것입니다. "아무도 우리가 논문에서 제시한 예에서 분석을 중단해야 한다고 생각하지 않습니다."라고 List는 말합니다. "반대로 우리는 언어학자, 심리학자, 진화 과학자들이 데이터를 확장하고 새로운 방법을 개발함으로써 우리의 사례를 기반으로 하는 격려를 느끼길 바랍니다."라고 Forkel이 덧붙입니다.

    현재 연구에서도 저자는 향후 조사를 보증하는 결과를 제시합니다. "어떤 언어가 '팔'과 '손'에 대해 같은 단어를 사용하는지 조사할 때 이러한 언어는 일반적으로 '다리'와 '발'에도 같은 단어를 사용한다는 것을 발견했습니다."라고 List는 보고합니다. "이것이 어리석은 우연의 일치처럼 보일 수 있지만, 이는 인간 언어의 사전이 종종 하나의 언어를 따로 조사할 때 가정하는 것보다 훨씬 더 구조화되어 있음을 보여줍니다."

Designed by Tistory.