Title:AuCo: corpus audio de langues du Vietnam et des pays voisins
Alternative Title:Âu Cơ: cơ sở dữ liệu âm thanh ngôn ngữ Việt Nam và các nước láng giềng
AuCo: Audio Corpora of languages of Vietnam and neighbouring countries
Description:La collection AuCo (Audio Corpora) regroupe des documents linguistiques sonores de langues du Vietnam et des pays voisins, y compris dans des langues "rares" particulièrement peu dotées au plan informatique. AuCo est un acronyme pour “Audio Corpora”: corpus audio. C’est également une référence à la fée ÂuCơ, qui mit au monde une grande poche d'où sortirent cents œufs qui donnèrent naissance aux Cent Peuples (Bách Việt), ancêtres légendaires des Vietnamiens et de la multitude de groupes ethniques de la région. Les points ronds qui composent le logo de la collection AuCo/ÂuCơ sont une allusion à ces cent œufs, symbole de la diversité culturelle et linguistique que reflète la collection. Le but de la collection AuCo est de recueillir les documents recueillis par les chercheurs au fil de leur activité de recherche. Elle remplit par là une fonction importante: inscrire la collecte de données orales dans une perspective cumulative. La préparation, la réalisation et l'annotation d’enregistrements sont des tâches gourmandes en temps; au prix d’un léger surcroît de travail, il est possible de préparer les données de façon à ce qu’elles puissent être réutilisées par d’autres, pour des finalités variées (notamment: analyse phonétique/phonologique, traitement automatique de la parole, mais aussi didactique des langues/projets de revitalisation de langues en danger). La collection AuCo a vocation à contribuer à la documentation du patrimoine humain que représentent les langues du monde; elle a aussi vocation à faciliter les travaux de recherche interdisciplinaires associant ingénieurs et linguistes, autour de techniques communes. Il est prévu de verser à la collection des documents de types très divers, et de valeur patrimoniale très inégale: des récits traditionnels aux documents lus, en passant par les dialogues et les enquêtes de vocabulaire; des collections uniques datant de plusieurs décennies, et concernant des parlers aujourd'hui en voie de disparition, jusqu'au tout-venant des enregistrements de langues nationales (réalisés ponctuellement pour les besoins d'études phonétiques/phonologiques ou d'outils de traitement automatique). Les utilisations nouvelles et créatives des données sont rarement prévisibles; d’où le choix de ne fermer la collection AuCo à aucun type de données. Les documents de la collection AuCo ont été enregistrés et transcrits/annotés par des chercheurs d'horizons très variés, dont les membres du département "Parole et Communication" de l'Institut de recherche international MICA (HUST – CNRS/UMI-2954 – Grenoble INP, Hanoi University of Science and Technology). Leur préparation pour archivage et diffusion en ligne est assuré par des membres du département “Parole et Communication” de l'Institut de recherche international MICA. Archivage pérenne et diffusion en ligne sont assurés par la grille de services de la Très Grande Infrastructure de Recherche Huma-Num (en partenariat avec le CINES et l’IN2P3); la préparation des documents en vue de leur dépôt s'effectue avec le concours des deux services versants pour les données orales, collection Pangloss / réservoir de données CoCoON (CNRS-LACITO) et Speech and Language Data Repository: SLDR (CNRS-LPL).
The AuCo collection hosts audio recordings of language of Vietnam and neighboring countries, including data of endangered/little-endowed languages. AuCo stands for AudioCorpora; it is also a reference to ÂuCơ, a fairy who bore an egg sac that hatched a hundred children: the Hundred Peoples (Bách Việt), ancestor to the Vietnamese and to the multitude of other ethnic groups of the area. The round dots in the logo of the AuCo/ÂuCơ collection are an allusion to these hundred eggs – a symbol of the cultural and linguistic diversity reflected in the collection. The aim of the AuCo collection to collect the documents recorded by researchers in the course of their research activity. The AuCo collection thereby fulfills an important function: it allows for cumulative progress in speech data collection. Preparing, recording and annotating audio data sets is highly time-consuming; with a little extra investment of time and effort, the data can be prepared in such a way as to be re-usable by others, for various purposes (including phonetic / phonological analysis, and automatic speech processing, but also language teaching / language revitalization). The AuCo collection aims to contribute to the documentation of a precious human heritage: the languages of the world. It also aims to facilitate interdisciplinary research involving engineers and linguists, through the sharing of data, tools and methods. The AuCo collection is open to documents of various types: from unique heritage recordings dating back several decades, to everyday recordings of national languages collected for one-off research purposes. Because there is no telling when and how documents will be re-used, the AuCo collection chooses not to exclude any type of data. The documents AuCo collection were recorded and transcribed / annotated by researchers from very different backgrounds, including the members of the “Speech Communication” department of the International Research Institute MICA (HUST - CNRS/UMI-2954 - Grenoble INP, Hanoi University of Science and Technology). The tasks involved in the preparation of the documents for archiving and online distribution are realized by members of the “Speech Communication” department of the MICA Institute. Long-term preservation (perennial archiving) and online distribution are taken charge of by the Très Grande Infrastructure de Recherche Huma-Num, in partnership with CINES and IN2P3. Tasks of data filing are realized with the help of the two centres that serve as archive entry points: the Pangloss Collection / Cocoon data repository (CNRS-LACITO), and the Speech and Language Data Repository: SLDR (CNRS-LPL).
Cơ sở dữ liệu ÂuCơ thu thập và lưu trữ các bản thu âm bằng các ngôn ngữ trên lãnh thổ Việt Nam và cả các nước láng giềng, bao gồm những ngôn ngữ đang có nguy cơ tuyệt chủng và những ngôn ngữ nghèo dữ liệu. Tên dự án là AuCo: AudioCorpora, Cơ sở dữ liệu tiếng nói. Cũng có ý nghĩa là Âu Cơ, một nhân vật gắn liền với truyền thuyết về tổ tiên của người Việt. Trong truyền thuyết này, mẹ Âu Cơ sinh ra một trăm trứng, trăm trứng này nở ra trăm con và từ một trăm người con (Bách Việt) này đã hình thành nên các nhóm dân tộc khác nhau. Các chấm tròn sử dụng trong thiết kế logo của dự án tượng trưng cho trăm trứng - là biểu tượng của sự đa dạng văn hóa và ngôn ngữ được phản ánh trong bộ dữ liệu AuCo. Mục đích của dự án AuCo là thu thập dữ liệu của các nhà nghiên cứu qua các hoạt động nghiên cứu của họ. Do đó, Cơ sở dữ liệu AuCo có vai trò đặc biệt quan trọng đảm bảo một tiến trình xây dựng và tích lũy dữ liệu tiếng nói. Quá trình chuẩn bị, thu âm và gán nhãn dữ liệu âm thanh tiêu tốn rất nhiều thời gian và công sức. Đa phần các nghiên cứu khác không có kế hoạch lưu trữ hay tái sử dụng dữ liệu lâu dài. Trong khi đó, với dự án này, chỉ cần đầu tư thêm một lượng nhỏ công sức thì cơ sở dữ liệu có thể được sử dụng lại trong các mục đích nghiên cứu khác: không chỉ trong phân tích ngữ âm, xử lý tiếng nói tự động mà còn cả trong lĩnh vực dạy học ngôn ngữ. Cơ sở dữ liệu AuCo sẽ đóng góp một tài liệu quý giá bởi ngôn ngữ chính là di sản của thế giới. Một điều quan trọng nữa mà dự án hướng tới, đó là làm đơn giản hóa việc kết nối các nhóm kỹ sư và các nhà ngôn ngữ học thông qua việc chia sẻ dữ liệu, công cụ hỗ trợ và phương pháp nghiên cứu. Dự án AuCo thu thập các dữ liệu đa dạng từ những đoạn ghi âm giá trị từ vài thập kỷ trước tới những đoạn ghi âm hàng ngày trong các nghiên cứu hiện tại. Cơ sở dữ liệu AuCo được thực hiện bởi các nhà nghiên cứu từ nhiều đơn vị và lĩnh vực khác nhau, trong đó có các thành viên của Phòng giao tiếp tiếng nói của Viện nghiên cứu quốc tế MICA (HUST-CNRS/UMI-2954-Grenoble INP, Trường ĐH Bách Khoa Hà Nội). Việc chuẩn bị tài liệu lưu trữ và cung cấp trực tuyến được thực hiện bởi các thành viên của Phòng Giao tiếp tiếng nói thuộc Viện nghiên cứu quốc tế MICA. Các tài liệu và dữ liệu trực tuyến này sẽ được duy trì với sự giúp đỡ của một số đơn vị nghiên cứu của Cộng hòa Pháp: TGIR Huma-Num, một đối tác với CINES và IN2P3, và hai trung tâm CNRS-LACITO và SLDR (CNRS-LPL).
Subject:Fonds sonores, en accès libre, de langues du Vietnam et des pays voisins, y compris des langues « rares », particulièrement peu dotées au plan informatique
An open-access collection of recordings of languages of Vietnam and neighbouring countries, including highly under-resourced languages
