浅谈西南地区少数民族语言数据库建设

时间:2022-06-06 08:20:03 公文范文 浏览次数:

摘要:本文结合西南地区少数民族语言特点及初期的一些研究成果,着重探讨西南地区(涉及贵州、云南、四川、广西地区)少数民族语言数据库的特点、设想和规划,以期对今后的研究有所借鉴。

关键词:西南地区 民族语言 数据库建设

中图分类号:G64 文献标识码:A文章编号:1008-925X(2012)O8-0018-02

1、西南地区的民族和语言

西南地区有31个世居民族,分别是属于壮侗语族的壮族、布依族、傣族、侗族、水族、毛南族、仫佬族和仡佬族,属于苗瑶语族的苗族和瑶族,属于藏缅语族的藏族、羌族、普米族、彝族、哈尼族、傈僳族、拉祜族、白族、纳西族、基诺族、怒族、阿昌族、景颇族、独龙族和土家族,属于南亚语族的佤族、布朗族、德昂族和京族,以及汉族和回族。汉族和回族系近一两千年来尤其是近数百年来陆续自北向南迁到西南地区的。

此外,还有一些少数民族群体,由于人口较少尚未单列民族(有的归入邻近的某一个少数民族),如操侗台语族仡央语支语言的拉基人(部分归入壮族或彝族)、普标人(部分归入彝族)、布央人(归入壮族或瑶族),操侗水语支语言的茶洞人(少数归入壮族),操南亚语的布干人(归入彝族)、克木人、莽人、俫人(归入仡佬族)、户人等。

2、研究及保护民族语言的价值

我国众多少数民族主要分布在东北、西北和西南地区。这些语言以其结构形式的多样性、独特性以及系属归类上的孤立性展现了其高度的研究价值。其研究价值不仅体现在语言学上,也体现在文学、人类学、历史学乃至自然科学上。

首先,语言是思维的工具,是帮助人们认识世界的工具,每种语言都与某个特定人群的思维模式及认识世界的方式有关。从这一意义上说,一种语言的消失意味着一种人类认识世界的模式的丧失。

其次,加强少数民族语言,尤其是濒危语言的保护、抢救记录也是对弱势社会群体的一种特殊的人文关怀,能促进民族团结和社会和谐。

再次,西南地区归属不易确定的语言往往蕴含着丰富的语言史、文化史信息,对其进行深入研究有助于加深我们对人类语言发展史的认识。

最后,少数民族语言的研究对相关学科的发展也有促进作用。如仡佬族可能跟历史上活跃于西南地区的濮、夜郎有关系,挖掘记录语言材料对解决这些古代民族研究中的疑难问题有帮助。

一、语言数据库简述

数据库就是按照研究目的或者根据研究对象的性质将材料或者数据组织起来的集合体。针对语言材料的规模化,以及语言材料自身复杂的异源性、零散性、异质性、数量不等性等特点,语言学家需要利用现代计算机来帮助自己处理语言材料。其中最常见的方法就是建立数据库。[1]

过去的语言数据库只包含单一文字信息,例如文字、国际音标。进行田野调查时,调查者一般通过听音、辨音记录某种语言的语音,这样得出的语言调查结果往往有较强的主观性,在他人对记音表示怀疑时,缺乏有力的对证。现在图像和语音媒体文件作为语言数据库的重要信息成分逐渐被引入。

1.1 图像文件

图像文件在语言数据库中的应用主要体现在民族语地图的制作上。民族语地图是语言地理学的最重要体现形式。我们可以使用语言地图软件,通过密集的布点调查,制作多幅民族语特征地图和民族语同言线,比较精确地将西南各少数民族语言的特征差异和地理分布展示出来。

1.2 语音文件

语音文件一方面可以真实地记录该民族语的读音,对纯书面记录的语言资料起到很好的补充和印证作用,还可以节省实地调查的费用,降低调查的成本。另一方面,所录语音数据库可以在语音分析平台(例如Praat)进行语音试验分析,对一些拿捏不准的语音加以定性,从而提高语言调查的精确度和科学性。此外,语音文件可以反复播放,减少了调查过程中发音人的发音次数,缩短了田野调查的时间,提高了田野调查的工作效率。

可见,语言地图的绘制注重表现语言空间上的分布,而语言语音数据库注重语音调查结果的精确程度,并进一步拓展至语音学的实验分析。

二、西南少数民族语言数据库的设想和规划

2.1 研究现状

2.1.1专著研究状况

20世纪80年代,由国家民委组织国内专家学者编撰了《中国少数民族语言简志丛书》,现已出版57本。20世纪90年代,有关专家学者再一次开展了少数民族语言的调查,编写了《中国新发现语言丛书》,现已出版约30部。另外孙宏开主编的《中国少数民族语言方言研究丛书》已出版13本,《中国少数民族语言系列词典丛书》已出版20本。

由此看来,西南地区各少数民族语言的调查研究工作开展较早,除了铺开面较广的大型项目外,单点或微观的研究成果也不胜枚举,但由于受到当时的技术和资金条件的限制,尤其是计算机技术在语言研究领域里的应用还不成熟,大部分调查成果只有纸笔记录的书面形式,没有做成可以随机调阅的数据库形式,更不用说配备多媒体音频资料了。虽然以目前的技术要把以往的纸质调查成果直接转为电子形式并不困难,但也只是电子图书,并不方便查询和交互数据。

2.1.2 语言数据库建设状况

随着语言信息化的进一步深入,语言数据库的建设日渐成为民族学、语言学、计算语言学等学科关注的热点。2001年国家设立“十五”社会科学规划研究课题,关注少数民族濒危语言的保护和研究。2005年11月在北京大学举办“语言学研究手段现代化问题学术研讨会”探讨信息处理与语言学研究的相关议题。2007年3月29日国家民委发布的《少数民族事业“十一五”规划》中提出,我国将开展调查、收集、研究、整理少数民族濒危语言文字,建立少数民族濒危语言文字数据库等工作。

总体来看,近些年教育部在民族语言文字规范标准建设和信息化方面开展的主要工作如下:第一,少数民族文字的字符集及其平台建设;第二,民族语言文字规范化建设 ;第三,民族语言文字资源库建设。取得的研究成果较为丰富,如国家语委2007年12月29日结题的《蒙古语术语数据库》;截至2009年4月,云南民族大学已经建立了彝族、哈尼族、傣族、傈僳族、拉祜族、景颇族、布朗族等民族的20种语言数据库。中国社会科学院在语言数据库建设方面取得了一系列成果:《中国少数民族语言音档(修订)》、《中国少数民族濒危语言语音语料库》、《中国少数民族说汉语中介语语音语料库》。

2.1.3建立语言数据库的意义

少数民族语言种类多,且方言、土语较为复杂,同时随着社会的发展,语言也在发生变化,因此建立并充实少数民族语言数据库是一项重要工作。

我们计划建立的数据库不仅可以全面把握西南各民族语言素材,随时扩充修改民族语数据库的内容,为西南少数民族语言的类型研究、民族语地理研究提供坚实的基础,而且可以省却许多原来必须依靠人工完成的工序,从而提高研究效率,所配备的录音文件还可以为今后的民族语研究提供详实的语音记录档案。

2.2 研究规划及预期研究成果

2.2.1研究规划

1.理论依据

根据我国少数民族语言的使用情况,我们可以将其分为“强势语言”、“弱势语言”和“濒危语言”三类。“强势语言”包括维吾尔语、蒙古语、藏语等。“弱势语言”包括仫佬语、毛南语、黎语、布干语、珞巴语、普米语、东乡语、裕固语等。“濒危语言”又可以分为两个层次,即“濒危语言”和“濒绝语言”。

“濒危语言”指该语言在村社中已有部分儿童不使用,并且使用的儿童同时又是双语人。包括土家语、羌语、布央语、炯奈语、京语、俫语、回辉话等。

“濒绝语言”指该语言在村社中儿童已完全不使用,青少年中部分使用,但他们同时又是双语人,中老年人虽然掌握但日常生活中已经不以母语为主要交际工具。这部分语言已不可能激发、保护其语言活力,将很快完成自然消亡过程。包括阿侬语、仙岛语、义都语、苏龙语、普标语、木佬语、畲语、巴那语等。

2.具体步骤

我们可以使用潘悟云组织研发的新型语音数据处理系统,将字表中的单字和该字在语音文件中的录音相互联系,紧密定位,并核实单字录音。同时研发相应的词汇、语法数据处理系统。具体步骤简单介绍如下:

第一阶段:濒绝语言数据库

第二阶段:濒危语言数据库

第三阶段:弱势语言的个别方言点及补录、整理工作

每个阶段计划采取相同的措施,先进行一级西南少数民族语言数据库(即县区一级)的建设,然后再深入到更小的语言点。

2.2.2预期研究成果

与已有成果形成互补,防止低水平重复,为没有记录、处理过的少数民族语言及方言点建立数据库,生动形象地展现其发音部位和发音方法图,统一采用国际音标记录该语言或方言的所有词汇,同时进行准确的语法结构分析,尽量做到语音、词汇、语法同步进行,形成了一套完整的有声语言数据库。同时运用图像处理法,为西南地区少数民族语言绘出详尽的方言地图。

三、西南少数民族语言数据库的特点

3.1 制定适合西南少数民族语言的调查字表

1. 字表制定的原则

在调查某种民族语之前,我们将参考各民族语的《语言调查提纲》、有关论著和方言志材料,并结合语感拟定字表。

2. 调查表格式

调查表每页设计为两列,列出调研的基本字或词语,并留有充足的空白区域,以便及时备注多音字和文白异读字的组词或详细注释等。

3.2 营造适应性较强的录音环境

录音之前,我们需要根据《语言调查提纲》的基础字,整理出该语言的音系。然后做录音试验,掌握根据现实状况调节录音参数等技术,以期调整到符合当时当地环境的最佳录音效果。

录音时,每200字归为一个文件,请发音人逐行、匀速读出每个音节,每个字读2-3遍,词语则先读整个词,然后再分别读出每个音节。

3.3 编辑语音文件,及时补漏降噪

采取全程录音的方式,整理时把提示、发问和谈话等内容剪切掉。在发音人读的过程中尽量不要打断,遇到读错或有疑问的地方,先做记号,等读完一段后,再返回去逐个询问读错或有疑问的字,及时作补充录音,并覆盖原来的录音。

录制过程中,噪音的存在是不可避免的。由录音设备本身造成的持续、稳定的噪音,可以利用录音软件的背景降噪来处理。由不可控因素产生的声音,如人的咳嗽声、户外的汽笛声等,一般是整体切除,然后补上符合要求的录音。

3.4 录音硬件、软件

1. 录音设备

配有相应麦克风且带有USB声卡的笔记本电脑一台,麦克风必须有相当高的信噪比。

2. 录音软件及录音文件的规格

采用Cool Edit Pro软件录音,具体参数按照该软件的要求设置。

3.5 字音录入规范化,处理自动化

录音材料全部采用Excel中文表格处理,字体、单元格格式等一般采取默认设置,输入法统一采用云龙国际音标输入法。对某些音位处理的依据或音色特点的描写可做批注或放在音系中作文字说明。如有条件,可尽量将每个音的发音部位和发音方法绘制成图,以便人们模仿学习和分析研究。

输入所有调查数据之后,将Excel导入Access数据库表内,然后运行程序,该程序将自动完成单字与录音的对应。另外,还可以运用praat软件对语音及声调进行相关声学分析和处理,绘制相关语图。

3.6 词语、句子、语篇录入

各语言或方言的词汇均统一采用国际音标记音,并在此基础上进行语义及语法结构分析,建立一套完整的有声语言数据库。由于各民族语言在词汇和语法方面各具特色,我们需要根据其特点有针对性地编写不同的词汇数据库。

句子、语篇等较长语料数据库的建立,一方面有助于我们观察连读变调、语流音变及其他的非音质音位特征。另一方面也可以为词的自动切分和处理、句子的自动分析与生成、语义的自动分析与加工提供材料依据。

四、结语

语言是有声的交际工具,过去收集到的很多资料由于设备不够完善而没能充分保存和利用语言的真实语音,因而不仅不能对这些丰富多彩的语音做更深入的研究(比如说声学上的分析),也不能说是比较完整地保有和反映各民族语言的真实面貌。随着计算语言学的出现,依靠计算机强大的存储功能,我们完全可以收集并永久保存包括语音和影像在内的所有反映该语言的材料。依靠计算机的快速检索功能,我们可以迅速查找和分析语言对象。所以建立健全少数民族语言数据库是推动少数民族语言研究发展的重要手段。

注释:

[1]孙宏开.语言学家与数据库[J].《汉藏语同源词研究·汉藏语研究的方法论探索》中“ 汉藏语同源词研究-数据库检索系统 ”导言.

参考文献:

[1]戴庆厦.汉语与少数民族语言关系概论[M].北京:中央民族学院出版社,1992.

[2]孙宏开,胡增益,黄行.中国的语言[M].北京:商务印书馆,2007.

[3]D.Biber.语料库语言学[M].外语教学与研究出版社,2000.8.

[4]孙宏开.语言学家与数据库[J].《汉藏语同源词研究·汉藏语研究的方法论探索》中“ 汉藏语同源词研究-数据库检索系统 ”导言.

[5]江获.数据库是语言学家的重要工具[N],中国社会科学院院报,2004.

[6]刘岩.关于中国少数民族濒危语言语音语料库的设计[J].中央民族大学学报,2006.4.

[7]陈锡周.云南少数民族语言数据库[J].云南民族学院学报,2003.1.

推荐访问:西南地区 浅谈 少数民族 语言 数据库