欢迎访问:沃派博客 每天不定时发布IT文章相关资讯
当前位置:沃派博客-沃派网 > IT文章 > 正文

中央民族大学教授赵小兵:少数民族语言信息化关乎民众福祉,需要各界的更多支持

01-03 IT文章

雷锋网 AI 科技评论按:近年来,我国在国际自然语言处理领域的表现较为活跃,多个自然语言处理顶级会议上都能见到我国学者的身影,论文的发表数量也在逼近美国。然而这仅仅就少数语言而言。在我国境内许多的少数民族地区,当地许多语言文字还处在低信息化状态,连最基础的工具如搜索引擎、门户网站等都不具备,使得原本就处在偏远地区的少数民族进一步被「边缘化」。

少数民族语言信息化是一项庞大工程,非一人一时之力所能解决。以云南为例,作为一个多民族、多语言、多文种的边疆省份,云南省人口在 6000 人以上的世居少数民族一共有 25 个,这 25 个世居少数民族中,除回、水、满 3 个民族通用汉语外,其他 22 个民族共使用 26 种语言,14 个民族使用 22 种文字,语言文字资源丰富且使用情况复杂。

我们好奇的是,如今少数民族语言的信息化工作究竟进展到了哪一步?学界/业界有哪些值得被记录的成果?研究在转化落地成为产品的道路上遇到了哪些棘手的问题?带着这些疑问,我们采访了中央民族大学国家语言资源监测与研究少数民族语言中心主任、中国中文信息学会理事、民族语文信息处理专委会副主任、博士生导师赵小兵教授。(采访:岑峰、黄善清 ;整理:黄善清)

中央民族大学教授赵小兵:少数民族语言信息化关乎民众福祉,需要各界的更多支持

赵小兵、女、蒙古族、1967 年 2 月生、内蒙古呼和浩特市人,二级教授、博士生导师,北京市第十五届人大代表。1988 年 7 月毕业于内蒙古大学电子系计算机科学与技术专业,获学士学位;2003 年 1 月毕业于韩国青云大学信息产业大学院, 获硕士学位,专业方向为人工智能;2007 年 6 月毕业于北京语言大学应用语言学研究所, 获博士学位,专业方向为计算语言学。现任中央民族大学「国家语言资源监测与研究少数民族语言中心」主任,受聘为北京外国语大学、新疆师范大学、呼和浩特民族学院、内蒙古师范大学等机构研究中心学术委员会委员或名誉教授。兼任「中国中文信息学会」理事,「中国中文信息学会民族语言文字信息处理专委会」副主任、「中国语文现代化学会少数民族语文现代化专委会」副主任,「中国少数民族语言文字标准化委员会」秘书长、「国家自然科学基金项目评审委员」等。

曾任第三届「中国学生计算语言学学术研讨会」大会主席;「第 11-16 届中国少数民族语言信息处理学术研讨会」学术委员会委员兼组织委员会副主任。曾主持国家自然科学基金重点项目《跨语言社会舆情基础理论与关键技术研究》等科研课题 28 项;获「中国第二届钱伟长科技进步一等奖」、「北京语言大学优秀博士论文」等奖励 18 项;发表 SCI、EI 等学术期刊及会议论文 72 篇,出版学术专著 8 部,获国家发明专利 2 项、软件著作权 2 项。

AI 科技评论:请简单介绍少数民族语言信息化工作的基本情况。

赵小兵:国内目前认定的少数民族语言种类有 80 多种,而联合国科教文组织认定的则多达 120 多种,尽管在认定标准上存在差异,实际上两者的数量并没有本质的区别,因为联合国科教文组织考虑是否将一个民族的某种方言视作独立的一种语言,还会考虑语言之间能否交流。

我们判断一个语言的社会化使用程度,一个关键指标是看该语言是否进入大众媒体流通语言中,当然包括网络等新媒体。在中心的长期跟踪下,总结出网络上使用的少数民族语言一共有 14 文种(来自 12 个民族),当中以蒙、藏、维、哈、朝、彝、壮、傣和柯尔克孜的用户基数相对较多。网站数量方面,中心在 2011 年的统计是 1030 个,最近(2018 年底)的核对结果是 680 个,之所以数量上有所变化,一个重要原因是由于网站创建者兴趣转移、经费不继等问题关闭,这当中以个人网站居多,而由政府机关、企业以及社会团体创建的网站则相对稳定。

AI 科技评论:少数民族语言的信息化工作一共经历几个阶段?

赵小兵:大体来说,经历了 3 个阶段。每个阶段均以这个阶段的主体任务作为标志,但由于少数民族语种多,发展并不均衡,三个阶段也是交叉融合的。

第一个是字处理阶段(上世纪 70 年代末、80 年代初开始),这个时期的主体任务是保证民族语言文字的字符在计算机及关联设备上的显现,也就是解决字符编码、输入法和字处理软件的问题。这时候面临的问题主要有两个:一是少数民族语言文字字符的编码及输入,需要解决字符编码的不统一等问题,比如拥有多种编码体系的蒙古文,需要进行字符编码的统一转换;比如不同地域方言区所使用的彝文,是一种典型的「表意文字」,不同区域使用的文字字符存在较大差异,也就意味着其字符编码需要收录处理庞大的字符集。二是文字字符的字处理及排版问题,这一阶段北大方正与「潍坊」华光在这方面扮演着重要的角色,特别是潍坊华光专门针对少数民族语言开发了排版软件。

版权保护: 本文由 沃派博客-沃派网 编辑,转载请保留链接: http://www.bdice.cn/html/20992.html