国家语委现代汉语语料库介绍
国家语委现代汉语语料库介绍
教育部语言文字应用研究所
教育部语言文字应用研究所
2006
2006
语料库建设
国家语委语料库建设
1991年12月国家语言文字工作委员会提出立项;
1992年4月召开现代汉语语料库选材原则专家论证会;
1993年1月制订《现代汉语语料库选材原则》;
1993年9月召开现代汉语语料库选材专家审定会;
1998年底建成 7000万字的生语料库;
目前已完成1亿字生语料和5000万字标注语料;
语料库建设和加工工作还在继续进行。
被列为国家语委“九五”、“十五”科研重大项目
得到国家科技部“863”、“973”计划多个项目的支持
“智能中文信息处理平台”
“图像、语音和自然语言理解”
“中文信息处理应用基础研究”
语料库的主要内容
未经标注加工的生语料库
标注语料库
词语切分
词类标注
句法树库
内部结构 句法树库
外部功能
分词词表
88000词条
标注语料库
词性标注
频率信息 生语料库
语料库加工标注规范
语料库软件工具
语料库的主要用途
主要用途
语言文字的信息处理
语言文字规范和标准的制定
语言文字的学术研究
语文教育
语言文字的社会应用
语料来源
1993年以前的语料
以人工录入印刷版本的语料为主
约7000万字
1993~2002年的语料
部分采用人工录入印刷版本语料
约1500万字
部分来源自网络电子文本
约1500万字
2002以后的语料
以网络电子文本为主
约1000万字
语料分类
三个主要类别
人文与社会科学类
包括政法、历史、社会、经济、文学、艺术等类别语言材料
自然科学类
自然科学的语言材料(含农业、工业、医学、电子、工程技
术等),涉及科学技术发展的各个领域。
综合类
应用文
难于归类的语料
人文与社会科学类
人文与社会科学类划分为8个大类和30个小类:
政法:哲学、政治、宗教、法律;
历史:历史、考古、民族;
社会:社会学、心理、语言文字、教育、文艺理论、新闻、
民俗;
经济:工业经济、农业经济、政治经济、财贸经济;
艺术:音乐、美术、舞蹈、戏剧;
文学:小说、散文、传记、报告文学、科幻、口语;
军体:军事、体育;
生活。
人文与社会科学类约占语料总量的50%
自然科学类
自然科学划分为6类:
数理
生化
天文地理
海洋气象
农林
医药卫生
自然科学类约占语料总量的30%,
综合类
综合类语料由应用文和难于归类的其他语料两部分组
成。