全球华语语料库
summer
网址:huayu.languagetech.cn
背景与意义
在全球华语大发展、大融合的背景下,建设全球华语语料库具有重要的意义和必要性。全球华语语料库将与国内汉语语料库共同构建一个全球汉语的语料库一体化系统,广泛收集各国或地区的汉语变体语料,提供全面的数据支持。现有的华语语料库大多是区域性的,缺乏全球视角,全球华语语料库将弥补这一空缺,成为汉语研究的新突破和汉语国际教育、传播的重要支撑。通过该语料库,我们可以进行华文教材的本土化和国别化研究,保护中华民族语言文化遗产。全球华语语料库包括文本语料、口语有声数据和语言生活场景的音视频资源,为语言学、文化学、人类学和传播学等领域的研究提供重要的数据参考。
语料库简介
全球华语语料库一共有四个语料库和一个图片库,分别是:华语新闻库、国内历时新闻库、华语文学库、华文教材库和一个华语景观图片库。
界面介绍
Hot News
欢迎来到全球华语语料库(GCC)主页,这是一个专为全球华语学习者、研究者和教育工作者打造的综合性语言资源平台。
主页概览:
LOGO与名称:页面顶部显示了全球华语语料库的LOGO和名称“GCC(Global Chinese Corpus)”,突显了平台的全球化视野。
导航栏:页面右上角提供了“工具”、“资源”、“帮助”等导航选项,方便用户快速访问不同功能。
分类标签:主页中部设有分类标签,用户可以根据需求选择“华语新闻”、“华语文学”、“华文教材”、“华语景观”、“国内历史新闻”等不同类别的语料。
搜索功能:主页中心设有搜索框,用户可以通过输入关键词进行检索。还提供了“高级搜索”选项,支持更精细的检索。
功能亮点:
多样化语料:涵盖海外华语的新闻、文学、教材、景观等多种类别,满足用户不同的研究和学习需求。
高级搜索:提供高级搜索功能,支持用户根据关键词、类别等条件进行精准检索,提高了检索效率。
丰富资源:平台集成了多种华语资源,不仅有文本语料和图片,还将有音视频资源,全面展示华语的多样性和丰富性。
语料分布情况
Hot News
检索功能
Hot News
高级搜索有五个通用的检索模式,分别是普通搜索、与或非搜索、词性搜索、通配符搜索、正则搜索。这五种搜索模式都可以限定搜索的地区,其中新闻库还可以限定搜索的时间,文学库可以限定搜索的体裁,教材库可以限定搜索的年级。
与或非搜索模式下有三种检索模式,“与”搜索可以搜索同一句中包含的两段检索字词。
“或”搜索下,两端搜索字词是或者的关系。
“非”搜索下,可以检索出一句话包含指定字词且不包含另外一段字词的结果。
词性搜索可以指定检索词的词性。
可以用通配符和检索字词的结合来进行特定组合的搜索。在通配符中,英文问号“?”代表匹配一个字符,如搜索“政?”可检索到“政府、政治、政策”等词,“*”代表匹配一个或多个字符,如搜索“政*”可检索到“政府、政治家、政务院”等词。(查看更多与通配符相关知识可以访问:通配符详细说明)
华语新闻库和国内历时新闻库有历时搜索搜索模式,可以查看检索词历年的频次情况
查看更多
Hot News
语料下载
Hot News
本语料库检索结果可以直接下载,下载所得的TXT文件会用“{[检索字段]}”将搜索字段标注出来,但是下载数量有所限制,其中华语新闻库和国内历时新闻库一次限制下载10000条语料,华语文学库一次限制下载1000条语料,华文教材库一次限制下载1000条语料。想获取更多语料请通过“语言科技”微信公众号联系我们。
华语景观图片库
Hot News