网站声明:本网站属于非盈利性资源检索平台,仅供学术研究使用,本网站所有资源内容来自网络,具体资源内容请用户自行斟酌使用,本网站不对内容本身负责,不保证内容的版权合法性,如有侵权请联系我们。
全球华语语料库一共有四个语料库和一个图片库,分别是:华语新闻库、国内历时新闻库、华语文学库、华文教材库和一个华语景观图片库。
其中华语新闻库收录了新加坡、泰国、马来西亚、印度尼西亚、越南、菲律宾、柬埔寨、缅甸、韩国等国家共52种华文报纸70万篇报道,共5亿字。
华语文学库有加拿大、美国、缅甸、马来西亚、泰国、英国、印度尼西亚、新加坡等国中短篇小说、散文、诗歌等各种体裁文学作品2377篇,共1057万字。
华文教材库有中国、菲律宾、柬埔寨、越南、新加坡、泰国、马来西亚、印度尼西亚等国家出版的中小学华文教材近40套,共237万字。
其中国内新闻库收录了国内新闻报纸1946年至2023年报纸200万篇报道,共19亿字。
四个语料库的具体分布情况如下。
四个语料库均有6种检索模式,其中华语新闻库和国内历时新闻库比其他库多了一个历时检索模式。
简单搜索直接搜索查询字词,即可得到搜索结果。
高级搜索有五个通用的检索模式,分别是普通搜索、与或非搜索、词性搜索、通配符搜索、正则搜索。这五种搜索模式都可以限定搜索的地区,其中新闻库还可以限定搜索的时间,文学库可以限定搜索的体裁,教材库可以限定搜索的年级。
在普通搜索模式下,可以选择限定搜索的地区,其中新闻库可以限定搜索的时间
文学库可以限定搜索的体裁
教材库可以限定搜索的年级
与或非搜索模式下有三种检索模式,“与”搜索可以搜索同一句中包含的两段检索字词。
“或”搜索下,两端搜索字词是或者的关系。
“非”搜索下,可以检索出一句话包含指定字词且不包含另外一段字词的结果。
词性搜索可以指定检索词的词性。
可以用通配符和检索字词的结合来进行特定组合的搜索。在通配符中,英文问号“?”代表匹配一个字符,如搜索“政?”可检索到“政府、政治、政策”等词,“*”代表匹配一个或多个字符,如搜索“政*”可检索到“政府、政治家、政务院”等词。
查看更多与通配符相关知识可以访问:通配符详细说明
正则搜索可以检索框中输入正则表达式来完成更复杂的搜索。查看更多与正则表达式相关知识可以访问:正则表达式详细说明
华语新闻库和国内历时新闻库有历时搜索搜索模式,可以查看检索词历年的频次情况
点击“查看更多”可以查看语料的来源,时间,标题以及部分上下文内容。
本语料库检索结果可以直接下载,下载所得的TXT文件会用“{[检索字段]}”将搜索字段标注出来,但是下载数量有所限制,其中华语新闻库和国内历时新闻库一次限制下载10000条语料,华语文学库一次限制下载1000条语料,华文教材库一次限制下载1000条语料。想获取更多语料请通过“语言科技”微信公众号联系我们。
华语景观图片库收录了哥伦比亚、菲律宾、柬埔寨、越南、新加坡、泰国、马来西亚、印度尼西亚、缅甸、巴西、俄罗斯、韩国、美国、毛里求斯、秘鲁、乌兹别克斯坦、约旦等国家的华语景观图片7444张,这些图片直观地展现了海外华人的生活状况和华语的使用情况