目前可利用的语料资源有:
(1)汉语口语语料主要来自如下5部分:
① 北京话独白体口语语料,131970字,来自20世纪80年代初北京大学中文系林焘教授主持的北京话调查;
② 北京语言大学语言研究所北京口语语料库,约184万字;
③ Call Friends电话录音转写语料,386685字,电话交谈双方都是母语为汉语的中国人,每段电话录音10~20分钟不等;
④ 口语对话,来自电视剧《我爱我家》台词,585291字;
⑤ 笔者转写的寝室同学谈话音像材料,35分钟左右,约12000字 。
(2)汉语书面语语料主要来自如下3部分:
① 英国兰卡斯特大学汉语语料库(The Lancaster Corpus of Mandarin Chinese),共约100万词;
② 美国加州大学洛杉矶分校汉语书面语语料库(The UCLA Corpus of Written Chinese),共约100万词;
③ 北京大学中国语言学研究中心的CCL现代汉语语料库。