写文章时遇到不知道英语单词是否地道该怎么办?这个时候我们可以搬出语料库这个救兵。
语料库就是把平常说话的句子以及一些文学作品、报刊杂志和学术文章上出现过的语句段落等等语言材料整理在一起,形成一个集合,以便做科学研究的时候能够从中取材或者得到数据佐证。
当我们在写文章用词搭配时,就可以通过在语料库中搜索来查看这个词出现的频率及用法搭配等等。
美国当代英语语料库(The Corpus of Contemporary American English)简称COCA,没错,就是这个和可口可乐(CoCa Cola)有着同样简称的网站,是目前最大的免费英语语料库。
它也是第一个大型的语料平衡的美国英语语料库,包含超过5.6 亿字的文本(1990 – 2017 年每年 2000 万字),文本分为口语、小说、流行杂志、报纸以及学术文章五种不同的文体,几种文体平均分布。
除此之外,COCA 的时效性强,更新速度快。可以说最全面最地道的英语语料在这里都可以找到。
那我们可以用 COCA 来做什么呢?
可以来确定单词的使用语境;
比较近义词的区别;
寻找合适的用词搭配以及确认自己的表达是否地道;
……
为了方便使用,可以先用邮箱进行注册,语料库的使用和注册都是免费的。
注:如果不进行注册直接使用会有查询次数限制。
COCA 语料库主页的显示方式区分为:
List:列表显示。
Chart:图表显示,可以显示在各种语料库类型中的使用频率和各时间段内的使用情况。
Collocates:查看搜索的单词附近出现的单词,从而深入了解其含义和用法。
Compare:单词比较,比较两个不同的词或短语的搭配使用情况。
KWIC:Key Word in Contaext,上下文关键词显示。
一、List
首先我们选择 List 列表显示,输入搜索词,可以在后面的 POS 中选择自己想要搭配的词性。下方点击 Sections 可以选择子语料库,分类非常详细,可以通过语体和年份进行检索。
这也是 COCA 的一大特点,将语料库中的文本分成不同的语体,我们可以借此来比较不同语体中搜索词的出现频率等。不仅可以检索单词,还有短语、单词的其他形式以及利用通配符来查询复杂的字词等。
比如我们以「degradation」为例,可以比较人文类学术文章(ACAD:Humanities)和科技学术文章(ACAD:Sci/Tech)的差异。
搜索结果中:
TOKENS 1 指的是检索词在第一部分语体(人文类学术文章)中的出现频次;
TOKENS 2 指的是检索词在第二部分语体(科技类学术文章)中的出现频次;
PM 1 和 PM 2 则分别指两个语体中百万次词频;
RATION 是指二者的比值。
比如「degradation」这个搜索词在科技学术文章中比人文类学术文章中使用明显多很多。当对一些词是否适合出现在学术论文中时,也可以选择其他子语料库与学术文章语料库进行比较。
比如你想查找一种表述是否地道,也可以通过查看频率来进行分析。
中国人在日常的英语表述时经常有一些中式英语表述,比如当你请客吃饭时想要表达「钱不是问题」,有些人会表述成「Money is no problem」,那这个表达到底是否地道呢?
搜索一下发现在每百万单词中「Money is no problem」的使用频率为 2,这个频率非常低,说明这个说法并不是很地道;而搜索「Money is no object」,发现使用频率为 51,就可以放心使用啦~
当你想要寻找一种替换搭配时,语料库也提供了非常方便的搜索。
比如你想表达「轻微的笑容」除了「small smile」还有没有其他地道的搭配,便可以输入指令[=small] smile,便可以匹配到 small 的近义词与 smile 的搭配情况,从中选出你更钟意的搭配。
同样的检索方法也可以用来检索近义词。
二、Chart
Chart 图表显示主要可以显示搜索词在各种语料库类型中的使用频率和各时间段内的使用情况。输入搜索词后结果会以柱状图的形式展示出来。
三、Collocates
这是更新版本后新加入的一个展示区,Collocates 显示可以查看搜索的单词附近出现的单词,从而深入了解其含义和用法。搜索时可以设置相邻词的位置和距离,也可以限定词性和语体。
结果会显示与搜索词相关的在不同的语体中最常用的一些搭配。
四、Compare
COCA 还可以对比两个近义词的用法,当你拿捏不准两个近义词的用法时,可以选择查询。除了比较单词之外也可以比较词组,不过要求单词的数目要是一样的。
比如此处我查询「cure」和「treat」常用的搭配,输入两个搜索词,下面也可以选择限定条件和词库。
结果显示,与 cure 经常搭配(对比 treat 不常搭配的)的词语有 rate/rates/achieved/laude等,而 treat 经常搭配的有 differently/number/wastewater/fairly 等。
当有一些搭配在其中一个里面出现频率很高,在另外一个里面出现为 0 次时,就有可能是一个固定搭配,这种搭配在使用时就要注意不要用错了。
五、KWIC
进行搜索词上下关键词的查找,输入搜索词,可以对关键词的位置和长度进行限制。
结果例句显示会将你的根据搜索词检索的关键词用不同的高光颜色显示出来,不同的颜色表示不同的词性。
还有一些常用的小技巧,输入通配符还可以检索不明确的词语,比如:
「?」代表一个字母;
「*」代表任意数量的字母。
如果想要搜索一个单词的所有形式,可以在单词外加 [ ] 进行搜索,那么这个单词的单复数形式以及时态形式都可以搜到。
COCA 语料库界面十分简单,但功能却十分丰富,还有很多英语学习者将语料库根据词频整理成词典进行单词记忆,都是很好的选择。
今天介绍的只是冰山一角,语料库还有很多功能值得大家去探索,希望大家用的开心,让 COCA 成为英语学习的好伴侣~
COCA 语料库的访问网址:
https://www.english-corpora.org/coca/
封面来源:站酷海洛 Plus