英語の話
COCA(Corpus of Contemporary American English)が公開されているサイト、English-Corpora.orgで面白いツールを見つけた。
左上のテキストボックスに英文を入力すると、その文を構成する各語について、意味・COCA上の出現頻度・類語・コロケーションなどが調べられるというもの。
研究目的のツールっぽいが、英語学習者も自分で書いた英文の添削に使ったりはできるだろう。
なお、COCAは無料で利用できるものの中では最大規模(6億語くらい?)のコーパス。フィクション小説から学術論文まで様々なジャンルのアメリカ英語が集められている。
Word Frequencyは "COCA Word Frequency Ranking" に基づいており、"FREQ RANGE" のところに「1-500位の語がn%」「同501-3000位の語がn%」「同3001位以下の語がn%」という形で表される。
試みにWikipediaのランダム表示で飛んだページをいくつか読み込ませてみた。
Anemone parviflora - Wikipedia
説明文 147語
1~500位が55%、501~3000位が17%、3001位以下が26%、その他(2%)
History 212語
1~500位が62%、501~3000位が20%、3001位以下が11%、その他(7%)
説明文 367語
1~500位が64%、501~3000位が19%、3001位以下が15%、その他(2%)
*COCAに登録されていない単語は「その他」扱いになる模様。
軽く調べてみた限りでは、どの文章もCOCA3000位以内の語が80%前後を占めていた。
Wikipediaは読みやすい英語で書かれているものかと思い、今度はなんとなく難しそうな文章を読み込ませてみた。
https://planetpdf.com/planetpdf/pdfs/free_ebooks/War_and_Peace_NT.pdf
1~500位が62%、501~3000位が10%、3001位以下が12%、その他(16%)
コテコテの文学作品であっても、なんと72%はCOCA上位3000位の語で構成されていた。
もっと言えば、除外された16%はCOCA未登録の固有名詞...読みながら知っていく地名や登場人物の名前が主。
ということは、とりあえずCOCA3000位の語だけ覚えていれば、実はこんな小説も(単語的には)なんら苦戦せず90%読めるのである。
COCA Word Frequency RankingはEnglish-Corpora.orgで無料公開されている。(会員登録は必要)
栄えあるランキング1位は "the"。2位は "be"、3位は "and"。品詞情報付きで5000位まで見れる。
品詞ごとにソートすると、区分それぞれ以下のような割合だった。
1~500位
名詞/n 29%
動詞/v 23%
副詞/r 13%
形容詞/j 9%
前置詞/i 7%
その他
501~3000位
名詞/n 53%
動詞/v 20%
形容詞/j 17%
副詞/r 6%
前置詞/i 2%
その他
1~3000位
名詞/n 49%
動詞/v 21%
形容詞/j 16%
副詞/r 8%
前置詞/i 3%
その他
500位以内とそれ以下で、副詞と形容詞の割合が逆転しているのが興味深い。単なる母数の違いだろうか。
そんなこんなで「手っ取り早く英語を読めるようになりたい!」という人は、英文法・イディオムに加えてCOCA上位3000語を覚えると良いヌゥ。