商务服务
英汉单词词汇数据库MYSQL版和CSV版.rar
2024-11-09 19:42
# ECDICT

英汉单词词汇数据库MYSQL版和CSV版.rar

Free English to Chinese Dictionary Database. ## 简介 这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录 20万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。 最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。 其后数年根据各种资料和网友贡献词库增长到10万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict的主词库也是根据 cdict转换得到),并按照英国国家语料库的前16万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。 ## 选词 很多网上词典(如简明英汉词典,朗道词典)号称收词量大(40万),但是很多是些专业名词,光医学名词和化学名词就接近20万,这些平时用的并不多。 而平时用的很多的,如中考高考到 GRE的一万五千核心词汇,他们居然能缺少两千左右。对比英国国家语料库(BNC)的词频数据,前十万高频词汇缺少一万二多;同时对比美国当代语料库前六万高频词汇,任然缺少一万多。 国内词库制作之不严谨,由此可见一斑,大家常用的40万词条朗道字典(GoldenDict / StarDict配套的那个),居然没有收录 “learn” 这个单词,搞笑吧?我不知道是 bug还是什么。号称收词量最大的简明英汉词典,居然没有 “longtime”,当然他有词组“long time”,但是近年来 longtime已经链接为一个词了,并且词频很高。词频上升比较快的还有 Taliban ,这些他们都没收收录。 包括不限于国内某些著名的商业词典,很多号称收词量多,但是他们把词给收偏了,所以我们需要更科学的根据各类考试大纲和语料库对选词进行矫正。 避免搞什么大而全的 40万词条,OALD和朗文等也才8万左右的收词量,不要那几十万乱七八糟的来自医学化学电力机械化工等专业的词条,保持 20万左右的收词量足够。从最初的中高考各类考试大纲开始,到各种语料库和词频库,选择真正重要的 20万词,选词工作参考如下资料: | 语料库 | 解释 | |--------|------| | 考试大纲 | 中考大纲,高考大纲,四六级大纲,托福雅思GRE大纲,等,必须覆盖到位 | | BNC 词频数据 | 英国国家语料库(British National Corpus)是目前世界上最具代表性的当代英语语料库之一。该语料库书面语与口语并重,其光盘版词次超过一亿,其中书面语语料库9千余万词,口语语料库1千余万词。 | | Oxford 3K | 《牛津3000词》是“由语言专家和经验丰富的教师根据词频和词意覆盖范围精心挑选的3000词,由于他们的重要性和有用性,被认为是应该最先学习的 | | 华尔街日报 | 根据近20年华尔街日报语库整理而成的杂志类词频顺序表进行选词 | | 柯林斯星级 | 柯林斯从语料库中将单词在日常生活中的使用频率统计出来,按照频率的高低将单词分级,五星的就是日常生活中最常用的,依次类推。| | 美国当代语料库 | 前面的 BNC语料库主要收录了近几百年的英文单词,而当代语料库主要收录近20年的电影电视,报刊,谈话记录,文献,小说 等 | | Urban Dictionary | 俚语俗语等词汇 | ## 双解释义 当然要双解,诸如 WordNet,wiktionary.org 等提供了大量开放的释义资料。同时针对各类考试大纲词汇,网上有不少带释义的单词表供人下载,这些数据有的有错误,有的格式不统一,有的缺音标,有的缺英文释义,有的却中文释义,质量层次补齐,需要书写必要的代码来一次次整理统计,纠正和补全。 索性类似 WordNet 之类的开放语料库提供了针对 Python 的自然语言处理工具包,可以 pip下载下来,直接分析词汇和定义,还有词形变化,反义词近义词等。 释义参考了大量资料,包括不限于: | 名称 | 解释 | |------|------| | 各类资料 | 各类网上开源资料,小的有 EDictAZ.txt ,大的有 cdict-1.0-1.rpm 等 | | 考试大纲 | 网上各种带释义的考试大纲词表 | | WordNet | 普林斯顿自然语言处理资料库和工具包 | | Wiktionary | 多种语言的释义维基百科资料,由各国用户贡献的各类词条 | | Wikepedia | 维基百科收录了大量词条解释 | | CEDIT | 中文到英文的开放词典数据库,根据中文到英文的释义,反解出英文到中文的释义 | | TheFreeDictionary.com | 多语言开放词典 | | Google | Google Cloud Translation | | foldoc.org | Free online Dictionary Of Computing | | linguee.com | 数亿词条解释 | | Babylon | 各类词条数据来源聚合 | | Urban Dictionary | 俚语俗语释义 | 大量资料需要整合编辑校对,幸好有各种自然语言处理的开发包,可以用来做这件事情,制定评分标准,一个词语多个出处,选择最恰但准确的,核心词汇进行人工校对,部分不全的词条使用英翻中来解决。 ## 单词标注 给数据库中每个单词标注:是否是各类考试大纲词汇?以及他们在 BNC和其他语料库里的词频顺序。BNC词频统计的是最近几百年的历史各类英文资料,而当代语料库只统计了最近20年的,为什么两者都要提供呢? 很简单,quay(码头)这个词在当代语料库里拍两万以外,你可能觉得是个没必要掌握的生僻词,而BNC里面却排在第 8906名,基本算是一个高频词,为啥呢?可以想象过去航海还是一个重要的交通工具,所以以往的各类文字资料对这个词提的比较多,你要看懂19世纪即以前的各类名著,你会发现BNC的词频很管用。 而你要阅读各类现代杂志,当代语料库的作用就体现出来了,比如 Taliban(塔利班),在 BNC词频里基本就没收录(没进前 20万词汇),而在当代语料库里,它已经冒到 6089 号了,高频中的高频。 BNC较为全面和传统,针对性学习能帮助你阅读各类国外帝王将相的文学名著,当代语料库较为现代,和实事以和科技紧密相关。所以两者搭配,干活不累。 经过标注后,你查任何一个单词,都会告诉你这个词汇是不是四六级词汇?雅思词汇?柯林斯星级是多少?是否是牛津3000核心词汇?传统词频和现代词频各是多少?这样单词的重要程度你就能了解个大概了。 ## 数据格式 采用 CSV文件存储所有词条数据,用 UTF-8进行编码,用 Excel的话,别直接打开,否则编码是错的。在 Excel里选择数据,来自文本,然后设定逗号分割,UTF-8编码即可。 | 字段 | 解释 | |------|------| | word | 单词名称 | | phonetic | 音标,以英语英标为主,好听嘛 | | definition | 单词释义(英文) | | translation | 单词释义(中文)| | pos | 词语位置,(待添加)| | collins | 柯林斯星级 | | oxford | 是否是牛津三千核心词汇 | | tag | 字符串标签:zk/中考,gk/高考,cet4/四级 等等标签,空格分割 | | bnc | 英国国家语料库词频顺序 | | frq | 当代语料库词频顺序 | | tense | 时态(ed, ing等)待添加 | | plural | 复数形式 | | detail | json 扩展信息 | | audio | 读音音频 url (待添加)| | audio_uk | 英语发音 | | audio_us | 美语发音 |
    以上就是本篇文章【英汉单词词汇数据库MYSQL版和CSV版.rar】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/373.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
5款文案自动生成器,高质量创意文案一键为你生成
  在当今竞争激烈的内容创作领域,每一个字、每一句话都承载着巨大的价值。对于创作者而言,文案自动生成器的出现
SEO搜索引擎优化怎么做?全面指南让你快速上手!
在当今的数字化时代,SEO(搜索引擎优化)已经成为企业和个人提升在线存在感和吸引目标用户的关键手段。无论你是初学者还是有经
Apple 苹果 iPhone 13系列 A2634 5G手机 256GB 绿色
iPhone 13 边缘采用平坦设计、配备独家超瓷晶面板,支持 IP68 抗水性能,拥有绿色、粉色、蓝色、午夜色、星光色和红色可选择。屏
【A6搜狗手机输入法下载】海尔A6搜狗手机输入法12.1.1免费下载
搜狗输入法,拥有超大中文词库,输入更加精准,智能。搜狗智能旺仔带你用表达,斗图,妙语,输入更加有趣。******特色功能******
制氧机十大品牌排行榜:吸氧机技术排名TOP 3
制氧机是一种重要的医疗设备,用于治疗呼吸系统疾病。随着科技的不断发展,市场上出现了众多品牌的制氧机,伴随着人们对健康的重
【瑕疵检测】基于matlab GUI OTSU织物疵点检测【含Matlab源码 860期】
⛳️座右铭:行百里者,半于九十。 更多Matlab图像处理仿真内容点击👇 ①Matlab图像处理(进阶版ÿ
微信公众号文章信息(阅读量、在看、点赞数)获取
  实现这一个功能主要用到了selenium、mitmproxy和wechatarticles,利用selenium可以实现脚本模拟浏览器访问,mit
上海九院口腔科怎么样?医生排名名单、技术特长介绍、真人种牙术后评价~
此价格信息为当地市场参考价,通过用户反馈大数据整理仅供参考!机构实际价格以到院面诊为准!
'智能AI文章生成器:海外脚本与一键创作工具'
在数字化时代的浪潮中人工智能技术正以前所未有的速度改变着咱们的工作和生活途径。智能文章生成器的出现无疑为内容创作者们打开
微信推文重复率
论文免费查重庞大的数据库支持,论文免费查重拥有全球最大的比对库资源。其比对库拥有超过1亿篇的学术期刊和学位论文、1000多家的
相关文章