商务服务
如何优雅地使用大型词嵌入?
2024-11-09 19:42

如何优雅地使用大型词嵌入?


在开始之前,请下载文档。 百度网盘链接(337.97MB:https://pan.baidu.com/s/1WZEGJeHBzmqs_tVFV-zBBA 提取码:8dqm


低内存机器 这里指的是内存小于32GB的计算机。

大型词嵌入 这里指的是词嵌入文件大于15G的词嵌入文件。

腾讯词嵌入 这里指的是腾讯发布的 ,其下载地址为(解压后:15.5GB:https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz,其下载页面为:https://ai.tencent.com/ailab/nlp/embedding.html


  本文解决了大型词嵌入在低性能、低内存机器上的资源耗尽的问题ResourceExhaustedError)。

  以腾讯词嵌入为例,腾讯中文的词向量映射集在解压后有15.5G,共计有8,824,330条字词短语,内存较小的计算机显然不能直接加载,故为满足小内存、低性能的计算机的需要,特建立对词嵌入的映射关系文件,映射后只有313MB,满足了此类计算机的需求。


  这里是典型的以时间换空间的方式解决在使用腾讯词嵌入的时候内存资源耗尽的问题。在词嵌入与程序之间建立一个中间的映射文件,程序通过映射文件读取词嵌入的内容,映射文件格式如下

  程序通过词汇可以访问到对应的文件指针的起始位置以及读取长度,然后程序就可以直接访问磁盘中的对应的数据了。


1. 安装linecache

 

2. 创建文件夹

  创建名字叫做“utils”的文件夹,里面放入“ShowProcess .py”,这个可以在文章末尾复制代码,可以直接从文中的百度网盘链接中下载。

  创建名字叫做“embeddings”的文件夹,里面放入解压好了的“Tencent_AILab_ChineseEmbedding.txt”文件,以及“ReadEmbeddings .py”,映射文件“embeddings_map_index.txt”也将在这里生成。

  目录结构如图

2. 加载模块

 

3. (可选)关键参数设置

   指定词嵌入文件位置(默认使用腾讯词嵌入)。

 

   指定词嵌入词条数量(默认使用腾讯词嵌入的词条数量)。

 

  如果有需要指定生成的映射文件的位置,可以在这里指定。

 

4. (首次使用)创建映射文件

  这个过程需要一个小时左右,可以选择自己生成,也可以选择博主生成好了的文件。

 

5. 加载词嵌入映射文件

  生成完之后就可将映射文件加载进内存了,你可自行查看映射列表的内容。

 

6. 单个查询

  这里有提供单个词组查询的功能

 

7. 批量查询

  这里有提供批量查询的功能

 

8. 释放内存

  当不再需要映射文件时,立即释放内存。

 

指定编码

  在初始化的时候就可指定全局编码,在读取词嵌入以及创建映射文件的时候可以使用统一的编码。

 

启用日志

  单独查询与批量查询都具备写入日志的功能(仅记录查询失败日志)。

 

启用元素删除功能

  元素删除功能在每个词汇仅查询一次的条件下才能启用,此功能在需要查询的词汇量特别大的时候会显著提升查询效率,有效减少查询时间,举个栗子

 

  由于Python的特性,此功能会影响到外部变量,受影响的外部变量

 

ShowProcess . py

 

ReadEmbeddings . py

    以上就是本篇文章【如何优雅地使用大型词嵌入?】的全部内容了,欢迎阅览 ! 文章地址:http://keair.bhha.com.cn/news/364.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多   
最新文章
首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理
编辑:LRST【新智元导读】研究人员首次系统综述了大型语言模型(LLM)在法律领域的应用,提出创新的双重视角分类法,融合法律推
万亿产业即将起飞!国版星链能否赶超?| 产业链
最近有些消息,说下半年低轨卫星的发射即将加速。不管是政策层面还是资金层面,都有一些向好的变化。今天盘面上,西侧测试作为制
“布鞋首富”的身后事:娃哈哈案背后的法律暗礁与人性博弈
每一份看似固若金汤的财富版图,都可能因为一份被忽略的文件、一个被遗忘的名字,而在一夜之间分崩离析。这不是危言耸听,而是正
《恋人》要来了?集数从24集变更成14集,这部剧能播就是奇迹
娱乐圈又地震了!近日,赵露思突然现身微博喊话银河酷娱,与公司正面开撕。随后,关于她解约赔偿、被公司压榨、背刺等一系列消息
专为星粉打造 三星Galaxy Buds3 FE将高品质音频体验普惠更多消费者
2025年8月18日,三星电子宣布推出新款智能耳机三星GalaxyBuds3 FE,成为三星GalaxyBuds系列新成员。新品致力于以亲民价格提供高
女子买八元的蜜雪冰城喝出异物,老板:刚开始说喝出来一个籽,到工商局就说是老鼠屎
蜜雪冰城杭州拱墅区舟山东路59号店 老板:她也说她出车时间比较长,再一个她也是她们团队里收入最高的,这个东西确实也说过。但
腾讯云数据库AI服务首家通过信通院权威认证,用智能体打造数据库自治运维
Agent 正在深入企业核心场景,加速推动智能化运营。近日,中国信息通信研究院(信通院)公布了上半年“可信数据库”评估结果。腾
2025必看!3个高端普洱茶牌子解析指南,避坑省钱秘籍大!
遇到买错高端普洱茶?90%的人都做错了,
PayPal即将推出“加密支付”功能,支持商家接受100多种加密货币
财联社7月28日讯(编辑 牛占林)金融科技巨头将在不久后推出一项新的支付功能,允许商家在结账时接受超过一百种加密货币。美股周
锋线强援来了!特劳雷加盟北京女足
7月25日晚,北京京坛足球俱乐部在官方微信公众号宣布,马里前锋萨拉图·特劳雷加盟北京京坛东方雨虹女足。特劳雷出生于2002年9月