【实验记录与总结】名称+数量+地理位置实体提取
发布日期:2021-06-29 02:15:45
浏览次数:2
分类:技术文章
本文共 1434 字,大约阅读时间需要 4 分钟。
注
- 模型:出于对所用数据的考虑,本实体关系提取实验未使用联合抽取模型,而是分别开展实体提取与关系提取部分。实体提取部分,使用Albert+
BiLSTM+CRF模型。 - 数据:信息丰富的多源文本数据(主要为亚洲象监测员发布的朋友圈 + 少量新闻/微博数据)
数据准备
数据标注
- 抽取数据以标注:在WPS-Excel中,每隔3行抽取一条数据,用于标注,使用以下语句实现:
=IF(MOD(ROW()-2,3)=0,A3,"")
- “BIO”数据标注:将数据化为每字一行(Excel而非WPS:两端对齐,填充),手动标注。注意单字后的标点符号,可以使用“分列”功能快速删除。
训练/测试/验证标注数据划分
- 按照6:2:2比例,将标注数据划分为训练集、测试集与验证集。
训练/测试/验证标注数据放至相应文件
- 即训练数据放入.train,测试数据放入.test,验证数据放入.dev
- 注意:① 各条数据之间需一个换行符,对应下下述代码:
for c in l.split('\n'):
- ②数据最后应有两个换行符,对应下述代码:
for l in f.split('\n\n'):
模型构建、训练与评估
- 详见本博客相关博文及GitHub()
模型应用
- 关键代码如下:
model.load_weights('…….weights')#NER = NamedEntityRecognizer(trans=K.eval(CRF.trans), starts=[0], ends=[0])r = open("……result.txt", 'w')with open("……all data.txt", 'r', encoding='utf-8') as tt: content = tt.readlines()for line in content: ner = NER.recognize(line) print(ner, file=r)
程序报错及解决
编码问题:'gbk' codec can't encode character '\u3cd5' in position 34: illegal multibyte sequence
###模型应用时,调用以下程序:model.load_weights('D:\Asian elephant\毕业\地理位置提取\代码\gao A_geography_NER\A_geography_NER\\last_model.weights')r = open("…….txt", 'w',encoding='utf-8')with open("…….txt", 'r') as tt: ###症结所在 content = tt.readlines()for line in content: ner = NER.recognize(line) print(ner, file=r)
- 解决:打开文件的同时,设置编码方式: encoding='utf-8'
- 参考:
值错误:ValueError: not enough values to unpack (expected 2, got 1)
char, this_flag = c.split(' ') #以空格分隔,char为前面汉字,this_flag为后面标注字母
- 可能的原因:各条数据之间应为一个换行符,但误写为一个空格。
转载地址:https://blog.csdn.net/YWP_2016/article/details/115365647 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
网站不错 人气很旺了 加油
[***.192.178.218]2024年04月09日 20时59分42秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
23行python代码爬取知乎全部回答
2019-04-29
Python 使用 PyQt5 开发的关机小工具分享
2019-04-29
Python 提取音乐频谱并可视化
2019-04-29
使用 Python 为女神挑选口红
2019-04-29
微信群总是有人发广告?看我用Python写一个自动化机器人消灭他!
2019-04-29
10 行 Python 代码自动清理电脑内重复文件,解放双手!
2019-04-29
我用几行 Python 自动化脚本完美解决掉了小姐姐的微信焦虑感
2019-04-29
python爬取双色球网站中奖纪录,我也想中奖
2019-04-29
python爬取花木兰豆瓣影评,并进行词云分析
2019-04-29
python爬取英雄联盟官网所有英雄皮肤数据
2019-04-29
python爬取堆糖网每日精选图片
2019-04-29
Python爬取高质量电脑壁纸,还是很好看的
2019-04-29
python 爬虫 黑科技
2019-04-29
Python 一键制作微信好友图片墙
2019-04-29
Pipenv – 超好用的 Python 包管理工具
2019-04-29
可能是最全面的 python 字符串拼接总结
2019-04-29
利用Python爬取微博数据生成词云图片实例代码
2019-04-29
对Python3 解析html的几种操作方式小结
2019-04-29
Python基于opencv调用摄像头获取个人图片的实现方法
2019-04-29
Opencv+Python实现图像运动模糊和高斯模糊的示例
2019-04-29