8q1t6k

http://keair.bhha.com.cn/com8q1t6k/

在这里插入图片描述

查询字段 et 的值

在这里插入图片描述

导入 spark sql 相关工具包

提取 et 中键 ett , en , kv 的值，放入到array集合中，将整个ArrayType类型的字段重命名为 events

在这里插入图片描述

注： spark中，一个StructType对象，可以有多个StructField,同时也可以用名字（name）来提取,就想当于Map可以用key来提取value，但是他StructType提取的是整条字段的信息
在源码中structType是一个case class,如下：

它是继承Seq的，也就是说Seq的操作，它都拥有，但是从形式上来说，每个元素是用 StructField包住的

语法：(false表示字段可以为空)

使用 explode 函数将 events 展开

字段 events 中原先包含两行数据，即两条日志数据 et 的 ArrayType 类型集合，每个集合中又含有5个元素，使用 explode 将每个集合展开，实现 列转行，这样展开后的每条数据合并之前查询的 id , cm(cm中每一个键已单独展开) , ap ,可以使整张表的 结构扁平化

在这里插入图片描述

分别查询 events 中所包含的三个属性 ett , en , kv，将 events 一分为三，结构更加扁平化

在这里插入图片描述

将 opJsonObj5 中的数据加载到临时表中

查询表数据

ln	sv	os	g	mid	nv	l	vc	hw	ar	uid	t	la	md	vn	ba	sr
相关列表 messengerpc版facebook手机版下载「messengerpc版」 spark日志分析（三）—— 手机行为日志op手机「spark日志分析（三）—— 手机行为日志」手机宽带怎么办理（手机宽带怎么办理注销）文章列表暂无文章推荐文章《原神》怎么就成为了手机性能测试神器？为什么手机「《原神》怎么就成为了手机性能测试神器？」原神手机能带动吗华为手机配置「原神手机能带动吗」苹果手机音量调整大全：关声音、应用静音与物理按键操作攻略苹果手机拍照声音怎么关闭「苹果手机音量调整大全：关声音、应用静音与物理按键操作攻略」 3位射手轰55分+14记三分！火箭替补席深不可测，胜湖人掘金有戏？安卓手游盒子排行榜2024前十名十大好玩的安卓手游盒子排名手机游戏盒子「安卓手游盒子排行榜2024前十名十大好玩的安卓手游盒子排名」 3月消费同比增长5.9%，增速创14个月来最高怎么保养充电宝手机电池保养正确方法「怎么保养充电宝」 oppok11如何关机重启oppo手机怎么关机「oppok11如何关机重启」不一样的4800万小米分拆红米这步棋有点慌乱红米手机哪里有卖「不一样的4800万小米分拆红米这步棋有点慌乱」 MOTO XT681手机如何自定义闹钟提示音摩托罗拉手机铃声「MOTO XT681手机如何自定义闹钟提示音」年度AI性能最强手机，骁龙8至尊版+2K屏，上市两个月突降400元爱酷手机「年度AI性能最强手机，骁龙8至尊版+2K屏，上市两个月突降400元」 vivo电池虚电校正代码是多少手机虚电怎么解决「vivo电池虚电校正代码是多少」书生阅读器手机阅读器「书生阅读器」手机玩游戏时屏幕触控失灵realme手机官网「手机玩游戏时屏幕触控失灵」透视浙系金融“一哥”：三万亿浙商银行的三张面孔联系方式联系人：李女士电话：18701102165		首页 > 文章中心 spark日志分析（三）—— 手机行为日志op手机「spark日志分析（三）—— 手机行为日志」发布时间：2025-01-12 浏览次数：8 返回列表样例分析使用的是两条手机用户产生的日志信息：op.log 内容如下：初步分析可知，日志整体并不是一个 json 的格式文件，每条日志可分为两部分， 1593136280858 \| {json} ，使用 split("\|") 切分，然后对日志主体 json 格式内容分析日志中有部分乱码，但不影响分析，此处不做处理这里推荐一个网站： https://www.json.cn/ 取第一条数据 json 部分主体内容，复制粘贴，可以帮助快速精准的分析 json 的结构内容如下如，可以看到主体 json 格式内容分为三部分： cm , ap , et 再对 cm , ap , et 分别进行展开展开 cm 展开 ap ，只有一个键值对展开 et et 中又包含了5个 json串，每个 json串中有三个键值对： ett , en , kv et 内容如下所示：分析可知 kv 中主体内容长度格式并不一致，这里对 kv 不做进一步展开操作表结构如下图所示： hdfs创建目录 /app/data/，将日志数据 op.log 上传至该目录将数据加载至RDD 切片，提取json格式内容考虑到每一行的初始 id 编号可能也很重要，此处将id编号也作为json格式键值对形式 { " id " : “1593136280858” } 替换插入到json主体内容中注：这里说明一下 replaceFirst() 中匹配替换的内容 replaceFirst(str1, str2) 是将匹配到的第一个字符串 str1 替换成 str2 放到代码中的本意是将中第一个替换为，这样将日志开头的编号作为 id 放入到 json主体内容中，切片时即可保留编号需要说明的是中的反斜杠都是表示转义第一个参数中有两个反斜杠是因为匹配需要一个转义，此时就是，放到字符窜中是这样的，但是 java 语言中真实存在的话也是需要转义符的，这时就需要再加一个反斜杠来转义原先的反斜杠，所以此处有两个反斜杠第二个参数，其中表示的是一个字符串，表示的是一个字符串，用变量 +x._1+ 连接，变量 x._1 是指编号id 1593136280858 将 RDD 转换成 Dataframe 打印 Schema 信息没有指定头信息，默认为value，为string类型，但它的值是json串查看数据 7.获取json主体内容中四个键 id , cm , ap , et 的值使用 get_json_object(column A, A.key) 方法，如果 dataframe 中字段 A 的值为 json串，那么该方法可以获取字段 A 中某一个键 key 的所包含的值继续使用 get_json_object(column A, A.key) 方法，将 cm 展开，获取其中每一个键：ln,sv,os,g,mid… 的值
“-55.0”	“V2.9.6”	“8.0.4”	“C6819QZ0@mail.com”	“489”	“3G”		“es”	4	640*960	“MX”	“489”	“1593123253541”	“5.2”	“sumsung-18”	“1.3.4”	“Sunsung”

管理入口| 返回顶部

声明：康宝晨特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。