最近在使用hive时,需要将hive查询的数据导出到本地文件系统,HQL语法如下:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1 查询结果导出到本地文件后,试图使用excel加载时遇上了麻烦:不知道hive导出文件时使用的分隔符, 使用文本编辑器打开也显示乱码。 最后在官方文档上找了半天才发现,hive使用 ^A 符号作为域的分隔符,原文如下: Data written to the filesystem is serialized as text with columns separated by ^A
在python中可以使用line.split('\x01')来进行切分
如果确实需要将查询结果导出到本地文件,最好使用hive的命令:
- bin/hive -e "select * from test" >> res.csv
- 或者是:
- bin/hive -f sql.q >> res.csv
-
其中文件sql.q写入你想要执行的查询语句