hive大数据关联查询数据丢失的情况

hive数据量大查询的时候数据丢失image.pngimage.pngimage.png如图3  这种修改参数是在哪里修改?第一个图是在源数据库查询数据 里面的表有的数据9000W+ 最终关联出150多万条数据,但是第二个图是hive里面就得到几百条数据。我用的是hive3.1.3说是修改几个参数。但是有找到好多相关的文档实在不知道在哪里修改。请问有遇到相同问题的大神吗?

SQL 重庆一棵草 发布于 2023-8-22 15:12 (编辑于 2023-8-22 15:44)
1min目标场景问卷 立即参与
回答问题
悬赏:20 F币 + 添加悬赏
提示:增加悬赏、完善问题、追问等操作,可使您的问题被置顶,并向所有关注者发送通知
共2回答
最佳回答
0
祈LLv6中级互助
发布于2023-8-22 17:02

别在where里写join的关联条件,你这习惯不好,很容易出问题,可以写多个left join,join完之后直接 on xxx=xxx,特别是高版本的hive,没那么高的容错

  • 重庆一棵草 重庆一棵草(提问者) 没在where条件里面写。因为原来的oracle里面写了一个a.字段=b.字段(+) 这样一个写法,我在hive里面就将这2个表用lieft关联了一下。 只是数据现在无论怎么结果值交互 都很少
    2023-08-22 17:12 
  • 祈L 祈L 回复 重庆一棵草(提问者) https://blog.csdn.net/weixin_44203240/article/details/128094026 好像确实是有这样的问题,这个方法应该是无敌的,但是就是太烦,你参考着看吧
    2023-08-22 17:17 
  • 重庆一棵草 重庆一棵草(提问者) 回复 祈L 哎 我也看到了这个 但是里面这个代码明显有问题。编译不出来。
    2023-08-22 17:22 
最佳回答
0
Z4u3z1Lv6专家互助
发布于2023-8-22 15:17(编辑于 2023-8-22 15:22)

https://bbs.fanruan.com/wenda/question/125364.html 这样的?

image.png

--------------

另外where后面这些连接关系应该写在 join后面。和上面的on一样

image.png

  • 重庆一棵草 重庆一棵草(提问者) 我这里的left join是2个表关联形成的一个新的表。 因为oracle哪里用的是+
    2023-08-22 15:34 
  • 重庆一棵草 重庆一棵草(提问者) 不是这样的。我是单独搭建的一套hadoop+hive3.1.2+sqoop+ds大数据平台.遇到数据量大的时候数据转换就数据减少了很多
    2023-08-22 15:35 
  • 2关注人数
  • 239浏览人数
  • 最后回答于:2023-8-22 17:02
    请选择关闭问题的原因
    确定 取消
    返回顶部