导航菜单

分享:大数据不是你想的那样

Qianfeng JAVA Development Institute我想分享2天前

image.php?url=0MqJfrny8c

学生党和许多其他没有设计大数据开发的小伙伴对大数据领域非常好奇。这很神秘。我今天必须为你戳戳。

是的,我们还为大数据编写普通的Java代码并编写普通的SQL。

例如,Spark程序的Java API版本与Java 8 Stream API相同。

再举一个例子,删除一个Hive表。

DROP TABLE戳;

2.是的,Hadoop,Spark和Hive的启动和机器操作和维护与普通的Java应用程序和数据库没有什么不同。

比如启动hdfs

Bash

如起毛纱

Bash

如启动hive

Bash

完成后,是否有一个神秘的东西没有为所有系统配备一堆配置?

对不起,没有名为数据仓库的技术。

数据仓库是在一定范围内聚合所有清理和统一数据存储和分析的地方。没有称为数据仓库的技术。

在实战中,我们通常使用Hive作为数据仓库的载体。对于没有大数据基础设施的公司,我们也使用各种传统的数据库作为数据仓库的载体,所以不要说学习数据仓库好吗?学习Hive意味着学习Hive,学习数据治理意味着学习数据治理。

4。是的,我们的大数据是写SQL,但是大脑回路和你的不同

你写SQL优先级函数,我们先写SQL来考虑这个他妈的是否会用完。

您可以随时调整编写SQL的音调。在调整SQL之前,我们必须编写很长一段时间。即使机器在运转,我们也必须清楚地思考。

你写SQL根不管数据分布如何,我们写SQL的第一件事就是他妈的不倾斜数据?

您可以直接用SQL来写,我们需要先写个SQL来做数据清理,然后再写SQL。

是的,10倍,100倍,100万倍的数据增长,我们需要改变程序,改变和改变。

您的SQL可以运行10次。在100万次的情况下,你可能要付出长期的、长期的思考和努力才能摆脱它,比如简单的去计数。

您的SQL计数(1)group by将出现。

如果我像你一样?醋鳎夜兰莆医薹ㄔ谖业纳钪胁峁?

不要解释,大数据数列要理解。

大数据计数原则1+0=1,不计数(10)77号

6.火花很快,但火花也很慢

spark是纯内存计算,但spark也是批量计算。你的思想有缺陷。比较一下像Flink这样的纯流计算。

7。即使你有100T的数据,你也不会做大数据。

大数据存储空间并不意味着大数据,第二个问题是,即使您的数据不足以满足您的需要,您也没有在做大数据。

8,大数据和机器学习是一个家庭,离不开根源

你可能永远不会知道这两个学科中分而治之,统计学和概率论的统一性和重要性。

抱歉,不要认为大数据只是Hadoop。大数据技术堆栈非常广泛,你很难想象它。

你认为你已经完成了学习,这是完全不可能的。

首先,我不知道上面写了什么。

收集报告投诉