hivenosql

hive为啥用spark

Hive使用Spark有以下几个原因：
1. 原生支持SQL语言：Hive是基于SQL的数据仓库架构，可以使用SQL语言进行数据查询和分析。Spark提供了Hive的兼容性，可以直接使用HiveQL语句在Spark上执行。这样，用户可以使用熟悉的SQL语言进行数据处理。
2. 共享和复用：Hive可以将元数据存储在Hadoop分布式文件系统(HDFS)中，允许不同的用户共享和复用数据。Spark 可以直接读取Hive的元数据，这样就可以在Spark上使用Hive的表和数据。
3. 原生支持Hadoop生态系统：Hadoop生态系统中的许多工具和技术都可以和Hive很好地集成。Spark作为Hadoop生态系统的一部分，可以与其他工具（如HDFS、YARN等）无缝集成，提供更全面的数据处理能力。
4. 实时和交互式查询：Spark具有内存计算的能力，可以实现更快的数据处理速度。Hive on Spark将Hive查询转化为Spark作业，并充分利用Spark的分布式计算和内存计算能力，大大加快了查询的速度。
5. 多种数据源支持：Spark支持多种数据源，包括HDFS、关系型数据库、NoSQL数据库等。通过使用Spark，Hive可以利用这些数据源进行更广泛的数据处理和分析，提供更多样化的功能。
综上所述，Hive选择使用Spark主要是因为Spark提供了更高效的数据处理能力，更好地支持Hadoop生态系统，并且与Hive的数据模型和查询语言兼容。

mysql作为数据源可否直接用spark处理

谢邀，Spark通过Jdbc来查询来自RDB的数据源。但是Spark对Jdbc的支持也是一个逐渐演变的过程，其中关键点在于版本1.3，也就是data frame的引入。在1.3以前，Spark通过Jdbc RDD来处理对对Jdbc的查询。它实现了标准的RDD接口，比如支持partition和compute。但是对很多用户来说，还是太复杂了。从1.3 起，可以直接用DF接口来做同样的事情。比如以下代码就可以完成对一个RDB表的查询

可以看到，不管数据来自什么数据源（hive，parquet，甚至NoSql），引入data frame以后，它的代码是非常相似的，得到的结果都是dataframe，你尽可以把它们揉在一起。至于data frame内部是如何支持多种数据源的，以及如何优化，我再去看看源代码。