nosqlhdfs

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类sql语句的查询功能；Hive使用Hql作为查询接口，使用HDFS存储，使用mapreduce计算；Hive是非关系型数据库即NoSQL（Not Only SQL）。

关系数据库，是建立在关系模型基础上的数据库，一个关系型数据库就是由二维表及其之间的联系组成的一个数据组织。

NoSQL（非关系型数据库）

NoSQL现在被理解为 Not Only SQL 的缩写，是对非关系型的数据库管理系统的统称（正因为此，人们通常理解 NoSQL 是 anti-RDBMS）。

NoSQL 与 RDBMS 存在许多不同点，

- 最重要的是NoSQL不使用SQL作为查询语言。

- NoSQL 不需要固定的表模式(table schema)，也经常会避免使用SQL的JOIN操作，一般有可水平扩展的特征。

- NoSQL产品会放宽一个或多个 ACID 属性（CAP定理）

在NoSQL数据库中，具有扩展性的通常是分布式数据库，因为它们可以分布在多个节点上，从而实现更好的可扩展性和容错性。以下是一些具有扩展性的NoSQL数据库：

Apache Cassandra：Cassandra是一个开源的分布式NoSQL数据库，它采用分布式环状数据结构来存储数据，并具有高度的可扩展性和容错性。它适用于需要处理大规模读写操作的应用程序，如社交网络、在线广告和电子商务等。

MongoDB：MongoDB是一个流行的文档数据库，它支持JSON文档存储和查询，并具有不错的可扩展性和容错性。它采用分片技术来实现水平扩展，可以适用于需要处理大量数据和高并发读写操作的应用程序，如Web应用、移动应用和游戏等。

Apache Hadoop：Hadoop是一个开源的分布式计算框架，它可以处理大规模的数据集并具有非常高的可扩展性和容错性。它采用分布式文件系统（HDFS）来存储数据，适用于需要处理大规模数据集和进行复杂分析的应用程序，如大数据分析和云计算等。

需要注意的是，每个NoSQL数据库都有其优点和适用场景，具体的选择需要根据实际需求来确定。

传统大数据存储系统通常有以下三种架构：

1. 单机存储架构：这种架构使用单个服务器来存储和处理大数据。它通常包括一个主服务器和多个从服务器，主服务器负责数据的输入、处理和管理，而从服务器用于存储数据和执行计算任务。单机存储架构适用于小规模的数据存储和处理需求，但在面对大规模数据和高并发访问时可能存在性能瓶颈。

2. 分布式存储架构：这种架构将数据分布在多个服务器上，以实现数据的分片存储和并行处理。每个服务器都负责存储和处理一部分数据，通过分布式文件系统或分布式数据库管理数据的分布和访问。分布式存储架构可以提供更高的数据处理能力和可扩展性，适用于大规模的数据存储和处理需求。

3. 多层存储架构：这种架构将数据分为多个层级，并根据数据的访问频率和重要性将其存储在不同的介质上。通常包括快速存储层（如内存或固态硬盘）用于存储热数据，以及较慢的存储层（如磁盘）用于存储冷数据。多层存储架构可以在满足性能需求的同时节省存储成本，提高数据的访问效率。

这些传统大数据存储系统架构各有优缺点，选择适合的架构取决于具体的数据存储和处理需求，以及预算和性能要求。近年来，随着云计算和分布

还没有评论，来说两句吧...