大数据预测需要什么技术
1、数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
2、数据存取:关系数据库、SQL等。
3、基础架构:云存储、分布式文件存储等。
4、数据处理:自然语言处理是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解,也称为计算语言学。一方面它是语言信息处理的一个分支,另一方面它是人工智能的核心课题之一。
5、统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)等等。
6、数据挖掘:分类 、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘图形图像,视频,音频等)
7、模型预测:预测模型、机器学习、建模仿真。
8、结果呈现:云计算、标签云、关系图等。
什么是大数据的前沿技术
(一)预测分析。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。
(二)NoSQL数据库。非关系型数据库包括Key-value型(Redis)数据库、文档型(MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。
(三)搜索和认知商业。当今时代大数据与分析已经发展到一个新的高度,那就是认知时代,认知时代不再是简单的数据分析与展示,它更多的是上升到一个利用数据来支撑人机交互的一种模式。
(四)流式分析。目前流式计算是业界研究的一个热点,流式计算研究在互联网领域持续升温,流式分析可以对多个高吞吐量的数据源进行实时的清洗、聚合和分析;对存在于社交网站、博客、电子邮件、视频、新闻、电话记录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。
(五)内存数据结构。通过动态随机内存访问(DRAM)、Flash和SSD等分布式存储系统提供海量数据的低延时访问和处理;
(六)分布式存储系统。分布式存储是指存储节点大于一个、数据保存多副本以及高性能的计算网络;利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
《大数据技术前沿》是2016年3月电子工业出版社出版的图书,作者是阮彤。
内容简介
本选题以科普的方式系统地阐述了大数据前沿技术与研究进展,对技术的来源、结论、对比、用途以及开源软件进行了深入浅出的描述,并不过多地涉及数学符号及基础原理。以大数据可视化为切入点,通过自然语言处理、社交网络挖掘、语义网络与知识图谱三方面非结构化数据处理技术,阐述大数据经典应用,利用基于图数据库、内存计算、分布式存储系统的大数据存储与管理作为大数据平台支撑,进而探讨基于众包技术扩充数据来源与提高数据质量,并围绕大数据环境下的隐私保护问题,探讨了大数据安全技术。
还没有评论,来说两句吧...