大数据 云计算 等搜集的资料
发布日期:2021-09-08 15:09:36 浏览次数:11 分类:技术文章

本文共 1281 字,大约阅读时间需要 4 分钟。

云计算和大数据

大数据和云计算两者的区别

盘点大数据生态圈,那些繁花似锦的开源项目

云存储技术

开源的分布式文件存诸系统有GlusterFS、Hadoop 、FastDFS 等等非常多

Tachyon

Ceph与Swift

Ceph用C++编写而Swift用Python编写,性能上应当是Ceph占优。但是与Ceph不同,Swift专注于对象存储,作为OpenStack组件之一经过大量生产实践的验证,与OpenStack结合很好,目前不少人使用Ceph为OpenStack提供块存储,但仍旧使用Swift提供对象存储。
Swift的开发者曾写过文章对比Ceph和Swift:
Ceph与HDFS
Ceph对比HDFS优势在于易扩展,无单点。HDFS是专门为Hadoop这样的云计算而生,在离线批量处理大数据上有先天的优势,而Ceph是一个通用的实时存储系统。虽然Hadoop可以利用Ceph作为存储后端(根据Ceph官方的教程死活整合不了,自己写了个简洁的步骤),但执行计算任务上性能还是略逊于HDFS(时间上慢30%左右 )。

历经十年:关于Ceph现状与未来的一些思考

不同类别的存储系统开源项目

Hadoop生态系统

Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。

下图为hadoop的生态系统:

Spark / Storm

Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输出是下一步计算的输入)性能更高。Shark只是一个基于Spark的查询引擎(支持ad-hoc临时性的分析查询)

而Storm的架构和Spark截然相反。Storm是一个分布式流计算引擎。每个节点实现一个基本的计算过程,而数据项在互相连接的网络节点中流进流出。和Spark相反,这个是把数据传递给过程。

两个框架都用于处理大量数据的并行计算。

Storm在动态处理大量生成的“小数据块”上要更好(比如在Twitter数据流上实时计算一些汇聚功能或分析)。

Spark工作于现有的数据全集(如Hadoop数据)已经被导入Spark集群,Spark基于in-memory管理可以进行快讯扫描,并最小化迭代算法的全局I/O操作。

大数据的生态系统

一张图让你知道大数据的生态系统

开源大数据(hadoop生态系统、流式处理系统等)处理工具汇总

开源云

2014 上半年最受欢迎的开源云项目集合

盘点Linux下的开源云平台

OpenStack Docker KVM

实时数据流处理

实时计算,流数据处理系统简介与简单分析

在云上搭建大规模实时数据流处理系统

LinkedIn大数据专家深度解读日志的意义

Appendix

转载地址:https://blog.csdn.net/weixin_34326429/article/details/90254683 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:[20151008]8i-10g口令密码的加密算法.txt
下一篇:DBCA静默方式建库

发表评论

最新留言

逛到本站,mark一下
[***.202.152.39]2024年03月23日 16时47分16秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章

signature=29c90d1a8d382ff261d00a931708390a,发烧音响功放(顶级Hi-End音响发烧器材介绍)... 2019-04-21
点灯游戏的html编程,index.html 2019-04-21
html 免费站点,28个免费的HTML5网站模板 2019-04-21
html 关闭页面回调,popup.js弹出层回调关闭 2019-04-21
flask 动态模板html,Flask:呈现模板并填充HTML选项卡 2019-04-21
html把分页改成滚动条,基于JavaScript实现表格滚动分页 2019-04-21
html tab顶部吸附,浅谈react.js中实现tab吸顶效果的问题 2019-04-21
python画图猪_用Python的turtle画一只小猪乔治【刚学python两天,记念一下】 2019-04-21
loadrunner常用函数_LoadRunner常用函数之--stricmp 函数,完成2个字符串的比较 2019-04-21
pytorch tensor 初始化_PyTorch简明笔记[1]-Tensor的初始化和基本操作 2019-04-21
linux正向连接shell_[经验] Linux 怎么连接 Xshell? 2019-04-21
nc 监听数据_nc命令使用解析大全 2019-04-21
简述tcp协议三报文握手过程_TCP协议中的三次握手和四次挥手(图解) 2019-04-21
手机键鼠映射软件_吃鸡,我最专业!---盖世小鸡键鼠吃鸡套装评测 2019-04-21
easyui datagrid 中怎么选中所有页面的数据_学会这5个Excel中常用技巧,可以准时下班去摆摊了... 2019-04-21
maskrcnn还可以加网络吗_绿茶加蜂蜜的功效,绿茶可以加蜂蜜吗? 2019-04-21
marquee滚动起始位置_巧用喵影关键帧制作滚动水印,让视频小偷无可盗 2019-04-21
css 旋转45_CSS教程——第14期 2019-04-21
rust火箭基地主楼开启方法_Rust 为什么能成为 Stack Overflow 最受欢迎的语言? 2019-04-21
全年营业额怎么计算_门店盈亏平衡计算及案例分析 | 商品管理 2019-04-21