Hadoop发行版用于针对内部部署和基于云的文件存储数据提供可伸缩的分布式计算。发行版由商业打包和支持的开源Apache hadoop相关项目的版本组成。发行版提供了对应用程序、查询/报告工具、机器学习和数据管理基础设施组件的访问。发行版最初是作为任何用例的组件集合引入的,现在通常是作为数据湖、机器学习或其他用途的特定解决方案的一部分交付。它们随后成长为额外的、扩展的角色,与数据库管理系统(dbms)等老技术和Apache Spark等新技术竞争。
“最好的大数据平台,尽管需要更好的UI”
MapR是为性能和规模而构建的。除此之外,该文件系统不是HDFS,因此消除了HFFS的所有限制。它是一个完整的读/写文件系统,这意味着您可以使用NFS等行业协议来摄取数据。默认文件大小为8kb,这意味着您可以进行小的写操作,而不是HDFS所需的64MB/128MB。
“Oracle大数据SQL在数据分析方面非常有用。”
Oracle大数据SQL在分析数据时非常有用,从数据库中提取数据也很容易。它使我们能够跨Apache Hadoop, Apache Kafka, NoSQL,对象存储和Oracle数据库分析数据。并将技能、安全策略和应用程序与极致性能相结合。
“微软”
微软正在积极地将Azure功能添加到其云解决方案中,如Office 365电子邮件,OneDrive for Enterprise,但微软不能将EDM用于结构化数据。这对我们至关重要。
“实现与预期一致,但需要更多关于集群服务的文档”
由于存在预先存在的关系,实现是成功的。对多个集群服务(Spark、Zappelin和Ambari)和多种数据格式(ORC、Parquet……)进行更多的文档记录和基准测试,将有助于确定哪些分析用例和业务情况是最好的。
这项研究需要登录来确定访问权限