2. ETL任务:不少厂商已经提供了非常优秀的ETL产品和解决方案,并在市场中得到了广泛的应用。然而在大数据的场景中,传统ETL遇到了性能和QoS保证上的严重挑战。多数ETL任务是轻计算重IO类型的,而传统的IT硬件方案,如承载数据库的小型计算机,都是为计算类任务设计的,即使使用了最新的网络技术,IO也顶多到达几十GB。采用分布式架构的Hadoop提供了完美的解决方案,不仅使用share-nothing的scale-out架构提供了能线性扩展的无限IO,保证了ETL任务的效率,同时框架已经提供负载均衡、自动FailOver等特性保证了任务执行的可靠性和可用性。
【免责声明】本文仅代表作者个人观点,与中国数码招商网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。您若对该稿件内容有任何疑问或质疑,请联系本网将迅速给您回应并做处理。