Teradata CTO：数据仓库融合开源，万物皆可分析

Teradata CTO：数据仓库融合开源，万物皆可分析

2024-11-09 19:39

作为一家大数据技术公司的技术掌舵人，Teradata天睿公司首席技术官宝立明（Stephen Brobst）对开源的热爱是业内共知的。但在热爱开源的背后，体现的是什么样的大数据技术路线呢？

图片描述

Teradata天睿公司首席技术官宝立明（Stephen Brobst）

万物皆可分析

Teradata提出了“万物皆可分析”（Analytics of Everything）的说法，宝立明表示，“万物皆可分析”的概念指的是传感器能够捕获数据，以前很多公司只是在做数据的采集，现在这些企业已经成熟了，可以开始做数据的分析了。

在五到十年之前，还没有制造业企业在谈大数据分析，现在Teradata称万物皆可分析已经包括制造业。在医疗设备上，其实也是有传感器的，是放在人们的身上来检测身体状况，从而决定是不是需要一些治疗的干预，有利于提高医疗水平的质量，提高人们的身体健康的水平。同样，电信行业也是有传感器数据的，手机就是传感器，能够发送各种各样有关用户的移动的位置信息。还有零售行业也是如此，所以Teradata认为“万物皆可分析”，真正包括的万物是涵盖各行各业。

宝立明认为，万物皆可分析更重要。物联网或者万物互联，只是谈的是数据的收集。数据收集越多，成本越高，不分析就没有价值。

IoT数据带来的不同：

量是100倍于传统的数据，因此你需要一个非常强大的数据平台去存储它，去处理它，这个数据平台必须是高度可扩展的。
对于IoT数据而言，这种地理空间的数据占非常大的比例，所以Teradata需要在这方面拥有先进的地理空间分析的能力。
在IoT的数据中，有大量的基于时间序列的事件数据要去分析。而传统的SQL处理，基本上处理的是数据集，它不善于做这种时间序列处理。所以，这也是为什么Teradata谈到Aster在这方面是远远领先于其他数据分析技术。

对于万物皆可分析，Teradata一直以来倡导的技术架构是UDA（统一数据架构）。在UDA（统一数据架构）之下，Teradata既有自己的技术，也有各种各样开源的技术，比如Hadoop。同时Teradata还有数据湖的技术、Aster技术。Aster非常关键的一点是非常适合传感器数据的分析平台。

Teradata可以做的是，把数据先放到数据湖存储，经过Aster，经过对数据进一步处理，把它导入到数据仓库，为BI分析师所使用，所以它是一层一层的数据堆栈的架构。Aster作为一个数据平台，已经被移植到了Hadoop这种分布式的Power系统之上了，既可以在文件系统上去执行Aster，也可以在开源的数据库上应用。

针对万物皆可分析，Teradata相关的产品一共有七大类：

Teradata Listener框架，能够以实时的方式把海量的数据导入到Teradata的系统里；2. 利用RESTful API，可以实现各种技术平台的对接；
一个非常可靠、高可伸缩的数据传输技术；
存储技术；
可兼容的技术；
不断完善的压缩技术；
即将推出的Teradata IntelliFlex一体机，基于海量并行处理（MPP）架构，能以非常高的经济性，有效地进行海量数据的处理。

Teradata还有一个nPath技术，结合了MapReduce和SQL来做时序数据的分析。

如果把MapReduce在Hadoop这样的一个分布式的文件系统上去做执行的话，它会产生大量的中间的文件。但是Teradata现在把MapReduce直接和SQL结合，它直接就会得出最终的文件，中间的这些文件就没有了，简化了分析的难度，并提高了效率。

开源的偏好与整合

如果回顾Teradata的公司历史，Teradata其实在15年前就已经宣布Teradata的数据库产品是跑在Unix、Linux开源的版本之上，而当时其他的数据库公司仍然是基于HPUX或者AIX。直到今天Teradata产品的操作系统仍然是Linux。

从操作系统层面看，Teradata是100%开源的，而Teradata的竞争对手，尽管会做很多开源市场的宣传，但他们基本上都是创建于商用的OS上。

在地理空间方面的数据分析能力上，Teradata直接使用了开源的技术，Teradata把地理空间数据分析的开源技术的能力做了一个并行，整合到Teradata自己的系统里。

宝立明列举了一些他感兴趣的开源大数据技术，并做简要评价。

Presto。Teradata和Facebook合作研发的一个项目，是一个Open SQL Engine on Hadoop，支持任何一种Hadoop。能够帮助Teradata很好地连接其他一些开源的数据库平台。
Mesos。和Yarn竞争的开源技术，主要是做资源管理的。当然用Mesos的时候，有时它用起来特别好用，但有时就不那么好用了。
R。从分析的角度来说，R本身有一个非常大的各种分析能力的库。但是R的问题是，它不可扩展，而Teradata的技术是高度可扩展的。通过并行R技术，就能够使得原来不具有扩展性的技术也变得高度可扩展。
Spark。它有机器学习、有流、有SQL的接口，在Hadoop上都可以运行。
Flink，Flink和Spark是竞争对手，目前这两个语言竞争是非常激烈的。但是Teradata很欢迎这种竞争，就像Mesos和Yarn的竞争一样。竞争是一件非常好的事情，可以让技术更好地发展。

尽管喜欢Spark，宝立明不喜欢Scala语言，这是出于编程难度的考虑。

Scala这个语言我不喜欢，为什么呢？学起来太难，你要学这个语言的话，可能编程要花费很长一段时间。

万物皆可分析依赖的Teradata UDA（统一数据架构），里面有Hadoop，有Presto，同时还有QueryGrid，可从Hadoop平台发起并完成跨平台查询，将处理过程下推到Teradata数据库。用户还可从Teradata平台发起查询，将处理过程下推到Hadoop平台。它是Teradata所说的商用和开源技术的混合体。而QueryGrid是运行在Presto上面的。对于Teradata的客户而言，Teradata可以让他们选择，他们可以选择开源，也可以选择商用的SAS。还有就是Teradata的Listener框架，它实质是Kafka，Kafka是一种并行传输的技术，它是开源的，是linkedIn开发的。因此，Teradata的UDA，是非常好的一个开源和商用技术的混合体。

QueryGrid也可以支持与Presto来做连接，但是它不是只跟Presto来做连接，比如Teradata跟Presto连接，或Teradata也可以通过QueryGrid跟Oracle去做连接等。所以QueryGrid是一个产品，可以做很多数据的协同和连接器、处理器。

机器学习

开源机器学习是目前开源大数据领域的一个热门话题。宝立明表示，机器学习的关键一定是多种算法的结合，如果只偏向于一个或几个算法的话，必然会有盲区。所以一个大型的机器学习的系统里，会有多个算法，不同的算法算出来的结果Teradata把它结合起来。

Teradata为机器学习的这些引擎或是算法提供一个大数据的平台，而且这个平台是具有非常高的可延展性的。Teradata的做法是把这些机器学习的算法，像R、Ruby，内嵌到Teradata平台做并行的执行。

提供的平台，更多的是开源，这不是Teradata独享的，是SAS、Apache提供给Teradata的。
Teradata把机器学习的算法，如Teradata自己的算法，或开源的算法，内嵌到Aster的数据平台之上，供Teradata的数据科学家做各种各样的实验、探索。Teradata也会用到自己开发的机器学习的算法，去更好地找到Teradata所说的可以商用的一些成熟的技术，再结合数据湖的一些技术。找到这些可用的技术能力之后，Teradata把它整合到自己的商用解决方案里。

他还表示，Teradata做的一件最为有意思的研发工作就是，把Spark的能力和Teradata Aster的数据平台结合在一起。Spark本身有一个执行的框架，Aster的平台有非常先进的分析能力。Spark部署和使用比较困难，需要是一个懂Spark编程的人员才行。但是对于Aster而言，任何一个数据科学家都可以使用，不一定要懂编程，所以如果两者能够结合在一起，是非常不错的。

云计算支持

对于云计算，宝立明表示，Teradata是一个云的使能者，客户可以做内部云、托管云，也可以在其他公有云的服务供应商上获得Teradata一些功能的云的服务。Teradata的原则是给客户同类最佳的技术选择。

首先有的客户愿意自己做，Teradata给提供内部云的方案，有的客户希望托管，Teradata为他们做性能的最大优化。还有的客户选择公有云。目前AWS是Teradata宣布的第一个公有云的合作伙伴。Teradata在全球会设有一些相应的托管云服务。例如在欧洲，Teradata在德国有一个托管云。

以上就是本篇文章【Teradata CTO：数据仓库融合开源，万物皆可分析】的全部内容了，欢迎阅览！文章地址：http://keair.bhha.com.cn/quote/534.html
动态相关文章文章同类文章热门文章栏目首页网站地图返回首页康宝晨移动站 http://keair.bhha.com.cn/mobile/ , 查看更多