代码世界中的Lambda

Lambda| 2016-09-26

“ λ ”像一个双手插兜儿，独自行走的人，有“失意、无奈、孤独”的感觉。λ 读作Lambda，是物理上的波长符号，放射学的衰变常数，线性代数中的特征值……在程序和代码的世界里，它代表了函数表达式，系统架构，以及云计算架构。

代码中的Lambda

Lambda表达式基于数学中的λ演算得名，可以看作是匿名函数，可以代替表达式，函数，闭包等，也支持类型推论，可以远离匿名内部类。

为什么使用Lambda呢？
1）代码更紧凑
2）拥有函数式编程中修改方法的能力
3）有利于多核计算

Lambda的目的是让程序员能够对程序行为进行抽象，把代码行为看作数据。

Java

Java 8的一个大亮点是引入Lambda表达式，在编写Lambda表达式时，也会随之被编译成一个函数式接口。

一个典型的例子是文件类型过滤 :

File dir = new File("/an/dir/");
   FileFilter directoryFilter = new FileFilter() {
      public boolean accept(File file) {
         return file.isDirectory();
      }
};

用lambda 重写后：

File dir = new File("/an/dir/");  

File[] dirs = dir.listFiles((File f) -> f.isDirectory());

Lambda 表达式本身没有类型，因为常规类型系统没有“Lambda 表达式”这一内部概念。

Python

与其它语言不同，Python的Lambda表达式的函数体只能有唯一的一条语句，也就是返回值表达式语句。Python编程语言使用lambda来创建匿名函数。

一个典型的例子是求一个列表中所有元素的平方。

一般写法


def sq(x):
    return x * x

map(sq, [y for y in range(108)])

使用Lambda 的写法

map( lambda x: x*x, [y for y in range(108)] )

在spark 中，用python 操作RDD时，Lambda 更是随处可见。

out_rdd = in_rdd.filter( # filter the empty record
          lambda x:x[1] is not None and x[1] != {}
               ).map( 
          lambda x:utils.parse_data(x[1],es_relations)
               ).filter( # filter the empty record  
          lambda x:x is not None
               ).filter( # filter the record  
          lambda x:x[u'timestamp']>time_start)

大数据架构中的Lambda

Lambda架构的目标是设计出一个能满足实时大数据系统关键特性的架构，包括有：高容错、低延时和可扩展等。Lambda架构整合离线计算和实时计算，融合不可变性（Immunability），读写分离和复杂性隔离等一系列架构原则，可集成 Hadoop，Kafka，Storm，Spark，Hbase等各类大数据组件。
代码世界中的Lambda0

Batch Layer进行预运算的作用实际上就是将大数据变小，从而有效地利用资源，改善实时查询的性能。主要功能是：

存储Master Dataset，这是一个不变的持续增长的数据集
针对这个Master Dataset进行预运算

Serving Layer就要负责对batch view进行操作，从而为最终的实时查询提供支撑。主要作用是：

对batch view的随机访问
更新batch view

speed layer与batch layer非常相似，它们之间最大的区别是前者只处理最近的数据，后者则要处理所有的数据。另一个区别是为了满足最小的延迟，speed layer并不会在同一时间读取所有的新数据，在接收到新数据时，更新realtime view，而不会像batch layer那样重新运算整个view。speed layer是一种增量的计算，而非重新运算（recomputation）。Speed Layer的作用包括：

对更新到serving layer带来的高延迟的一种补充
快速、增量的算法
最终Batch Layer会覆盖speed layer

大数据系统一般具有如下属性：
* 健壮性和容错性（Robustness和Fault Tolerance）
* 低延迟的读与更新（Low Latency reads and updates）
* 可伸缩性（Scalability）
* 通用性（Generalization）
* 可扩展性（Extensibility）
* 内置查询（Ad hoc queries）
* 维护最小（Minimal maintenance）
* 可调试性（Debuggability）

个人觉得，有了spark streaming 之后，spark 本身就是一种Lambda架构。