企业安全建设入门：基于开源软件打造企业网络安全最新章节_刘焱著

2.2　WAF概述

WAF（Web Application Firewall，Web应用防火墙）是通过执行一系列针对HTTP/HTTPS的安全策略为Web应用提供保护的一种产品。作为绝大多数互联网公司Web防御体系最重要的一环，承担了抵御常见的SQL注入、XSS、远程命令执行、目录遍历等攻击的作用，就像大厦的保安一样默默工作，是守护业务安全的第一道防线。

1. 传统WAF的不足

WAF在不少安全公司都是重要产品线，究其原因我认为有三个：

·绝大多数互联网公司没有足够的专职安全人员负责安全，解决安全问题是第一要务，WAF作为入门级产品帮助企业抵御了常见的攻击行为，需求量大。

·产品成熟，市场教育成本低，有不少酷炫的新产品需要开发布会才能让同行知道产品有什么特点，通过PPT才能让用户知道产品到底是什么。

·研发WAF的起点不高，最草根的做法基于常见的Nginx+Lua架构就可以入手。也正是由于这三方面原因，市场上WAF种类繁多但同质化严重，缺乏创新。

个人总结传统WAF在安全方面存在以下几个问题。

1）防护能力不足以应对黑产。

传统WAF主要依赖规则，一方面是吃一堑长一智，针对已知攻击形式有一定防御，针对未知攻击无防护能力，另外一方面，即使是已知攻击行为，由于正则表达式固有的局限性以及shell、PHP等语言的灵活多变的语法，因此理论上是可以绕过的，事实上也是可以绕过的，主流安全咨询媒体都有几篇讲如何绕过WAF的文章。我就列举一个例子：

http://www.douwaf.com/rce.php?cmd=pwd

假设cmd参数存在命令执行漏洞，输入参数pwd时，会执行shell命令，由于shell命令的灵活性，当参数为pwd p'w'd p""'w""'d""p'w'd""都是可以执行的，针对ls、ifconfig等也是一样，如果谁能写出个规则防止这个URL的命令执行漏洞的利用，可以告诉我。所以对怀有经济利益驱动的黑产或有足够赖心的白帽子，绕过WAF只是时间问题。

此外，多数WAF处于性能的考虑，检测策略主要是基于请求或者应答内容，缺乏上下文以及请求应答关联分析的能力，势必看问题就很片面和局限，大家可以在有输入框的地方输入alert（/1/），看看有多少WAF会拦截。

2）缺乏有效的基础业务安全防护能力。

WAF是否需要承担业务安全或者说业务风控的职责，其实厂商和用户一直没有达成一致，多数厂商认为这不是WAF的职责，撞库、刷短信接口、薅羊毛等，确实是专业风控产品的职责；从用户角度讲，以前被人撞库、刷短信接口、薅羊毛等，分析日志加Nginx封IP能解决一部分问题，结果上WAF却搞不定了，还非要忽悠我买昂贵的风控。我认为WAF还是要有基础的业务安全防护能力，无论是自动还是由用户配置。

3）审计能力不足。

闲时看PV，出事能取证，出现安全事件时可以很方便地查询原始流量，这个对于应急响应的同学很重要。令人遗憾的是，多数WAF即使可以保存访问日志，但也只能保存请求头、基础的URL，对于攻击定位至关重要的post body，应答内容记录的却很少，当然我们也能理解，这是由于存储空间问题、性能问题造成的。不少厂商也认为这个应该是Nginx本身、siem或者流量审计类设备的功能，我认为WAF应该做这个的原因如下：

·WAF记录黑客很难删除，Nginx上的记录很容易被删除，还没见过有自我修养的黑客不删除日志的行为；

·HTTPS普及后，流量审计想记录也记录不了了，对此表示遗憾。

2. 理想中的WAF

首先声明，我理想中的WAF部分功能有的厂商在研发中，完全实现还没有，如果有某个WAF产品经理说他们实现了WAF的所有功能，我还是直接认怂算了。

理想中的WAF功能有如下几个。

1）上下文理解能力。

这个不是功能，而是处理能力，传统WAF对于HTTP协议的理解主要是单向处理请求或者应答，缺乏对HTTP整个session行为的分析，缺乏结合上下文综合理解请求应答内容的能力，这好比盲人摸象，对于问题分析很片面。比如盲注这类没有明显回显特征的，仅依赖请求包特征，不去分析整个session多个应答包的时间特征就很难准确发现。

2）语义分析能力。

语义分析，部分厂商称之为沙箱，本质上是WAF具备语义识别常见的SQL、PHP、shell语言的能力，传统WAF的规则多是基于正则，说白了就是从文本的角度去理解HTTP协议，按简单的正则匹配，好比用鸟的大脑去尝试理解人类的语言，结果肯定是误报率和漏报率无法平衡。有了语义理解能力以后，就可以从HTTP载荷中提取的疑似可执行代码段，用语义去理解是否可以执行。还是以刚才的案例来说明。

http://www.douwaf.com/rce.php?cmd=pwd

对于参数cmd的内容，如果用shell的语法去理解，pwd p'w'd p""'w""'d""p'w'd""都是一回事，都是pwd。从原理上说，对于语法公开的语言都可以实现语义分析。

语义理解，理论上可以解决基于正则的规则的漏报和误报的问题，不过也不是万能的，比如HTTP协议中究竟哪部分是疑似可执行的代码段，这是个不好解决的问题。另外HTTP协议中，对于SQL注入攻击存在的都是代码段，或者说是SQL片段，如何拼接以保证正常解析也是麻烦事，市面上已经出现了一些基于语义的WAF，究竟这些问题解决到什么程度还有待于实战考验。

3）机器学习能力。

可以参考我的另外一本书《Web安全之机器学习入门》。

4）审计取证能力。

能够以HTTP会话作为存储单位，保存至少一个月的存储日志，完整记录请求应答内容，至少包括请求和应答的前4兆内容，支持基于常见HTTP字段的正则查询，支持ELK那种基础的聚合、TOP、大于、小于等操作。比较理想情况是类似去年RSA会议上提到的基于流量的时光机器，可以按照一定条件回放整个访问过程。最新的网络安全法要求保存至少半年的日志，这对于WAF来说也是个机会，可以把审计取证，日志离线备份作为一个卖点。

5）情报能力。

威胁情报这两年一直比较火，也逐渐从概念层面过渡到实战，从IP地址库、HTTP代理库、VPN库进步到真正是肉鸡库等，这一进步也给WAF带来了新的武器，对于大面积机器攻击行为，比如CC/DDoS肉鸡等可以做到直接封禁。

6）业务安全防护能力。

业务安全的防护范围非常广，我认为至少包括以下三个方面：

·网站内容防护——反恶意抓取、垃圾信息注入、黄赌毒信息注入、主页篡改（这个对党政军用户至关重要）等；

·高级业务逻辑CC攻击——对API接口的海量调用，包括短信接口、验证码接口、登录接口、数据查询接口等，撞库也可以算作此类；

·轻量级防薅羊毛–暴力注册、刷红包、刷代金券等。

市场上也出现了号称保证业务安全的WAF，这是一大进步，我见过几款产品，本质上提供能够根据用户自定义的URI、参数名、源IP/目的IP、目的URL等条件，拦截超出正常频率的机器访问行为的能力，在一定程度上解决了不少业务安全的问题。我一直有个观点，黑产、羊毛党（按照法律貌似不算违法，暂且叫灰产吧）也是讲究攻击成本的，只要攻击你的成本高于其他P2P、电商等网站，他们多会转向攻击成本低的，人家也是讲究性价比的，能够提供基础业务防护能力就是进步。

7）协同能力。

这个能力我认为很重要，因为WAF不是万金油，也不可能包打天下，再强大也可能被绕过，但是WAF的卡位很好，位于网路边界，特别适合做隔离操作，比如hids发现WebShell，协同WAF阻断访问，数据库审计发现拖库或者敏感操作协同WAF阻断（这个还依赖WAF和数据库联动分析，将HTTP会话和SQL操作关联）等。

2.2 WAF概述