CodeQL 文档

低效正则表达式

ID: swift/redos
Kind: problem
Security severity: 7.5
Severity: error
Precision: high
Tags:
   - security
   - external/cwe/cwe-1333
   - external/cwe/cwe-730
   - external/cwe/cwe-400
Query suites:
   - swift-code-scanning.qls
   - swift-security-extended.qls
   - swift-security-and-quality.qls

点击查看 CodeQL 代码库中的查询

某些正则表达式需要很长时间才能将某些输入字符串与之匹配,以至于匹配长度为 *n* 的字符串所需的时间与 *nk* 或甚至 *2n* 成正比。此类正则表达式会对性能产生负面影响,并可能允许恶意用户通过为正则表达式匹配制作昂贵的输入字符串来执行拒绝服务(“DoS”)攻击。

Swift 使用的正则表达式引擎使用回溯非确定性有限自动机来实现正则表达式匹配。虽然这种方法在空间效率上很高,并且允许支持捕获组等高级功能,但它通常在时间效率上并不高。这种自动机的最坏情况时间复杂度可能是多项式或指数级,这意味着对于某些形状的字符串,将输入长度增加十个字符可能会使自动机慢约 1000 倍。

通常,如果正则表达式包含 r*r+ 形式的重复,其中子表达式 r 模糊不清,因为它可以以多种方式匹配某些字符串,则会受到此问题的影响。有关确切情况的更多信息,请参见参考文献。

建议

修改正则表达式以消除模糊性,或确保与正则表达式匹配的字符串足够短,以至于时间复杂度无关紧要。

示例

请考虑以下正则表达式

/^_(__|.)+_$/

它的子表达式 "(__|.)+" 可以通过 "|" 运算符左侧的第一个备选方案 "__" 或通过右侧第二个备选方案 "." 的两次重复来匹配字符串 "__"。因此,由奇数个下划线后跟其他字符组成的字符串会导致正则表达式引擎在拒绝输入之前运行指数级的时间。

可以通过重写正则表达式以消除重复内部备选方案的两个分支之间的模糊性来避免此问题

/^_(__|[^_])+_$/

参考资料

  • ©GitHub, Inc.
  • 条款
  • 隐私