让用户提交 Python 代码并在 服务器 上执行,是一些 OJ、量化网站重要的服务,很多 CTF 也有类似的题。为了不让恶意用户执行任意的 Python 代码,就需要确保 Python 运行在沙箱中。沙箱经常会禁用一些敏感的函数,例如 os,研究怎么逃逸、防护这类沙箱还是蛮有意思的。
前言
Python 的沙箱逃逸的最终目标就是执行系统任意命令,次一点的写文件,再次一点的读文件。
顺便安利一本书:《流畅的 Python》。这本书有很多中高阶知识点,很全面而且讲的很清楚,如果你看过,相信理解这篇文章的大多数内容都不是问题。
接下来的内容先讲系统命令执行,再讲文件写入、读取,并且均以 oj 为例,库大多以 os 为例。
一、执行系统命令
1. 基础知识
先啰嗦一些基础知识
在 Python 中执行系统命令的方式有:
我写了一个脚本,测试了一下所有的导入 os 或者 sys 的库:
all_modules_2就是 2.x 的标准库,all_modules_3 就是 3.x 的标准库。
结果相当多,这里就不贴了。这里注意一下,这个文件别命名为 test.py,如果命名为 test 会怎么样呢?可以先猜一猜,后面会给解释。
如果 oj 支持 import 的话,这些库都是高危的,放任不管基本上是坐等被日。所以为了避免过滤不完善导致各种问题,在 Python 沙箱套一层 Docker 肯定不会是坏事。
2. 花式 import
首先,禁用 import os 肯定是不行的,因为
都可以。如果多个空格也过滤了,Python 能够 import 的可不止 import,还有 __import__:__import__(‘os’),__import__被干了还有 importlib:importlib.import_module(‘os’).system(‘ls’)
这样就安全了吗?实际上import可以通过其他方式完成。回想一下 import 的原理,本质上就是执行一遍导入的库。这个过程实际上可以用 execfile 来代替:
不过要注意,2.x 才能用,3.x 删了 execfile,不过可以这样:
这个方法倒是 2.x、3.x 通用的。
不过要使用上面的这两种方法,就必须知道库的路径。其实在大多数的环境下,库都是默认路径。如果 sys 没被干掉的话,还可以确认一下,:
3. 花式处理字符串
代码中要是出现 os,直接不让运行。那么可以利用字符串的各种变化来引入 os:
还可以利用 eval 或者 exec:
顺便说一下,eval、exec 都是相当危险的函数,exec 比 eval 还要危险,它们一定要过滤,因为字符串有很多变形的方式,对字符串的处理可以有:逆序、变量拼接、base64、hex、rot13…等等,太多了。。。
4. 恢复 sys.modules
sys.modules 是一个字典,里面储存了加载过的模块信息。如果 Python 是刚启动的话,所列出的模块就是解释器在启动时自动加载的模块。有些库例如 os 是默认被加载进来的,但是不能直接使用,原因在于 sys.modules 中未经 import 加载的模块对当前空间是不可见的。
如果将 os 从 sys.modules 中剔除,os 就彻底没法用了:
注意,这里不能用 del sys.modules[‘os’],因为,当 import 一个模块时:import A,检查 sys.modules 中是否已经有 A,如果有则不加载,如果没有则为 A 创建 module 对象,并加载 A。
所以删了 sys.modules[‘os’] 只会让 Python 重新加载一次 os。
看到这你肯定发现了,对于上面的过滤方式,绕过的方式可以是这样:
还有一种利用 __builtins__ 导入的方式,下面会详细说。
5. 花式执行函数
通过上面内容我们很容易发现,光引入 os 只不过是开始,如果把 system 这个函数干掉,也没法通过os.system执行系统命令,并且这里的system也不是字符串,也没法直接做编码等等操作。我遇到过一个环境,直接在/usr/lib/python2.7/os.py中删了system函数。。。
不过,要明确的是,os 中能够执行系统命令的函数有很多:
应该还有一些,可以在这里找找:
过滤system的时候说不定还有其他函数给漏了。
其次,可以通过 getattr 拿到对象的方法、属性:
不让出现 import也没事:
一样可以。这个方法同样可以用于逃逸过滤 import 的沙箱。关于 __builtins__,见下文。
与 getattr 相似的还有 __getattr__、__getattribute__,它们自己的区别就是getattr相当于class.attr,都是获取类属性/方法的一种方式,在获取的时候会触发__getattribute__,如果__getattribute__找不到,则触发__getattr__,还找不到则报错。更具体的这里就不解释了,有兴趣的话可以搜搜。
6. builtins、builtin与builtins
先说一下,builtin、builtins,__builtin__与__builtins__的区别:首先我们知道,在 Python 中,有很多函数不需要任何 import 就可以直接使用,例如chr、open。之所以可以这样,是因为 Python 有个叫内建模块(或者叫内建命名空间)的东西,它有一些常用函数,变量和类。顺便说一下,Python 对函数、变量、类等等的查找方式是按 LEGB 规则来找的,其中 B 即代表内建模块,这里也不再赘述了,有兴趣的搜搜就明白了。
在 2.x 版本中,内建模块被命名为 __builtin__,到了 3.x 就成了 builtins。它们都需要 import 才能查看:

但是,__builtins__ 两者都有,实际上是__builtin__和builtins 的引用。它不需要导入,我估计是为了统一 2.x 和 3.x。不过__builtins__与__builtin__和builtins是有一点区别的,感兴趣的话建议查一下,这里就不啰嗦了。不管怎么样,__builtins__ 相对实用一点,并且在 __builtins__里有很多好东西:
那么既然__builtins__有这么多危险的函数,不如将里面的危险函数破坏了:
或者直接删了:
但是我们可以利用 reload(__builtins__) 来恢复 __builtins__。不过,我们在使用 reload 的时候也没导入,说明reload也在 __builtins__里,那如果连reload都从__builtins__中删了,就没法恢复__builtins__了,需要另寻他法。还有一种情况是利用 exec command in _global 动态运行语句时的绕过,比如实现一个计算器的时候,下面有给出例子。
这里注意,2.x 的 reload 是内建的,3.x 需要 import imp,然后再 imp.reload。你看,reload 的参数是 module,所以肯定还能用于重新载入其他模块,这个放在下面说。
7. 通过继承关系逃逸
在 Python 中提到继承就不得不提 mro,mro就是方法解析顺序,因为 Python 支持多重继承,所以就必须有个方式判断某个方法到底是 A 的还是 B 的。2.2 之前是经典类,搜索是深度优先;经典类后来发展为新式类,使用广度优先搜索,再后来新式类的搜索变为 C3 算法;而 3.x 中新式类一统江湖,默认继承 object,当然也是使用的 C3 搜索算法。。。扯远了扯远了,感兴趣的可以搜搜。不管怎么说,总是让人去判断继承关系显然是反人类的,所以 Python 中新式类都有个属性,叫__mro__,是个元组,记录了继承关系:
类的实例在获取 __class__ 属性时会指向该实例对应的类。可以看到,”属于 str类,它继承了 object 类,这个类是所有类的超类。具有相同功能的还有__base__和__bases__。需要注意的是,经典类需要指明继承 object 才会继承它,否则是不会继承的:
那么知道这个有什么用呢?
由于没法直接引入 os,那么假如有个库叫oos,在oos中引入了os,那么我们就可以通过__globals__拿到 os(__globals__是函数所在的全局命名空间中所定义的全局变量)。例如,site 这个库就有 os:
也就是说,能引入 site 的话,就相当于有 os。那如果 site 也被禁用了呢?没事,本来也就没打算直接 import site。可以利用 reload,变相加载 os:
还有,既然所有的类都继承的object,那么我们先用__subclasses__看看它的子类,以 2.x 为例:
可以看到,site 就在里面,以 2.x 的site._Printer为例:
os 又回来了。并且 site 中还有 __builtins__。
这个方法不仅限于 A->os,还阔以是 A->B->os,比如 2.x 中的 warnings:
在继承链中就可以这样:
顺便说一下,warnings这个库中有个函数:warnings.catch_warnings,它有个_module属性:
所以通过_module也可以构造 payload:
3.x 中的warnings虽然没有 linecache,也有__builtins__。
同样,py3.x 中有,利用方式可以为:
顺便提一下,object 本来就是可以使用的,如果没过滤这个变量的话,payload 可以简化为:
还有一种是利用builtin_function_or_method 的 __call__:
或者简单一点:
还可以这样利用:
上面的这些利用方式总结起来就是通过__class__、__mro__、__subclasses__、__bases__等等属性/方法去获取 object,再根据__globals__找引入的__builtins__或者eval等等能够直接被利用的库,或者找到builtin_function_or_method类/类型__call__后直接运行eval。
继承链的逃逸还有一些利用第三方库的方式,比如 jinja2,这类利用方式应该是叫 SSTI,可以看这个:传送门,这里就不多说了。
二、文件读写
2.x 有个内建的 file:
还有个 open,2.x 与 3.x 通用。
还有一些库,例如:types.FileType(rw)、platform.popen(rw)、linecache.getlines(r)。
为什么说写比读危害大呢?因为如果能写,可以将类似的文件保存为math.py,然后 import 进来:
调用
这里需要注意的是,这里 py 文件命名是有技巧的。之所以要挑一个常用的标准库是因为过滤库名可能采用的是白名单。并且之前说过有些库是在sys.modules中有的,这些库无法这样利用,会直接从sys.modules中加入,比如re:
当然在import re 之前del sys.modules[‘re’]也不是不可以…
这里的文件命名需要注意的地方和最开始的那个遍历测试的文件一样:由于待测试的库中有个叫 test的,如果把遍历测试的文件也命名为 test,会导致那个文件运行 2 次,因为自己 import 了自己。
读文件暂时没什么发现特别的地方。
剩下的就是根据上面的执行系统命令采用的绕过方法去寻找 payload 了,比如:
或者
三、其他
过滤[、]:这个行为不像是 oj 会做得出来的,ctf 倒是有可能出现。应对的方式就是将[]的功能用pop 、__getitem__代替(实际上a[0]就是在内部调用了a.__getitem__(0) ):
利用新特性:PEP 498 引入了 f-string,在 3.6 开始出现:传送门,食用方式:传送门。所以我们就有了一种船新的利用方式:
关注每次版本增加的新特性,或许能淘到点宝贝。
序列化相关:序列化也是能用来逃逸,但是关于序列化的安全问题还挺多的,如果有时间我再写一篇文章来讨论好了。
四、栗子
这个例子来自iscc 2016的Pwn300 pycalc,相当有趣:
exec command in _global 这一句就把很多 payload 干掉了,由于 exec 运行在自定义的全局命名空间里,这时候会处于restricted execution mode,这里不赘述了,感兴趣可以看这篇文章:传送门。exec 加上定制的 globals 会使得沙箱安全很多,一些常规的 payload 是没法使用的,例如:
不过也正是由于 exec 运行在特定的命名空间里,可以通过其他命名空间里的 __builtins__,比如 types 库,来执行任意命令:
五、结尾
这块内容本身就零散,罗里吧嗦了这么多,希望对大家有帮助,如果有不严谨的地方希望各位师傅们能指出来,共同探讨 。
为什么要学python,感觉能做的C都能,脚本语言的优势就在于更简单吗?
代码简洁,编程效率高,虽然运行效率差c很多,但是写一个c能写3个python文本了,适用于快速开发需求,还有强大的第三方库,支持很多平台。
如何导入数据与不同类型的文件转换成一个Python numpy的数组
不太懂你想做什么,如果要转换成numpy数组的话,就把要转换的数据全都弄成list类型,然后使用(list_name)转换。# numpy as npa = [1,2,3,4,5]b = [6,7,8,9,0]c = a + bd = (c)d#输出array([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])
python正则表达式问题 不是很能看懂 reg = r'src="(.+?\.jpg)" pic_ext' .+?是什么意思?
(.+>\)pic_ext.+? . 除了\,什么都行。 + 上一次出现的字符可以重复多次或0次 ? 上一次出现的字符可以重复0次或一次
发表评论