Linux namespace 简介 part 4 - NS(FS)

本文为原文翻译,特此声明。
原文链接:https://blog.jtlebi.fr/2014/01/12/introduction-to-linux-namespaces-part-4-ns-fs/
原文中有部分内容为便于理解,并非直译,可能存在一定的疏漏,因此请参考原文理解。

继上一篇 [关于PID namespace的文章]1,我们现在将一览一个惊人的部分:隔离挂载表(mount table)。如果你尚未阅读过之前的post,我强烈建议你先阅读一遍这个系列的第一篇post,了解下linux namespace隔离机制。

在上一篇post中,我们“chrooted”了PID namespace并且得到了一个新的“1”进程。但是即使是激活了这个namespace,我们始终缺乏对诸如“top”等工具隔离的支持,因为它们依赖于实际的“/proc”文件系统,而它依旧在namespace之间被共享。在这篇post中,让我们引入一个能够解决这个问题的namespace:“NS”。这是历史上的第一个Linux Namespace,由此得到了“NS”这个名字。

要激活NS namespace,只需要把“CLONE_NEWNS”标记添加到“clone”调用。不需要其他额外的步骤。它也能和其他namespace组合使用。

一旦激活,任何子进程的挂载与卸载操作都将只作用于本身,反之亦然。

让我们开始实验。只要在之前的例子中激活NS:

activate-ns-snippet.c

int child_pid = clone(child_main, child_stack+STACK_SIZE, 
    CLONE_NEWUTS | CLONE_NEWIPC | CLONE_NEWPID | CLONE_NEWNS | SIGCHLD, NULL);

现在,如果我们运行它,会发现我们最终可以解决上一篇POST(PID namespace)中遗留的问题:

jean-tiare@jeantiare-Ubuntu:~/blog$ gcc -Wall ns.c -o ns && sudo ./ns
 - [14472] Hello ?
 - [    1] World !
root@In Namespace:~/blog# mount -t proc proc /proc
root@In Namespace:~/blog# ps aux
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root         1  1.0  0.0  23620  4680 pts/4    S    00:07   0:00 /bin/bash
root        79  0.0  0.0  18492  1328 pts/4    R+   00:07   0:00 ps aux
root@In Namespace:~/blog# exit

哦哦~~ “/proc”现在按照我们对容器的预期一样运行了,而且没有破坏parent。

让我们来让它自动化,来完成上一篇post中的例子:

main-4-ns.c

#define _GNU_SOURCE
#include <sys/types.h>
#include <sys/wait.h>
#include <sys/mount.h>
#include <stdio.h>
#include <sched.h>
#include <signal.h>
#include <unistd.h>
#define STACK_SIZE (1024 * 1024)
// sync primitive
int checkpoint[2];
static char child_stack[STACK_SIZE];
char* const child_args[] = {
  "/bin/bash",
  NULL
};
int child_main(void* arg) {
  char c;
  // init sync primitive
  close(checkpoint[1]);
  // setup hostname
  printf(" - [%5d] World !\n", getpid());
  sethostname("In Namespace", 12);
  // remount "/proc" to get accurate "top" && "ps" output
  mount("proc", "/proc", "proc", 0, NULL);
  // wait...
  read(checkpoint[0], &c, 1);
  execv(child_args[0], child_args);
  printf("Ooops\n");
  return 1;
}
int main() {
  // init sync primitive
  pipe(checkpoint);
  printf(" - [%5d] Hello ?\n", getpid());
  int child_pid = clone(child_main, child_stack+STACK_SIZE,
      CLONE_NEWUTS | CLONE_NEWIPC | CLONE_NEWPID | CLONE_NEWNS | SIGCHLD, NULL);
  // further init here (nothing yet)
  // signal "done"
  close(checkpoint[1]);
  waitpid(child_pid, NULL, 0);
  return 0;
}

如果你运行这个片段,你应该能够精确地得到和上一个test一样的行为,不需要手动重新挂载“/proc”,也不会弄乱你真实parent的“/proc”。是不是很清爽?

为了运用这种技术所赋予的能力,你现在可以准备并进入一个chroot,来进一步加强隔离。相关步骤包括准备一个“debootstrap”,重新挂载一些基本的文件系统,比如“/tmp”,“/dev/shm”,“/proc”,可选全部或者部分“/dev”和“/sys”,然后“chdir” + “chroot”。我将这个作为留给读者的练习。

这就是“NS” namespace的全部。下一篇文章,我们将探索一个相当不可思议的namespace “NET”。它是如此的强大,以至于它被用来作为“CORE”轻量级网络模拟器的基础。感谢阅读!

TIPS from 译者:

我在尝试续写作者的最后一篇post的时候发现了一个问题,添加的CLONE_NEWNS似乎并没有效果,child依旧破坏了parent中proc的挂载。然后我在/proc/self/mountinfo中发现了“shared”这个标记。。。所以,似乎CLONE_NEWNS对包含“shared”标志的挂载表并不能实现隔离。

解决方案如下:

# 以root运行
mount --make-private -t proc proc /proc
已有 3 条评论
  1. wonderflow wonderflow

    博主你说的很对,是shared参数导致的。

    http://www.ibm.com/developerworks/library/l-mount-namespaces/

  2. Kennan Kennan

    使用了mount --make-private -t proc proc /proc 依旧会破坏parent 的namepsace, 具体试验如下:

    $ uname -a
    Linux testfedora.localdomain 4.2.3-300.fc23.x86_64 #1 SMP Mon Oct 5 15:42:54 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux

    $ readlink /proc/$$/ns/mnt
    mnt:[4026531840]
    [fedora@testfedora ~]$ sudo ./mntns
    - [11968] Hello ?
    - [ 1] World !
    [root@In-Namespace fedora]# mount --make-private -t proc proc /proc
    [root@In-Namespace fedora]# readlink /proc/$$/ns/mnt
    mnt:[4026532148]
    [root@In-Namespace fedora]# df
    Filesystem 1K-blocks Used Available Use% Mounted on
    /dev/vda1 41218368 715380 38777560 2% /
    devtmpfs 4076476 0 4076476 0% /dev
    tmpfs 4088228 0 4088228 0% /dev/shm
    tmpfs 4088228 0 4088228 0% /sys/fs/cgroup
    tmpfs 4088228 328 4087900 1% /run
    tmpfs 817648 0 817648 0% /run/user/1000

    In parent shell:
    $ df
    df: cannot read table of mounted file systems: No such file or directory

    It is apparent it is broken. Have you tried that before ?

    1. 为何要在child中运行这条指令?难道不应该是在parent中设置好,再进行隔离吗?

说两句: