Jupyterhub


MLOps

JupyterHub

JupyterHub는 여러 사용자가 Jupyter Notebook 환경에 동시에 접근할 수 있도록 지원하는 플랫폼이다. 이를 통해 교육 기관이나 연구 그룹에서 사용자별로 독립적인 작업 공간을 제공하며, 관리자는 중앙에서 사용자 계정을 관리할 수 있다. JupyterHub는 Kubernetes와 같은 클라우드 환경에서도 쉽게 배포할 수 있어 확장성이 뛰어나다. JupyterHub에서 데이터 분석 및 모델 개발을 수행한 후, Spark를 사용하여 대규모 데이터 처리를 할 수 있습니다. 또한, MLflow를 통해 실험 결과를 기록하고 관리할 수 있다.

Install JupyterHub(Official)

values.yaml

proxy:
  service:
    type: ClusterIP
ingress:
  enabled: true
  ingressClassName: alb
  hosts:
    - jupyterhub.bys.asia
  pathType: Prefix
  annotations:
    alb.ingress.kubernetes.io/group.name: mlops
    alb.ingress.kubernetes.io/subnets: bys-dev-ue1-sbn-1a-extelb, bys-dev-ue1-sbn-1b-extelb, bys-dev-ue1-sbn-1c-extelb, bys-dev-ue1-sbn-1d-extelb, bys-dev-ue1-sbn-1f-extelb
    alb.ingress.kubernetes.io/scheme : internet-facing
    alb.ingress.kubernetes.io/listen-ports: '[{"HTTPS": 443}]'
    alb.ingress.kubernetes.io/certificate-arn: arn:aws:acm:us-east-1:558846430793:certificate/a5207b24-ae67-49ac-b34e-f34ed0088bca
    alb.ingress.kubernetes.io/security-groups: sg-07e6c272df0bed7ee
    alb.ingress.kubernetes.io/healthcheck-path: /
    alb.ingress.kubernetes.io/healthcheck-interval-seconds: '15'
    alb.ingress.kubernetes.io/healthcheck-timeout-seconds: '10'
    alb.ingress.kubernetes.io/healthy-threshold-count: '2'
    alb.ingress.kubernetes.io/unhealthy-threshold-count: '4'
    alb.ingress.kubernetes.io/healthcheck-port: traffic-port
    alb.ingress.kubernetes.io/success-codes: 200,302
    alb.ingress.kubernetes.io/target-type: ip
    alb.ingress.kubernetes.io/tags: auto-delete=no
hub:
  db:
    pvc:
      storage: 15Gi
singleuser:
  image:
    name: 202949997891.dkr.ecr.ap-northeast-2.amazonaws.com/common/build
    tag: "jupyter-notebook"
    pullPolicy: Always
  serviceAccountName: jupyterlab
  storage:
    capacity: 20Gi
    homeMountPath: /home/jovyan
  cpu:
    limit: 4
    guarantee: 4
  memory:
    limit: 4G
    guarantee: 4G
helm repo add jupyterhub https://hub.jupyter.org/helm-chart/
helm repo update

helm upgrade -i jupyterhub jupyterhub/jupyterhub -n jupyter -f /Users/bys/workspace/kubernetes/mlops/jupyterhub/values.yaml
helm delete jupyterhub -n jupyter

아래에서는 Jupyterlab 에서 사용할 역할을 지정할 수 있다.
Jupyterlab Role

apiVersion: v1
kind: ServiceAccount
metadata:
  name: jupyterlab
  namespace: jupyter
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: jupyterlab
rules:
- apiGroups: ["sparkoperator.k8s.io"]
  resources: ["sparkapplications"]
  verbs: ["create", "delete", "get", "list", "watch", "update"]
- apiGroups: [""]
  resources: ["pods", "services", "configmaps", "secrets"]
  verbs: ["create", "delete", "get", "list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: jupyterlab
subjects:
- kind: ServiceAccount
  name: jupyterlab
  namespace: jupyter
roleRef:
  kind: ClusterRole
  name: jupyterlab
  apiGroup: rbac.authorization.k8s.io
.ipynb 파일의 주요 구성 요소:
  • 코드 셀: Python, R, Julia 등 다양한 프로그래밍 언어로 작성된 코드가 포함됩니다. 사용자는 이 셀에서 코드를 실행하고 결과를 확인할 수 있습니다.
  • 마크다운 셀: 텍스트, 수식, 이미지 등을 포함할 수 있는 셀로, 문서화 및 설명을 위해 사용됩니다. 마크다운 문법을 사용하여 서식을 지정할 수 있습니다.
  • 출력: 코드 셀을 실행한 결과로 생성된 출력(예: 그래프, 표, 텍스트 등)이 포함됩니다. 이 출력은 코드와 함께 저장되어 나중에 다시 확인할 수 있습니다.
  • 메타데이터: 노트북의 설정 및 정보(예: 커널 정보, 노트북 제목 등)를 포함하는 부분입니다.
.ipynb 파일의 의미:
  • 재현성: .ipynb 파일은 코드와 결과, 설명을 함께 저장하므로, 다른 사람과 공유하거나 나중에 다시 사용할 때 유용합니다. 이를 통해 연구 결과나 분석 과정을 쉽게 재현할 수 있습니다.
  • 인터랙티브한 작업: Jupyter 노트북은 코드 실행과 결과 확인이 즉각적으로 이루어지기 때문에, 실험적이고 인터랙티브한 작업에 적합합니다.
  • 협업: 여러 사용자가 .ipynb 파일을 공유하고 함께 작업할 수 있어, 팀 프로젝트나 교육 환경에서 유용합니다.
  • 결론적으로, JupyterHub에서 생성된 .ipynb 파일은 데이터 분석, 머신러닝 모델 개발, 교육 자료 작성 등 다양한 용도로 활용될 수 있는 중요한 파일 형식입니다.



JupyterHub authentication and authorization using Keycloak

JupyterHub values.yaml file to use Keycloak as a authenticator and authorizer.

jupyterhub-values.yaml

hub:
  resources:
    requests:
      cpu: 1
      memory: 512Mi
    limits:
      cpu: 1
      memory: 512Mi
  adminUser: admin
  password: admin
  config:
    GenericOAuthenticator:
      client_id: jupyter
      client_secret: 4tndUL6hp9h240sKDbMvgp7dmpvWaCf5
      oauth_callback_url: https://jupyterhub.bys.asia/hub/oauth_callback
      authorize_url: https://keycloak.bys.asia/realms/jupyter/protocol/openid-connect/auth
      token_url: https://keycloak.bys.asia/realms/jupyter/protocol/openid-connect/token
      userdata_url: https://keycloak.bys.asia/realms/jupyter/protocol/openid-connect/userinfo
      login_service: keycloak
      username_claim: preferred_username
      userdata_params:
        state: state
      # Allow all Keycloak users
      allow_all: true
      admin_users:
        - admin
    JupyterHub:
      authenticator_class: generic-oauth



TroubleShooting

JupyterHub 노트북 실행시

권한 이슈. Jupyterlab 이 실행되고 PVC가 마운트되는 위치에서 노트북을 신규로 생성하면 가능하다.

[I 2025-02-11 04:29:20.043 ServerApp] Creating new notebook in
[I 2025-02-11 04:29:20.083 ServerApp] Writing notebook-signing key to /opt/bitnami/jupyterhub-singleuser/.local/share/jupyter/notebook_secret
[E 2025-02-11 04:29:20.089 ServerApp] Error while saving file: Untitled.ipynb [Errno 30] Read-only file system: '/Untitled.ipynb'

Tag: [ mlops  jupyter  ]