Jupyterhub
By Bys on February 7, 2025
MLOps
JupyterHub
JupyterHub는 여러 사용자가 Jupyter Notebook 환경에 동시에 접근할 수 있도록 지원하는 플랫폼이다. 이를 통해 교육 기관이나 연구 그룹에서 사용자별로 독립적인 작업 공간을 제공하며, 관리자는 중앙에서 사용자 계정을 관리할 수 있다. JupyterHub는 Kubernetes와 같은 클라우드 환경에서도 쉽게 배포할 수 있어 확장성이 뛰어나다. JupyterHub에서 데이터 분석 및 모델 개발을 수행한 후, Spark를 사용하여 대규모 데이터 처리를 할 수 있습니다. 또한, MLflow를 통해 실험 결과를 기록하고 관리할 수 있다.
Install JupyterHub(Official)
proxy:
service:
type: ClusterIP
ingress:
enabled: true
ingressClassName: alb
hosts:
- jupyterhub.bys.asia
pathType: Prefix
annotations:
alb.ingress.kubernetes.io/group.name: mlops
alb.ingress.kubernetes.io/subnets: bys-dev-ue1-sbn-1a-extelb, bys-dev-ue1-sbn-1b-extelb, bys-dev-ue1-sbn-1c-extelb, bys-dev-ue1-sbn-1d-extelb, bys-dev-ue1-sbn-1f-extelb
alb.ingress.kubernetes.io/scheme : internet-facing
alb.ingress.kubernetes.io/listen-ports: '[{"HTTPS": 443}]'
alb.ingress.kubernetes.io/certificate-arn: arn:aws:acm:us-east-1:558846430793:certificate/a5207b24-ae67-49ac-b34e-f34ed0088bca
alb.ingress.kubernetes.io/security-groups: sg-07e6c272df0bed7ee
alb.ingress.kubernetes.io/healthcheck-path: /
alb.ingress.kubernetes.io/healthcheck-interval-seconds: '15'
alb.ingress.kubernetes.io/healthcheck-timeout-seconds: '10'
alb.ingress.kubernetes.io/healthy-threshold-count: '2'
alb.ingress.kubernetes.io/unhealthy-threshold-count: '4'
alb.ingress.kubernetes.io/healthcheck-port: traffic-port
alb.ingress.kubernetes.io/success-codes: 200,302
alb.ingress.kubernetes.io/target-type: ip
alb.ingress.kubernetes.io/tags: auto-delete=no
hub:
db:
pvc:
storage: 15Gi
singleuser:
image:
name: 202949997891.dkr.ecr.ap-northeast-2.amazonaws.com/common/build
tag: "jupyter-notebook"
pullPolicy: Always
serviceAccountName: jupyterlab
storage:
capacity: 20Gi
homeMountPath: /home/jovyan
cpu:
limit: 4
guarantee: 4
memory:
limit: 4G
guarantee: 4G
helm repo add jupyterhub https://hub.jupyter.org/helm-chart/
helm repo update
helm upgrade -i jupyterhub jupyterhub/jupyterhub -n jupyter -f /Users/bys/workspace/kubernetes/mlops/jupyterhub/values.yaml
helm delete jupyterhub -n jupyter
아래에서는 Jupyterlab 에서 사용할 역할을 지정할 수 있다.
Jupyterlab Role
apiVersion: v1
kind: ServiceAccount
metadata:
name: jupyterlab
namespace: jupyter
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
name: jupyterlab
rules:
- apiGroups: ["sparkoperator.k8s.io"]
resources: ["sparkapplications"]
verbs: ["create", "delete", "get", "list", "watch", "update"]
- apiGroups: [""]
resources: ["pods", "services", "configmaps", "secrets"]
verbs: ["create", "delete", "get", "list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
name: jupyterlab
subjects:
- kind: ServiceAccount
name: jupyterlab
namespace: jupyter
roleRef:
kind: ClusterRole
name: jupyterlab
apiGroup: rbac.authorization.k8s.io
.ipynb 파일의 주요 구성 요소:
- 코드 셀: Python, R, Julia 등 다양한 프로그래밍 언어로 작성된 코드가 포함됩니다. 사용자는 이 셀에서 코드를 실행하고 결과를 확인할 수 있습니다.
- 마크다운 셀: 텍스트, 수식, 이미지 등을 포함할 수 있는 셀로, 문서화 및 설명을 위해 사용됩니다. 마크다운 문법을 사용하여 서식을 지정할 수 있습니다.
- 출력: 코드 셀을 실행한 결과로 생성된 출력(예: 그래프, 표, 텍스트 등)이 포함됩니다. 이 출력은 코드와 함께 저장되어 나중에 다시 확인할 수 있습니다.
- 메타데이터: 노트북의 설정 및 정보(예: 커널 정보, 노트북 제목 등)를 포함하는 부분입니다.
.ipynb 파일의 의미:
- 재현성: .ipynb 파일은 코드와 결과, 설명을 함께 저장하므로, 다른 사람과 공유하거나 나중에 다시 사용할 때 유용합니다. 이를 통해 연구 결과나 분석 과정을 쉽게 재현할 수 있습니다.
- 인터랙티브한 작업: Jupyter 노트북은 코드 실행과 결과 확인이 즉각적으로 이루어지기 때문에, 실험적이고 인터랙티브한 작업에 적합합니다.
- 협업: 여러 사용자가 .ipynb 파일을 공유하고 함께 작업할 수 있어, 팀 프로젝트나 교육 환경에서 유용합니다.
- 결론적으로, JupyterHub에서 생성된 .ipynb 파일은 데이터 분석, 머신러닝 모델 개발, 교육 자료 작성 등 다양한 용도로 활용될 수 있는 중요한 파일 형식입니다.
JupyterHub authentication and authorization using Keycloak
JupyterHub values.yaml file to use Keycloak as a authenticator and authorizer.
jupyterhub-values.yaml
hub:
resources:
requests:
cpu: 1
memory: 512Mi
limits:
cpu: 1
memory: 512Mi
adminUser: admin
password: admin
config:
GenericOAuthenticator:
client_id: jupyter
client_secret: 4tndUL6hp9h240sKDbMvgp7dmpvWaCf5
oauth_callback_url: https://jupyterhub.bys.asia/hub/oauth_callback
authorize_url: https://keycloak.bys.asia/realms/jupyter/protocol/openid-connect/auth
token_url: https://keycloak.bys.asia/realms/jupyter/protocol/openid-connect/token
userdata_url: https://keycloak.bys.asia/realms/jupyter/protocol/openid-connect/userinfo
login_service: keycloak
username_claim: preferred_username
userdata_params:
state: state
# Allow all Keycloak users
allow_all: true
admin_users:
- admin
JupyterHub:
authenticator_class: generic-oauth
TroubleShooting
JupyterHub 노트북 실행시
권한 이슈. Jupyterlab 이 실행되고 PVC가 마운트되는 위치에서 노트북을 신규로 생성하면 가능하다.
[I 2025-02-11 04:29:20.043 ServerApp] Creating new notebook in
[I 2025-02-11 04:29:20.083 ServerApp] Writing notebook-signing key to /opt/bitnami/jupyterhub-singleuser/.local/share/jupyter/notebook_secret
[E 2025-02-11 04:29:20.089 ServerApp] Error while saving file: Untitled.ipynb [Errno 30] Read-only file system: '/Untitled.ipynb'
mlops
jupyter
]