Kubeflow1.6的搭建的示例使用
1 官方文档
根据kubeflow1.6官网发行记录,与k8s 1.22适配的kubeflow版本是kubeflow-1.6。当前最新版本是Kubeflow1.9,官方推荐使用的k8s版本是1.29。
部署步骤参考:部署kubeflow1.6的官方文档
以下操作来自笔者刚开始接触k8s时所做的操作,使用kubekey部署了k8s+ksp,一些操作也都依赖于图形化界面。经过一两个月的鼓捣研究最终跑通。
2 环境信息规划
本次基于k8s 1.22.10搭建kubeflow-1.6环境。k8s 1.22.10搭建在如下3台虚拟机上。
主机名 | 服务(用途) | IP | root用户密码 | 规格 | 系统盘 | OS |
---|---|---|---|---|---|---|
master-1 | master | 10.13.31.60 | cloud@2020 | 8c16g | 300G | Centos7.9 |
worker-1 | worker | 10.13.31.61 | cloud@2020 | 8c16g | 300G | Centos7.9 |
worker-2 | worker | 10.13.31.62 | cloud@2020 | 8c16g | 300G | Centos7.9 |
3 部署kubeflow 1.6环境
3.1 下载kubeflow-manifests1.6.1
1 |
|
3.2 下载kustomize3.2.0
1 |
|
3.3 将gcr.io镜像替换成国内代理镜像
1 |
|
3.4 正式部署
1 |
|
3.5 开启https登录kubeflow UI
1 |
|

1 |
|

1 |
|

1 |
|
1 |
|
3.6 获取kubeflow dashboard地址
以下两种方法选取其一
3.6.1 从kubesphere中获取




3.6.2 从命令行获取
1 |
|
3.7 登录kubeflow dashboard
kubeflow1.6的web界面登录信息:
- 默认用户名:user@example.com
- 默认密码:12341234
3.8 minio-service配置



默认用户名与密码:
- accessKey: minio
- secretKey: minio123
4 Tensorflow示例
kubeflow官方提供的、在kubeflow使用流水线执行tensorflow机器学习任务的例子:
https://github.com/kubeflow/pipelines/blob/master/samples/contrib/kubeflow-e2e-mnist/kubeflow-e2e-mnist.ipynb
5 Pytorch示例
5.1 示例1
1 |
|
1 |
|
1 |
|

1 |
|

1 |
|

1 |
|

1 |
|

1 |
|

1 |
|

1 |
|

1 |
|

1 |
|

5.2 示例2
此示例来自kubeflow官方示例pytorch-samples
bert机器学习基础知识:【理论篇】是时候彻底弄懂BERT模型了 、 【实战篇】是时候彻底弄懂BERT模型了
创建的流水线任务“pytorch-bert”在执行Training步骤时会报错失败:

问题解决办法:
原因:因为需要去huggingface这个美国公司的网站下载外网的数据,但是相关外网在大陆无法正常访问。
最后执行时,做如下修改
1 |
|

1 |
|

1 |
|

Kubeflow1.6的搭建的示例使用
https://jiangsanyin.github.io/2025/02/07/Kubeflow1.6的搭建的示例使用/