1. 设计并实现large scale, distributed deep learning inference platform
API Server, CLI (FLask, Mysql)
- 接入公司CAS,实现用户鉴权 (CAS SSO)
ModelZoo (Flask, OS, HDFS)
- 设计并实现ModelZoo,接收用户上传并转换好的模型(ONNX -> TensorRT), 进行模型的版本控制,并存储到TOS,HDFS
- 测试Tfserving
Mesos
- 增加cAdvisor 的docker 性能监控 (metrics,grafana)
Marathon
- 修改Marathon,实现Docker Containerizer支持NV docker,实现资源的隔离
2. 改进并维护deep learning inference platform Arnold
- 访问数据库,得到训练任务的统计数据
分不同的部门,集群,训练框架,任务状态
- 增加训练框架支持
- 制作report
3. RDMA性能监控
- 新机器加入集群
- 测试RDMA通信是否正常
- 部署监控服务,保证RDMA网络正常
原文地址:https://www.cnblogs.com/lawrenceSeattle/p/10285715.html
时间: 2024-11-02 01:02:49