我們有一個相當復雜的系統,它將不同的數據源拼接在一起,為用戶提供產品推薦。這些組件通常會調用我們正在運行的一個或多個 TensorFlow Serving 模型。即使在負載下,這也很好,直到最近我們的一些最終 REST API(使用 Sanic 框架)現在有時需要 10 秒以上才能返回。使用cProfile,看來問題是gRPC通道掛起。但它似乎與我們最終的網絡服務層中的某些東西隔離。當我單獨為 TensorFlow Serving 組件運行下面的代碼時,它可以輕松地完成一系列隨機輸入,沒有任何問題。這是我們正在運行的代碼,刪除了一些特定細節:def get_tf_serving(model_uri, model_name, input_name, output_name, X): channel = grpc.insecure_channel(model_uri, options=MESSAGE_OPTIONS) stub = prediction_service_pb2_grpc.PredictionServiceStub(channel) request = predict_pb2.PredictRequest() request.model_spec.name = model_name request.model_spec.signature_name = 'serving_default' request.inputs[input_name].CopyFrom(util.make_tensor_proto(X.astype(np.float32), shape=X.shape)) result = stub.Predict(request, 4.0) channel.close() # imagine more stuff here doing something with the returned data data = result.outputs[output_name].float_val return data這是由另一個函數調用的,該函數最終由如下所示的路由調用:@doc.include(True)async def get_suggestions(request): user_id = request.args.get('user_id', 'null') count = int(request.args.get('count', 10)) data = # something that itself calls `get_tf_serving` return data我在這里缺少一些基本的東西嗎?當 TensorFlow Serving 服務沒有明顯的負載問題時,為什么這些請求會突然花費這么長時間并掛起?為了仔細檢查,我們實際上很快在 FastAPI 中重新實現了其中一條路由,雖然它可能好一點,但超時仍然不斷發生。更新:作為另一項測試,我們使用 TensorFlow Serving REST HTTP API 重新實現了所有內容。你瞧,問題完全消失了。不過我覺得 gRPC 應該更好。仍然無法弄清楚為什么它被掛起。
1 回答

qq_遁去的一_1
TA貢獻1725條經驗 獲得超8個贊
這里的問題不是 TensorFlow Serving 設置或 Python 代碼,而是兩個部分之間的網絡配置方式。TensorFlow Serving 實例由 Kubernetes 編排,然后使用 Kubernetes 服務拼接在一起。正是 Python 代碼調用的服務以及錯誤的配置導致了超時。
簡而言之,由于 gRPC 依賴于 HTTP/2,因此由于多路復用而導致標準 Kubernetes 服務遇到一些問題,而多路復用本來是 gRPC 的優勢功能之一。
添加回答
舉報
0/150
提交
取消