高度なデータセット管理と使用機能 - Container Service for Kubernetes (ACK)

データセットのアクセスモードを構成する

Container Service for Kubernetes (ACK) では、ReadOnlyMany モードや ReadWriteOnce モードなど、データセットにさまざまなアクセスモードを構成できます。アプリケーションシナリオの要件に基づいて、データセットのアクセス許可と使用方法を柔軟に管理するために、適切なアクセスモードを構成できます。この機能は、Kubernetes クラスタ内のデータセットへの効率的かつ安全なアクセスを保証し、ビッグデータおよび AI シナリオに適しています。詳細については、「データセットのアクセスモードを構成する」をご参照ください。

データセットを定期的に更新する

ACK では、DataLoad ジョブを使用してデータセットを定期的に更新できます。 DataLoad ジョブを構成して、Object Storage Service (OSS) や Hadoop 分散ファイルシステム (HDFS) などの外部データソースからデータセットに最新のデータを同期できます。この定期的な更新メカニズムは、データセットの適時性と正確性を保証し、リアルタイムのデータ分析や機械学習トレーニングなど、動的データを必要とするアプリケーションシナリオに適しています。詳細については、「DataLoad ジョブを実行してデータセットを定期的に更新する」をご参照ください。

名前空間間でデータセットを共有する

ACK では、Kubernetes クラスタ内の名前空間間でデータセットを共有できます。異なる名前空間のアプリケーションは、同じデータセットを共有できます。データセットの共有ポリシーを構成して、データの効率的な再利用を実現し、データセットのアクセス許可とセキュリティの隔離を確保できます。名前空間間の共有機能は、複数チームのコラボレーションと分散コンピューティングのシナリオに適しています。詳細については、「名前空間間でデータセットを共有する」をご参照ください。

JindoRuntime を使用して JindoFS マスターのストレージを永続化する

JindoRuntime は、OSS および HDFS へのアクセスを高速化するために使用される Fluid のデータランタイムです。 JindoRuntime を使用して JindoFS マスターのストレージを永続化し、クラスタの再起動時またはノードの障害時にランタイムの状態を回復できるようにすることができます。これにより、データアクセラレーションサービスの高可用性と安定性が確保されます。詳細については、「JindoRuntime を使用して JindoFS マスターのストレージを永続化する」をご参照ください。

キャッシュアフィニティに基づいてポッドをスケジュールする

ACK では、キャッシュアフィニティに基づいてポッドをスケジュールできます。データキャッシュとコンピューティングジョブをローカルにスケジュールすることにより、ACK はデータ転送のレイテンシを削減し、システム全体のパフォーマンスを向上させます。この機能は、分散コンピューティングや AI トレーニングなど、高頻度のデータアクセスと高並列処理を必要とするアプリケーションシナリオに適しています。詳細については、「キャッシュアフィニティに基づいてポッドをスケジュールする」をご参照ください。

Fluid が FUSE ファイルシステムに提供する自動回復機能

Fluid が提供する自動回復機能は、ランタイムにおいて、Fuse ファイルシステムを OSS や HDFS などの分散ストレージシステムと透過的に統合します。自動回復機能は、障害が発生した場合、またはノードが使用できなくなった場合に、データアクセスの継続性と信頼性を保証します。 Fuse クライアントを使用して分散ストレージへの透過的なアクセスを実装し、必要に応じてデータアクセスパスを迅速に復元して、ビジネスの継続的な運用を保証できます。詳細については、「FUSE マウントポイントの自動回復機能を有効にする」をご参照ください。

まとめ

データセットのアクセスモードを構成する: これにより、データセットのアクセス許可とモードを柔軟に構成して、効率的かつ安全なデータアクセスを保証できます。
データセットを定期的に更新する: これにより、DataLoad ジョブを使用してデータセットを動的に更新し、データの適時性と正確性を維持できます。
名前空間間でデータセットを共有する: これにより、複数チームのコラボレーションシナリオや分散コンピューティングシナリオでデータセットを共有および再利用して、リソース使用率を向上させることができます。
JindoRuntime を使用してストレージを永続化する: これにより、データアクセラレーションサービスの高可用性と安定性が確保され、ランタイムの状態の回復が保証されます。
キャッシュアフィニティに基づいてポッドをスケジュールする: これにより、データアクセスパフォーマンスが最適化され、レイテンシが削減され、システム全体の効率が向上します。
FUSE の自動回復機能を有効にする: これにより、分散ストレージの透過的なアクセスと障害回復が実装され、データアクセスの継続性が保証されます。

上記の機能と構成は、データセットのライフサイクルを包括的に管理し、データアクセスパフォーマンスを最適化し、高いシステム可用性とデータセキュリティを確保するのに役立ちます。