TiDB User Day 2024のアーカイブ動画を公開中!詳細を見る
Distributed-SQL-Databases

※このブログは2023年8月23日に公開された英語ブログ「Why Distributed SQL Databases Elevate Modern Application Development」の拙訳です。

データの爆発的な増加とスケーラブルで効率的なシステムの必要性により、従来のリレーショナルデータベースやNoSQLデータベースは限界に直面しています。これにより分散SQLデータベースが出現し、組織のデータ処理方法に革命が起こりました。

最新のアプリケーションを強化するために適切なデータベースを選択するのは難しい場合があります。まず、従来のリレーショナルデータベースを使用するとデータ量が増加するため、パフォーマンスとスケーラビリティが大幅に低下します。これらの問題はデータ処理、集計、統合ツールを追加することでのみ解決できます。ただし、このようなソリューションでは開発者にとって技術的な複雑さが増し、リアルタイムパフォーマンスが低下し、データストレージのコストが高くなります。

このブログでは、真の分散SQLデータベースとは何か、この成長カテゴリーが最新のアプリケーション開発を向上させる理由、および従来のデータベースシステムよりも優れている点について深掘りしていきます。この記事を最後まで読むと、企業のクラウドネイティブへの取り組みで次のステップに進むために必要な情報がすべて得られるでしょう。

分散SQLデータベースとは

分散SQLは、複数のノードにデータを分散するデータベースアーキテクチャの一種で、柔軟なスケーラビリティ、安定した信頼性、および混合ワークロードのクエリ処理の高速化を可能にします。データの保存と処理を単一ノードサーバーに依存する従来のSQLデータベースとは異なり、分散SQLデータベースはノードとも呼ばれる複数のサーバーにデータを分散します。各ノードは独立して動作しますが、データの一貫性と処理可能性を確保するために他のノードとも通信します。

分散SQLデータベースは、シャードと呼ばれるより小さく管理しやすいサブセットにデータを分割することで機能します。各シャードは個別のノードに保存され、複数のシャードからのデータを含むクエリは複数のノード間で同時に実行されます。これにより各ノードがクエリを並行して処理できるため、クエリ処理が高速化されパフォーマンスが向上します。

さらに、混合ワークロード処理機能を備えた分散SQLデータベースでは、行ストレージと列ストレージを1つのデータベースに組み合わせることができます。これにより強力なデータ一貫性が保証されながら、混合ワークロードに単一のエンドポイントが提供されます。複数のアプリケーションからデータを収集して即座に集約することもできるため、オンラインの運用データに対してリアルタイムのクエリを実行できます。

分散SQLアーキテクチャはどのように機能するのか

分散SQLデータベースアーキテクチャは、コンピュート層とストレージ層の2つの主要な層に分かれています。

A typical distributed SQL database architecture.

図1. 一般的な分散SQLデータアーキテクチャ

1. コンピュート層

コンピュート層は、SQLプロトコルの接続エンドポイントを外部に公開するステートレスSQL層です。コンピュート層はSQLリクエストを受信し、SQL解析と最適化を実行し、最終的に分散実行計画を生成します。水平方向にスケール可能であり、負荷分散コンポーネントを通じて外部への統一インターフェイスを提供します。この層はSQLの計算と分析、および実際のデータ読み取りリクエストのストレージ層への送信するためだけのものです。

2. ストレージ層

ストレージ層は、分散トランザクションのキーバリューストレージエンジンを使用してデータを格納する役割を担います。

リージョンはデータを格納する基本単位です。各リージョンには、特定のキー範囲 (キーの始まりから終わりまでの左閉右開区間) のデータが格納されます。

各ストレージノードには複数のリージョンが存在します。ストレージAPIは、キーとバリューのペアレベルで分散トランザクションをネイティブにサポートし、デフォルトでスナップショット分離をサポートします。これは、分散SQLデータベースがコンピュート層で分散トランザクションをサポートするための中核となっています。

SQLステートメントを処理した後、コンピュート層はSQL実行計画をストレージ層のAPIへの実際の呼び出しに変換します。したがって、ストレージ層にはデータが保存されます。すべてのストレージ層のデータは、複数のレプリカ (デフォルトでは3つのレプリカ) に自動的に維持されます。これらのレプリカによって、ストレージ層ではネイティブな高可用性と自動フェイルオーバー機能が実現されています。

分散SQLの技術的な利点は何か

分散SQLデータベースには、従来のSQLデータベースに比べて次のような技術的な利点があります。

  • スケーラビリティ:データ量が増加しても、必要に応じてノードを追加または削除することで、分散SQLデータベースは負荷に対処するために簡単にスケールアウトまたはスケールインできます。これによりパフォーマンスを犠牲にすることなく大規模なデータ処理とストレージを処理できるようになります。
  • 耐障害性:分散SQLデータベースはフォールトトレラントになるように設計されており、1つ以上のノードに障害が発生した場合でも動作を継続できます。これは、複数のノード間でデータをレプリケートすることで実現され、1つのノードに障害が発生した場合でも、他のノードからデータを取得できます。
  • 高可用性:分散SQLデータベースは高可用性を提供し、ノード障害が発生した場合でもデータに常にアクセスできることを保証します。繰り返しになりますが、データレプリケーションによってこれが実現され、複数のノードでデータが常に利用可能になります。
  • 混合ワークロード処理:分散SQLデータベースは、混合ワークロードの複雑なクエリを効率よく処理し、開発者の生産性の向上、アーキテクチャの簡素化、およびリアルタイムのデータ集計を可能にします。

組織が大量のデータを効率的に管理および処理する方法を模索するにつれて、分散SQLデータベースの人気がますます高まっています。データが指数関数的な速度で増加し続けるにつれて、分散SQLデータベースは最新のアプリケーション開発にとってさらに重要になります。

分散SQLのビジネス上の利点は何か

分散SQLデータベースは、SQL互換の技術スタック、極めて柔軟なスケーリング、データへの継続的アクセスをすべて1つのデータベースで実現し、ビジネスクリティカルなトランザクションアプリケーションを強化します。

  • 新しい機能やアプリケーションをより迅速に構築することで生産性を向上
  • より少ないインフラストラクチャでより多くのビジネスを行うことでコストを削減
  • 世界中のどこにいてもデータへの継続的なアクセスを確保することでリスクを軽減
  • トランザクションデータに関するリアルタイム分析でイノベーションを促進

分散SQLデータベースが最新のアプリケーション開発にとって理想的なソリューションである理由

近年、分散SQLデータベースがリレーショナルデータベースの代替として人気を集めています。分散SQLデータベースは従来のSQLデータベースとNoSQLデータベースの利点を提供します。また、混合ワークロードおよび複数のノードにわたるストレージをより効率的にデータ処理することが可能になります。

分散SQLデータベースが最新のアプリケーション開発を向上させる理由と、従来のデータベースシステムに対する利点を探ってみましょう。

増え続けるデータベース要件への対応

今日のデータ主導の世界では、組織は前例のない速度で膨大な量のデータを生成および収集しています。ユーザーとの対話処理からIoTデバイスに至るまで、データの量、速度、種類は拡大し続けています。

The acceleration of new customer experiences into digital channels is driving the adoption of distributed SQL databases architecture.

図2. デジタルチャネルへの新しい顧客体験の加速により、デジタルサービスとしての最新のソフトウェアアプリケーションの作成が促進されています

その結果、企業はこの増え続けるデータを効果的に管理し、処理するという重大な課題に直面しています。分散SQLデータベースはこうした増大するデータ要件に対処する堅牢なソリューションとして登場し、次の機能を提供します。

  • スケーラブルなデータストレージ:分散SQLデータベースは単一のサーバーに依存するのではなく、クラスタ内の複数のノードにデータを分散します。データが増加するにつれて組織はクラスタに新しいノードをシームレスに追加できるため、水平方向のスケーリングが可能になります。
  • 柔軟なコンピューティング能力:分散SQLデータベースはアーキテクチャの分散特性を利用して、クエリの実行を複数のノードに分散します。この並列処理機能により、組織はクラスタのコンピューティング能力を組み合わせて活用できるようになります。これによりクエリの応答時間が短縮され、システム全体のパフォーマンスが向上します。
  • データの圧縮と最適化:データを圧縮することにより、分散SQLデータベースはストレージ機器の設置を削減し、組織が同じインフラストラクチャ内により多くのデータを保存できるようにします。

最新のアプリケーションのスケーラビリティと可用性の向上

組織は優れたユーザー体験を提供する、拡張性の高い常時稼働のアプリケーションの提供に努めています。しかし、従来のデータベースシステムはリアルタイムの応答性を必要とする最新のアプリケーションのスケーラビリティと可用性の要求に応えるのに苦労することがよくあります。

図3. シャーディングを実装し、技術的な複雑さを増す従来のデータベースシステムの例

分散SQLデータベースはこれらの課題に対処し、アプリケーションのスケーラビリティと可用性を大幅に向上させる強力なソリューションとして登場しました。その方法は次のとおりです。

  • 分散クエリの実行:クエリのワークロードをクラスタ間で分割することにより、分散SQLデータベースはノードの集合的な計算能力を活用できます。これにより複雑なクエリの応答時間が効果的に短縮されます。
  • ストレージとコンピュートの分離アーキテクチャ:ストレージとコンピュートが分離しているアーキテクチャでは、書き込みノードとコンピュートノードの2種類のノードに異なる処理が分割されて割り当てられます。これは、必要に応じてデプロイする書き込みノードとコンピュートノードの数を決定できることを意味します。
  • インテリジェントなデータ配置:分散SQLデータベースは、複数のアベイラビリティゾーン (AZ) 内のデータノード間でデータをインテリジェントに分散および複製することができ、高可用性と耐障害性を実現します。このことは単一ノードまたはノードの半分未満に障害が発生した場合でも、システムは機能し続けることができることを意味します。これは従来のモノリシックデータベースでは決して達成できない特性です。

技術スタックジャングルの合理化

急速に進化するテクノロジー環境において、企業は多くの場合、テクノロジー、フレームワーク、ツールの複雑なジャングルの中を進んでいく必要があります。複数のコンポーネントを管理し、それらをシームレスに統合することは困難な作業となる場合があります。

図4. 最新のトランザクションアプリケーション向けのスケーラビリティと信頼性を備えた分散SQLアーキテクチャと、トランザクションデータのリアルタイム分析の例

分散SQLデータベースは技術スタックのジャングルを合理化し、アーキテクチャを簡素化し、データ管理に関連する複雑さを軽減することで価値のあるソリューションを提供します。

  • 統合されたデータ管理:分散SQLデータベースはさまざまなデータ管理の要求を単一の統合システムにまとめます。データ管理を統合することで組織は技術スタックを簡素化し、統合の課題を軽減し、業務を合理化できます。
  • エコシステムツールおよびフレームワークとの統合:分散SQLデータベースは、一般的なエコシステムツールおよびフレームワークとシームレスに統合するように設計されています。プログラミング言語、フレームワーク、データ処理プラットフォームと統合するためのコネクタとAPIを提供します。
  • データ操作の簡素化:分散SQLデータベースは組み込みの自動化および管理ツールが用意されており、実行中のクラスタへの影響を最小限に抑えながらノードを1台ずつアップグレードする自動ローリングアップグレードが使用されます。また、直感的なWebベースのインターフェイスまたはコマンドラインツールも用意されており、分散データベースクラスタ全体を統一して表示および制御できます。

分散SQLを使い始めるには

最新のアプリケーションを強化するために、適切な分散SQLデータベースを選択するのは難しいかもしれません。しかし、組織とともに進化できる、より良いオプションがあります。最も先進的なオープンソースの分散SQLデータベースの1つであるTiDBを紹介します。



TiDBは柔軟なスケーリング、リアルタイム分析、データへの継続的アクセスにより、最新のアプリケーションすべてを強化できます。スケールアウトRDBMSおよびインターネットスケールのOLTPワークロードにTiDBを使用している企業は、次のような分散データベースの恩恵を受けます。

  • MySQLとの互換性:地球上で最もMySQLと互換性のある分散SQLデータベースをお楽しみください。TiDBはMySQL 5.7と高い互換性があります。これは開発者がデータベースの豊富なツールとフレームワークのエコシステムを引き続き利用できることを意味します。
  • 水平方向のスケーラビリティ:TiDBは手動シャーディングを行わずにデータワークロードに対する完全な透過性を実現します。データベースのアーキテクチャはコンピュートをストレージから分離し、必要に応じてデータワークロードを即座にスケールアウトまたはスケールインします。
  • 高可用性:TiDBはシステム停止やネットワーク障害時にデータへの継続的なアクセスを実現する自動フェイルオーバーと自己修復を保証します。
  • 強力な一貫性:TiDBはデータをグローバルに分散するときにACIDトランザクションを維持します。
  • 混合ワークロード対応:合理化された技術スタックにより、リアルタイム分析の作成が容易になります。TiDBのスマートクエリオプティマイザーは、一連の演算子で構成される最も効率的なクエリ実行計画を選択します。
  • ハイブリッドおよびマルチクラウド対応:TiDBを使用すると、ITチームは世界中のどこにでもVM、コンテナー、またはベアメタル上のパブリック、プライベート、およびハイブリッドクラウド環境にデータベースクラスタを展開できます。
  • オープンソース:Apache 2.0ライセンスに基づく100%オープンソースの分散データベースでビジネスイノベーションを実現します。
  • 安全性:TiDBは送信中と保存中の両方でエンタープライズグレードの暗号化を使用してデータを保護します。

最新の分散データベースの基礎を説明するツアーに参加してみませんか?分散SQLデータベースがなぜ重要なのか、どのように構築され、実際の運用環境でどのように使用されているのかについては詳細なeBookをご覧ください。


Have questions? Let us know how we can help.

Contact Us

TiDB Cloud Dedicated

TiDB Cloudのエンタープライズ版。
専用VPC上に構築された専有DBaaSでAWSとGoogle Cloudで利用可能。

TiDB Cloud Serverless

TiDB Cloudのライト版。
TiDBの機能をフルマネージド環境で使用でき無料かつお客様の裁量で利用開始。