01 shang ji_puroziekushiyon_she_ji_

上級プロジェクション設計
HPE Vertica Advanced Performance Tuning
April 27, 2016
1

本章の概要
– データベースデザイン
– 手動プロジェクション設計
– ランレングス符号化
– プリジョインプロジェクション
– ライブアグリゲートプロジェクション
– プロジェクションの数式
2

データベースデザイン

HPE Vertica
Database
データベースの階層
employee
salary
store
sales
regionbenefits
スキーマ1 スキーマ2Public スキーマ
shipping_dimension
warehouse_dimension
promotion_dimension

Verticaオブジェクト階層
テーブル
プロジェクション
ファイル
コンテナ
customer
A B C
customer_p1 customer_p2 customer_p3
ACCCA AB B
スキーマ1

テーブル
– Verticaでは、テーブルは論理上のオブジェクト（データを保
持するのはプロジェクション）
– 最小のデータ型を選択し、パフォーマンス向上
– テーブル制約
customer
A B C

テーブル
論理的
物理的
customer_p1 customer_p2 customer_p3
ACCCA AB B
ノード 1
customer
A B C

Create Projection の DDL
基本クエリ（Join
も指定可能）
セグメンテーショ
ンと K-safety
列のリストとエン
コーディング
ソート順
SEGMENTED BY hash ( host, interface,
time, metric ) ALL NODES KSAFE;
CREATE projection snmp_p1 (
host encoding rle,
interface encoding rle,
time encoding commondelta_comp,
metric encoding rle,
value encoding deltaval
) as
ORDER BY host, interface, metric, time
SELECT
host,
interface,
time,
metric,
value
FROM snmp

手動プロジェクション設計

手動プロジェクション設計概要
– データの定義
– 列をリスト
– ストレージフットプリントを最小化
– エンコーディングもしくは圧縮を適用
– クエリパフォーマンスに最適化
– ランレングス符号化（RLE）を適用
– ソート順の最適化
– 並列処理できるようにデータを分散化
– セグメンテーションの定義
SEGMENTED BY
CREATE
ORDER BY
SELECT

含めるべき列
– クエリに必要とされる全ての列を含む
– Deleteの述語も含む
– ソーステーブルの列のサブセットである可能性あり
– クエリが実行された際、テーブルごとに1つのプロジェクションのみクエリ応答に使われる
SEGMENTED BY
host encoding rle,
interface encoding rle…
ORDER BY
SELECT

エンコーディング対圧縮
– エンコーディング
– あるフォーマットから別のフォーマットへ情報を変換する処理
– エンコード済データは、ディスク容量を節約
– 最初にデコードせずに、エンコード済データを処理可能
– 圧縮
– より少ないビット情報で符号化情報を処理
– 圧縮済データは、ディスク容量を節約
– 処理前に解凍される必要あり
SEGMENTED BY
host encoding rle,
interface encoding rle…
ORDER BY
SELECT

一般的な圧縮とエンコーディングの種類
圧縮／エンコーディング形式使用タイミング例
ランレングス符号化
（RLE）
低いカーディナリティの値を並び替え
（値毎に少なくとも10個連続したレ
コード）
郵便番号、記号、市外局番
差分符号化
（DELTAVAL）
高いカーディナリティの整数を並び替
え
シーケンス番号、プライマ
リーキー
ブロック符号化
（BLOCK_DICT）
未ソート、低いカーディナリティの整
数、日付、タイムスタンプ、浮動小数
（ORDER BYの前にはない）
在庫量
デルタ圧縮
（COMMONDELTA_COMP）
一定の期間毎に増加する値周期
可逆データ圧縮アルゴリズム
（LZO）
高いカーディナリティ、部分的に並び
替えもしくは並び替えられていない文
字列／可変長の文字列
値段
RLEはストレージフットプリントを最小化し、クエリパフォーマンスを最適化する

プロジェクションのソート順の決定
– ORDER BY 文で：
1. クエリの述語から開始
– カーディナリティの低いものから高いものへ述語を並び替え
– ソート順で列をランレングス符号化（RLE）
2. JOIN、かつ／または、GROUP BY に基づき列を並び替え
– カーディナリティの低いものから高いものへ JOIN、かつ／または、GROUP BY の列を並び替え
3. 平均ランレングスが10未満になるまで残りの列を並び替え
SEGMENTED BY
CREATE
SELECT
ORDER BY host, interface,
metric, time

プロジェクションのセグメンテーション
– サイズの大きいテーブルを分散化し、サイズの小さいテーブルを複製
– ランダムなデータ分散のためにセグメンテーション用の列の選択
– 相対的に一意の値を含む列
– クエリの述語での使用頻度が低い列
– JOINがローカルで処理されるように分散
– 最も一般的なのは、分散化されたファクトテーブルを複製されたディメンションテーブルにJOIN
– サイズの大きいディメンションテーブル、ファクト同士のJOIN、自己結合については、Identically Segmented プロジェクション
（ISP）を使うことを検討
SEGMENTED BY hash (host,
interface) ALL NODES
OFFSET 0;
CREATE
SELECT
ORDER BY

セグメンテーション句
– SEGMENTED BY HASH
– ノード間でデータを均等に分散
– 一意の値が80%より多く、ランダムであるべ
き
– クエリの述語に出てくる列には使用しない
– セグメンテーションに適した列もしくは列の組
み合わせがない場合、新たにセグメンテー
ション用に列を作成
– ALL NODES {OFFSET N}
– ALL NODES
– ALL NODES OFFSET 1
– ALL NODES KSAFE
–ALL NODES OFFSET 0のプロ
ジェクションとALL NODES
OFFSET 1のプロジェクションを作成する
ことと等価（k=1の場合）
– 全く同じバディープロジェクションを作成するた
めに使用
SEGMENTED BY hash (host,interface,time,metric) ALL NODES KSAFE;

ハッシュ関数
– ノードは、セグメンテーション式の値の範囲を格納
SEGMENTED BY hash (host, interface, time, metric)
0 264
ノード 1 ノード 2 ノード 3
= 4718658032094123622
ノード 2へマップ
hash ("vertica.com", "eth0", 6300000,
"184.106.12.19")

ランレングス符号化 – どう処理されるか？
– 同じ値が連続するように、ランレングス符号化済の列を並び替え
– 各「バケット」が、以降の列の行のセットにマッピング
– 一つの列のクエリ述語は、他の列のデータ読み込みを限定
F
M
Fresh
Junior
Senior
Soph
Fresh
Junior
Senior
Soph
F
F
F
F
T
T
T
T
F
F
F
F
T
T
T
T
Gender Class Pass Name
SELECT Name
FROM Students
WHERE Class='Junior'
and Gender='M'
and Pass='T'

ランレングス符号化 – 停止タイミング
– ソート順に列を追加し、平均繰り返し回数が10未満になるまで、RLEの適用を継続
– バケット毎に繰り返し回数を決定するために：
– プロジェクションの定義： … ORDER BY gender, class, pass;
– SELECT count(*)
FROM students
GROUP BY gender, class, pass;
– RLEでこれ以上の効果が望めないと判断した場合、他の列に対しての他のエンコーディングや圧縮のオプション
を検討

ランレングス符号化 – 停止タイミング
RLEの平均繰り返し回数が10未満
375 93.7 46.8 2.5
(350)
(400)
(50)
(100)
(100)
(100)
(100)
(100)
(100)
(100)
(25)
(50)
(50)
(50)
(25)
(50)
(50)
(50)
(50)
(50)
(50)
(50)
(50)
(50)
(50)
(50)
Gender Class Pass Name
SELECT Name
FROM Students
WHERE Class='Junior'
and Gender='M'
and Pass='T'
平均:

プリジョインプロジェクション

プリジョインプロジェクション
– 複数テーブルからの列を含む
– 物理的に、非正規化
– 論理的に、スタースキーマもしくはスノーフレークスキーマを保持
– ロード実行時に結合処理を実行することにより、クエリ実行時に結合処理を回避
– DeleteやUpdate処理が遅くなる可能性あり
– 制限
– 主キーと外部キーが正式に定義されている必要あり
– 内部結合のみ対応
– 各外部キーが主キーを持つ必要あり
– 自己結合は非対応
– ディメンションテーブルのデータは最初にロードされる必要あり

プリジョインプロジェクション：テーブルの例
論理スキーマ：
テーブル: fact
テーブル:
customer_dimension
CREATE TABLE customer_dimension (
id int not null PRIMARY KEY,
name varchar(30)
);
CREATE TABLE fact (
id int,
customer_id int not null REFERENCES customer_dimension
(id)
);
id customer_id
10 1
20 1
30 2
40 1
50 2
60 1
id name
1 Steve
2 Mary

プリジョインプロジェクション：プロジェクションの例
CREATE PROJECTION fact_cust_pjp (
f_id ENCODING RLE,
customer_id ENCODING RLE,
name
)
AS SELECT
f.id,
f.customer_id,
d.name
FROM fact f, customer_dimension d
WHERE f.customer_id = d.id
ORDER BY d.name, f.customer_id, f.id
SEGMENTED BY HASH (f.id)
ALL NODES;
f_id
10
20
30
40
50
60
customer_id
1
1
2
1
2
1
> プリジョインプロジェクションが使われ
る例：
SELECT name, f.id
WHERE f.customer_id = d.id;
> プリジョインプロジェクションが使われ
ない例：
SELECT name, d.id
WHERE f.customer_id = d.id;
Name
Steve
Steve
Mary
Steve
Mary
Steve

プリジョインプロジェクション関連Tips
– ディメンションテーブルのデータは最初にロードされなければならない
– ファクトのデータのロード時にディメンションのデータへの結合処理が発生
– ファクトとディメンションテーブルのスーパープロジェクションをマージ結合に最適化
– データ拡張に注意
– プリジョインプロジェクションの設計は、データ拡張に影響を大きく与える可能性あり
– クエリパフォーマンスに影響が出る可能性あり
– ソート順を決める際に、ディメンションの列が相関を持つように並べるようにする
– データロードの頻度を考慮
– ロードが頻繁で、ディメンションテーブルが大きい場合、ロード時の結合処理に時間がかかりすぎる可能性あり

ライブアグリゲートプロジェクション

ライブアグリゲートプロジェクションとは
– アンカーテーブル内の列を用いて計算された列の値を含むプロジェクション
– アンカーテーブルより、Delete、Update、Merge不可
– デフォルトで有効
– データロード時に更新される

ライブアグリゲートプロジェクションの階層（1/4）
アンカーテーブル
A B C
アンカーテーブ
ルは必須

アンカーテーブル
A B C
CAB
ベースプロジェクション
集計されたプロジェクションの
ベースとなる通常のプロジェク
ションは最低一つ必要
ルは必須

A B C
CAB
ライブアグリゲートプロジェクション
CAB
集計された列
E
=
A
G
G
D
=
A
G
G
ルは必須
ライブアグリゲートプロジェク
ションは1つの通常のプロジェク
ションをベースとして作成される
アンカーテーブルベースプロジェクション

A B C
CAB
ルは必須
CAB
7.2以前：LAPに対してのみクエリ実行可能
7.2以降：テーブルに対してもクエリ実行可能
ライブアグリゲートプロジェク
ションは1つの通常のプロジェク
ションをベースとして作成される
E
=
A
G
G
D
=
A
G
G
ライブアグリゲートプロジェクションアンカーテーブルベースプロジェクション

ライブアグリゲートプロジェクションの作成
1. アンカーテーブルを作成する。
CREATE TABLE clicks(user_id INTEGER, page_id INTEGER, click_time
TIMESTAMP NOT NULL;
2. アンカープロジェクションを作成する。
CREATE PROJECTION clicks_anchorp AS SELECT * FROM clicks SEGMENTED BY
HASH(user_id) ALL NODES KSAFE;
3. ライブアグリゲートプロジェクションを作成する。
CREATE PROJECTION clicks_agg
AS SELECT user_id, page_id, click_time::DATE click_date,
COUNT(*) num_clicks FROM clicks
GROUP BY user_id, page_id, click_time::DATE;

ライブアグリゲートプロジェクションの要件
– アンカープロジェクションは、アンカーテーブルのすべての列を含む必要があり、k-safeが維持される必要あり
– アンカープロジェクションのセグメンテーションは、ライブアグリゲートプロジェクションのセグメンテーションのサブ
セットである必要あり
– ライブアグリゲートプロジェクションのSELECTリスト内にある列のリストは、GROUP BY句にある列のリストの並
び順と同一である必要あり
– ライブアグリゲートプロジェクションのSELECTリストの始めにGROUP BYの列を配置する必要あり
– GROUP BYとPARTITION BY句は、アンカープロジェクションのセグメンテーションに含まれる必要あり
– GROUP BY句が含まれ、CREATE PROJECTION文の最後にある必要あり
– ORDER BY句や、サブクエリ、OFFSET句は使用不可

サポートされる集計関数
– ライブアグリゲートプロジェクションでは、下記集計関数のみ利用可能
– SUM [Aggregate]
– MAX [Aggregate]
– MIN [Aggregate]
– COUNT [Aggregate]

Top-K プロジェクション
– Top-Kプロジェクションは、ライブアグリゲートプロジェクションの一種
– 選択された行のパーティション毎に上位k個の行を取得するクエリのパフォーマンスを向上させるために使用

Top-K プロジェクションの例
Top-K のクエリ例
SELECT meter_id, reading_date, reading_value FROM readings
LIMIT 5 OVER (PARTITION BY meter_id ORDER BY reading_date
DESC);
meter_idで構成されるTop-Kプロジェクションを作成し、各ガスメーター用の最新の5つのメーター測定値を格納
CREATE PROJECTION readings_topk (meter_id, recent_date,
recent_value) AS SELECT meter_id, reading_date, reading_value
FROM readings LIMIT 5 OVER (PARTITION BY meter_id ORDER BY
reading_date DESC);

Top-K プロジェクションの要件
– ライブアグリゲートプロジェクションの要件に順ずる
– Top-Kプロジェクションは、LIMIT、OVER、PARTITION BY、ORDER BY句を含む必要あり
– OVER()句内で、PARTITION BY句にORDER BY句のみ使用可能
– SELECTリストに、PARTITION BYとORDER BY句の列も含まれる必要あり
– PARTITION BY句は、アンカープロジェクションのセグメンテーションに含まれる必要あり
– Top-Kプロジェクションは、ORDER BY NULLS FIRST/LASTをサポート

数式を含むプロジェクション

プロジェクション定義への数式の使用
– 列の定義に数式を使ったプロジェクションを作成
– データをアンカーテーブルにロードした際に、プロジェクションの数式の値が計算される
– クエリ実行時に計算で消費するリソースを削減
– アンカーテーブル上でMerge処理を実行できないこと以外は、他のプロジェクションと同様
– アンカーテーブルの代わりに、プロジェクションから直接計算されたデータを検索

数式を含むプロジェクションの例
数式を含むクエリの例
SELECT a, b, a*b FROM values;
必要なクエリデータを含むテーブルを作成
CREATE TABLE values (a INT, b INT);
クエリに数式を含むプロジェクションを作成
CREATE PROJECTION values_product (a, b,
product_value)
AS SELECT a, b, a*b FROM values
SEGMENTED BY HASH(a) ALL NODES KSAFE;

本章のまとめ
– データベースデザイン
– 手動プロジェクション設計
– ランレングス符号化
– プリジョインプロジェクション
– ライブアグリゲートプロジェクション
– プロジェクションの数式
42

01 shang ji_puroziekushiyon_she_ji_

Recommended

Recommended

More Related Content

Similar to 01 shang ji_puroziekushiyon_she_ji_

Similar to 01 shang ji_puroziekushiyon_she_ji_ (20)

More from Kaito Tonooka

More from Kaito Tonooka (15)

01 shang ji_puroziekushiyon_she_ji_

Editor's Notes