SQL PARTITION BYの基本と効率的に集計する便利な方法
PARTITION BY
を使った分析関数を使いこなせれば複雑な集計でもシンプルなSQL
で実装できます。
以下のサンプルはOracle
の構文で紹介していますが、他のデータベースでも基本的には考え方は同じです。
分析関数の基本
以下のテーブルがあるとします。
id | first_name | last_name | department_id | height |
---|---|---|---|---|
1 | 一郎 | 山田 | 1 | 170 |
2 | 次郎 | 佐藤 | 2 | 175 |
3 | 三郎 | 田中 | 1 | 185 |
4 | 四郎 | 鈴木 | 2 | 155 |
以下のように、first_name
と取得したレコード数を同時に取得したいとき、以下のようなSQL
ではエラーになってしまいます。
SELECT
last_name,
COUNT(1) total_count
FROM
employee
エラー
ORA-00937: 単一グループのグループ関数ではありません。
employee
テーブルの各レコードのデータと、レコードを集計したデータは集計単位が違うので、普通のGROUP BY
を使うやり方ではうまくいきません。
以下のように分析関数を使用すれば集計方法が異なる集計結果を1度に取得できます。
SELECT
last_name,
COUNT(1) OVER() total_count
FROM
employee
last_name | total_count |
---|---|
山田 | 4 |
佐藤 | 4 |
田中 | 4 |
鈴木 | 4 |
OVER句の基本的な使い方
分析関数を使用するにはOVER
句を使います。
OVER (PARTITION BY 集計単位 ORDER BY 表示順)
のように指定します。
PARTITION BY
PARTITION BY
はGROUP BY
のイメージで、集計したい列を指定します。
省略した場合は取得対象全体の集計になります。
ORDER BY
ORDER BY
は表示順を指定します。
ROW_NUMBER
(行番号)など、集計に並び替えが必要な場合は指定します。COUNT
やSUM
のような集計は並び替えが不要なので省略できます。
使用例
文章での説明ではイメージがわかないと思うので具体的な使用例を紹介します。
id | first_name | last_name | department_id | height |
---|---|---|---|---|
1 | 一郎 | 山田 | 1 | 170 |
2 | 次郎 | 佐藤 | 2 | 175 |
3 | 三郎 | 田中 | 1 | 185 |
4 | 四郎 | 鈴木 | 2 | 155 |
SELECT
last_name,
--全体の総件数
COUNT(1) OVER() total_count,
--部門ごとの件数
COUNT(1) OVER(PARTITION BY department_id) section_count,
--部門ごとの最大身長
MAX(height) OVER(PARTITION BY department_id) section_max_height,
--部門ごとの身長順(身長順に並び替えたときの行番号)
ROW_NUMBER() OVER(PARTITION BY department_id ORDER BY height DESC) section_height_order,
--全体の身長順(身長順に並び替えたときの行番号)
ROW_NUMBER() OVER(ORDER BY height DESC) height_order
FROM
employee
ORDER BY
id
last_name | total_count | section_count | section_max_height | section_height_order | height_order |
---|---|---|---|---|---|
山田 | 4 | 2 | 185 | 2 | 3 |
佐藤 | 4 | 2 | 175 | 1 | 2 |
田中 | 4 | 2 | 185 | 1 | 1 |
鈴木 | 4 | 2 | 175 | 2 | 4 |
例えばPARTITION BY
でdepartment_id
を指定したらdepartment_id
が集計単位となるため、department_id
が同じレコードは全て取得結果が同じになっていることが確認できます。
また、PARTITION BY
が未指定時は全体の集計なので全てのレコードが同じ値になっています。