SQL PARTITION BYの基本と効率的に集計する便利な方法
PARTITION BYを使った分析関数を使いこなせれば複雑な集計でもシンプルなSQLで実装できます。
以下のサンプルはOracleの構文で紹介していますが、他のデータベースでも基本的には考え方は同じです。
分析関数の基本
以下のテーブルがあるとします。
| id | first_name | last_name | department_id | height |
|---|---|---|---|---|
| 1 | 一郎 | 山田 | 1 | 170 |
| 2 | 次郎 | 佐藤 | 2 | 175 |
| 3 | 三郎 | 田中 | 1 | 185 |
| 4 | 四郎 | 鈴木 | 2 | 155 |
以下のように、first_nameと取得したレコード数を同時に取得したいとき、以下のようなSQLではエラーになってしまいます。
SELECT
last_name,
COUNT(1) total_count
FROM
employeeエラーORA-00937: 単一グループのグループ関数ではありません。employeeテーブルの各レコードのデータと、レコードを集計したデータは集計単位が違うので、普通のGROUP BYを使うやり方ではうまくいきません。
以下のように分析関数を使用すれば集計方法が異なる集計結果を1度に取得できます。
SELECT
last_name,
COUNT(1) OVER() total_count
FROM
employee| last_name | total_count |
|---|---|
| 山田 | 4 |
| 佐藤 | 4 |
| 田中 | 4 |
| 鈴木 | 4 |
OVER句の基本的な使い方
分析関数を使用するにはOVER句を使います。
OVER (PARTITION BY 集計単位 ORDER BY 表示順)のように指定します。
PARTITION BY
PARTITION BYはGROUP BYのイメージで、集計したい列を指定します。
省略した場合は取得対象全体の集計になります。
ORDER BY
ORDER BYは表示順を指定します。
ROW_NUMBER(行番号)など、集計に並び替えが必要な場合は指定します。COUNTやSUMのような集計は並び替えが不要なので省略できます。
使用例
文章での説明ではイメージがわかないと思うので具体的な使用例を紹介します。
| id | first_name | last_name | department_id | height |
|---|---|---|---|---|
| 1 | 一郎 | 山田 | 1 | 170 |
| 2 | 次郎 | 佐藤 | 2 | 175 |
| 3 | 三郎 | 田中 | 1 | 185 |
| 4 | 四郎 | 鈴木 | 2 | 155 |
SELECT
last_name,
--全体の総件数
COUNT(1) OVER() total_count,
--部門ごとの件数
COUNT(1) OVER(PARTITION BY department_id) section_count,
--部門ごとの最大身長
MAX(height) OVER(PARTITION BY department_id) section_max_height,
--部門ごとの身長順(身長順に並び替えたときの行番号)
ROW_NUMBER() OVER(PARTITION BY department_id ORDER BY height DESC) section_height_order,
--全体の身長順(身長順に並び替えたときの行番号)
ROW_NUMBER() OVER(ORDER BY height DESC) height_order
FROM
employee
ORDER BY
id| last_name | total_count | section_count | section_max_height | section_height_order | height_order |
|---|---|---|---|---|---|
| 山田 | 4 | 2 | 185 | 2 | 3 |
| 佐藤 | 4 | 2 | 175 | 1 | 2 |
| 田中 | 4 | 2 | 185 | 1 | 1 |
| 鈴木 | 4 | 2 | 175 | 2 | 4 |
例えばPARTITION BYでdepartment_idを指定したらdepartment_idが集計単位となるため、department_idが同じレコードは全て取得結果が同じになっていることが確認できます。
また、PARTITION BYが未指定時は全体の集計なので全てのレコードが同じ値になっています。