zukucode
主にWEB関連の情報を技術メモとして発信しています。

SQL PARTITION BYの基本と効率的に集計する便利な方法

PARTITION BYを使った分析関数を使いこなせれば複雑な集計でもシンプルなSQLで実装できます。

以下のサンプルはOracleの構文で紹介していますが、他のデータベースでも基本的には考え方は同じです。

分析関数の基本

以下のテーブルがあるとします。

employee(社員)
idfirst_namelast_namedepartment_idheight
1一郎山田1170
2次郎佐藤2175
3三郎田中1185
4四郎鈴木2155

以下のように、first_nameと取得したレコード数を同時に取得したいとき、以下のようなSQLではエラーになってしまいます。

SELECT
  last_name,
  COUNT(1) total_count
FROM
  employee
エラー
ORA-00937: 単一グループのグループ関数ではありません。

employeeテーブルの各レコードのデータと、レコードを集計したデータは集計単位が違うので、普通のGROUP BYを使うやり方ではうまくいきません。

以下のように分析関数を使用すれば集計方法が異なる集計結果を1度に取得できます。

SELECT
  last_name,
  COUNT(1) OVER() total_count
FROM
  employee
取得結果
last_nametotal_count
山田4
佐藤4
田中4
鈴木4

OVER句の基本的な使い方

分析関数を使用するにはOVER句を使います。

OVER (PARTITION BY 集計単位 ORDER BY 表示順)のように指定します。

PARTITION BY

PARTITION BYGROUP BYのイメージで、集計したい列を指定します。

省略した場合は取得対象全体の集計になります。

ORDER BY

ORDER BYは表示順を指定します。

ROW_NUMBER(行番号)など、集計に並び替えが必要な場合は指定します。COUNTSUMのような集計は並び替えが不要なので省略できます。

使用例

文章での説明ではイメージがわかないと思うので具体的な使用例を紹介します。

employee(社員)
idfirst_namelast_namedepartment_idheight
1一郎山田1170
2次郎佐藤2175
3三郎田中1185
4四郎鈴木2155
SELECT
  last_name,
  --全体の総件数
  COUNT(1) OVER() total_count,
  --部門ごとの件数
  COUNT(1) OVER(PARTITION BY department_id) section_count,
  --部門ごとの最大身長
  MAX(height) OVER(PARTITION BY department_id) section_max_height,
  --部門ごとの身長順(身長順に並び替えたときの行番号)
  ROW_NUMBER() OVER(PARTITION BY department_id ORDER BY height DESC) section_height_order,
  --全体の身長順(身長順に並び替えたときの行番号)
  ROW_NUMBER() OVER(ORDER BY height DESC) height_order
FROM
  employee
ORDER BY
  id
取得結果
last_nametotal_countsection_countsection_max_heightsection_height_orderheight_order
山田4218523
佐藤4217512
田中4218511
鈴木4217524

例えばPARTITION BYdepartment_idを指定したらdepartment_idが集計単位となるため、department_idが同じレコードは全て取得結果が同じになっていることが確認できます。

また、PARTITION BYが未指定時は全体の集計なので全てのレコードが同じ値になっています。



関連記事