Redshift에서 id가 일련의 값보다 작은 행의 쿼리 수 (query count of rows where id is less than a series of values in Redshift)


문제 설명

Redshift에서 id가 일련의 값보다 작은 행의 쿼리 수 (query count of rows where id is less than a series of values in Redshift)

매일 x_data 테이블의 latest_id를 저장하는 etl_control 테이블이 있습니다. 이제 매일 행 수를 얻어야 하는 요구 사항이 있습니다. 내 생각은 매일 쿼리를 실행하여 x_data.id x_data.id <= etl_control.latest_id 조건에 따라 카운트를 얻고 카운트를 얻는 것입니다.

테이블 구조는 다음과 같습니다. 다음을 따릅니다.

etl_control:

record_date     |   latest_id   |
‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑
2016‑11‑01      |   55          |
2016‑11‑02      |   125         |
2016‑11‑03      |   154         |
2016‑11‑04      |   190         |
2016‑11‑05      |   201         |
2016‑11‑06      |   225         |
2016‑11‑07      |   287         |

x_data:

id              |   value       |
‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑‑
10              |   xyz         |
11              |   xyz         |
21              |   xyz         |
55              |   xyz         |
101             |   xyz         |
108             |   xyz         |
125             |   xyz         |
142             |   xyz         |
154             |   xyz         |
160             |   xyz         |
166             |   xyz         |
178             |   xyz         |
190             |   xyz         |
191             |   xyz         |

최종 결과에는 매일 x_data의 행 수가 있어야 합니다. JOIN, WITH 및 COUNT(*) OVER를 사용하여 다양한 변형을 시도했습니다. 그러나 가장 큰 장애물은 x_data.id를 etl_control.latest_id와 반복적으로 비교하는 것입니다.


참조 솔루션

방법 1:

Really sorry folks. Got the answer myself after posting the question.

The query is really simple.

WITH data AS (
    SELECT e.latest_id
    FROM x_data AS x, etl_control AS e
    WHERE x.id <= e.latest_id)
SELECT latest_id, count(*) FROM data GROUP BY latest_id;

This basically creates a temp table with latest_id repeated for each row. The latest_id is always greater than or equal to the id from x_data.

A simple group by on this temp table would give the expected result.

(by user1741851user1741851)

참조 문서

  1. query count of rows where id is less than a series of values in Redshift (CC BY‑SA 2.5/3.0/4.0)

#amazon-redshift #psql






관련 질문

AWS Redshift JDBC 삽입 성능 (AWS Redshift JDBC insert performance)

데이터 웨어하우스에는 어떤 종류의 데이터가 저장됩니까? (What kind of data gets stored in data warehouses?)

임시 자격 증명을 사용하여 Redshift COPY 명령을 실행하는 동안 액세스 거부 오류가 발생했습니다. (Access denied error while runnig Redshift COPY command using Temp credential)

Firebase에서 Amazon Redshift로 데이터 로드 (Load data from firebase to amazon redshift)

PL/pgsql DDL을 작성하여 redshift에서 스키마를 생성한 다음 ddls를 반복하여 각 스키마에 테이블을 생성하는 방법은 무엇입니까? (How to write PL/pgsql DDL to create schemas in redshift and then looping the ddls to create tables in the respective schemas?)

redshift에서 데이터 프레임을 저장할 수 없습니다 (Unable to save dataframe in redshift)

Redshift에서 id가 일련의 값보다 작은 행의 쿼리 수 (query count of rows where id is less than a series of values in Redshift)

[Amazon](500310) 잘못된 작업: "$$ 또는 그 근처에서 종료되지 않은 달러 인용 문자열 ([Amazon](500310) Invalid operation: unterminated dollar-quoted string at or near "$$)

Redshift JDBC DatabaseMetaData.getDatabaseMajorVersion()이 최신 값을 반환합니까? (Does the Redshift JDBC DatabaseMetaData.getDatabaseMajorVersion() return an up to date value?)

Where 절을 무시하는 Redshift 교차 조인 (Redshift Cross join ignoring where clause)

AWS Redshift는 RECORD에서 열 이름을 동적으로 선택합니다. (AWS Redshift dynamically select column name from RECORD)

여러 열을 기반으로 중복을 제거하고 하나의 고유한 레코드를 선택하도록 조건을 설정합니다. (Remove duplicates based on multiple columns and set conditions to choose one unique record)







코멘트