nl2sql: sql_prompt.py 모듈 분리 + eval/training/verifier 파이프라인

2026-05-29 09:49:29 +09:00
parent f972c66810
commit c7da3f9735
28 changed files with 3490 additions and 94 deletions
--- a/mcp-server/worker/nl2sql_worker.py
+++ b/mcp-server/worker/nl2sql_worker.py
@@ -98,104 +98,15 @@ def _llm_client():
    from openai import AsyncOpenAI
    return AsyncOpenAI(base_url=VLLM_BASE_URL, api_key="dummy")

-# DB 스키마 — server.py::_DB_SCHEMA와 동일
-DB_SCHEMA = """
-PostgreSQL 시계열 데이터베이스 스키마
-
-테이블: history_table  (시계열 이력)
-  tagname     TEXT         - 태그명 (모두 소문자, 예: 'ficq-6113.pv') — 대소문자 구분
-  node_id     TEXT         - OPC UA 노드 ID
-  value       TEXT         - 측정값, 수치 연산 시 ::double precision 캐스트 필요
-  recorded_at TIMESTAMPTZ  - 기록 시각(UTC), 스냅샷 주기 약 60초
-
-테이블: realtime_table  (실시간 최신값)
-  tagname     TEXT         - 태그명 (모두 소문자)
-  node_id     TEXT         - OPC UA 노드 ID
-  livevalue   TEXT         - 현재값
-  timestamp   TIMESTAMPTZ  - 최종 갱신 시각
-
-테이블: tag_metadata  (태그 메타데이터 - 변경 드묾)
-  base_tag    TEXT         - 기본 태그명 (예: 'ficq-6101', 'xv-6124')
-  attribute   TEXT         - 속성명 ('desc', 'area')
-  value       TEXT         - 메타데이터 값
-  node_id     TEXT         - OPC UA 노드 ID
-  loaded_at   TIMESTAMPTZ  - 마지막 로드 시각
-
-뷰: v_tag_summary  (실시간값 + 메타데이터 통합 뷰)
-  base_tag          TEXT   - 기본 태그명
-  pv                TEXT   - 현재 프로세스 값
-  sp                TEXT   - 설정값
-  op                TEXT   - 출력값
-  instate0          TEXT   - 상태 비트 0 (true/false)
-  instate1          TEXT   - 상태 비트 1 (true/false)
-  instate2          TEXT   - 상태 비트 2 (true/false)
-  description       TEXT   - 장비 설명 (tag_metadata.desc)
-  area              TEXT   - 소속 플랜트 (tag_metadata.area)
-
-새로운 태그 타입:
-  - 아날로그: ficq-6101.pv/sp/op (Double)
-  - 디지털 XV: xv-6124.pv/op (Int32), xv-6124.instate0~7 (Boolean)
-  - Pump: p-6102.pv/op (Int32), p-6102.instate0~7 (Boolean)
-  - 메타데이터: desc (String), area (Enum)
-
-BCD 상태 조회 팁:
-  - instate0~7은 Boolean (true/false)
-  - pv 값이 EnumValueType 형식인 경우 `{코드 | DisplayName | }`에서 DisplayName으로 상태 확인 가능
-  - v_tag_summary 뷰를 사용하면 실시간값+메타데이터 한 번에 조회 가능
-
-N분 간격 집계 공식 (time_bucket 금지, date_trunc 사용):
-  1분 버킷: date_trunc('minute', recorded_at) AS bucket
-  2분 버킷: to_timestamp(FLOOR(EXTRACT(EPOCH FROM recorded_at)/120)*120) AS bucket
-  5분 버킷: to_timestamp(FLOOR(EXTRACT(EPOCH FROM recorded_at)/300)*300) AS bucket
-  10분 버킷: to_timestamp(FLOOR(EXTRACT(EPOCH FROM recorded_at)/600)*600) AS bucket
-  N분 버킷: to_timestamp(FLOOR(EXTRACT(EPOCH FROM recorded_at)/(N*60))*(N*60)) AS bucket
-
-예시 (2분 간격, 여러 태그, KST 표시):
-  SELECT to_timestamp(FLOOR(EXTRACT(EPOCH FROM recorded_at)/120)*120) AT TIME ZONE 'Asia/Seoul' AS bucket,
-         tagname, AVG(value::double precision) AS avg_val
-  FROM history_table
-  WHERE tagname IN ('tag1', 'tag2')
-    AND recorded_at >= NOW() - INTERVAL '3 hours'
-  GROUP BY to_timestamp(FLOOR(EXTRACT(EPOCH FROM recorded_at)/120)*120), tagname
-  ORDER BY to_timestamp(FLOOR(EXTRACT(EPOCH FROM recorded_at)/120)*120), tagname
-
-규칙:
-  - SELECT만 허용 (INSERT/UPDATE/DELETE/DROP 등 불가)
-  - tagname은 모두 소문자로 정확히 입력
-  - value 컬럼은 TEXT이므로 집계 시 ::double precision 캐스트 필수
-  - time_bucket 함수 사용 금지 — 위의 to_timestamp/FLOOR/EPOCH 공식 사용
-"""
+# DB 스키마 + SQL system 프롬프트 — worker/sql_prompt.py 로 단일화(production+eval 공유)
+from sql_prompt import DB_SCHEMA, SQL_SYSTEM_PROMPT  # noqa: E402,F401

 async def _generate_sql(natural_language: str) -> str:
    """자연어를 SQL로 변환."""
    client = _llm_client()
-    
-    system = (
-        "You are a PostgreSQL SQL expert.\n"
-        "Convert the user's question into a SELECT SQL using the schema below.\n"
-        "IMPORTANT rules:\n"
-        "- Use ONLY PostgreSQL syntax. No DATE_FORMAT, no INTERVAL N DAY.\n"
-        "- Time column is 'recorded_at' (TIMESTAMPTZ). Do NOT use 'timestamp'.\n"
-        "- NEVER use time_bucket(). For N-minute buckets use to_timestamp/FLOOR/EPOCH formula.\n"
-        "- INTERVAL rule:\n"
-        "    * If the question specifies an interval (e.g. '2분 간격', '5-minute interval'):\n"
-        "        use: to_timestamp(FLOOR(EXTRACT(EPOCH FROM recorded_at)/(N*60))*(N*60)) AS bucket\n"
-        "        with GROUP BY bucket, tagname and AVG(value::double precision) AS avg_val\n"
-        "    * If NO interval is specified: SELECT recorded_at, tagname, value — NO GROUP BY.\n"
-        "- Current year is 2026. '4월 27일' means 2026-04-27.\n"
-        "- All times in DB are UTC. Korean input is KST (UTC+9). Convert KST→UTC for WHERE: KST 12:00 = UTC 03:00.\n"
-        "- Display times in KST: always apply AT TIME ZONE 'Asia/Seoul' on time columns in SELECT.\n"
-        "  * Non-aggregated: SELECT recorded_at AT TIME ZONE 'Asia/Seoul' AS recorded_at, ...\n"
-        "  * Aggregated bucket: GROUP BY the raw UTC expression, then convert only in SELECT:\n"
-        "      SELECT to_timestamp(...) AT TIME ZONE 'Asia/Seoul' AS bucket, AVG(...) AS avg_val\n"
-        "      FROM ... GROUP BY to_timestamp(...), tagname ORDER BY to_timestamp(...), tagname\n"
-        "- value column is TEXT; cast with ::double precision only when aggregating.\n"
-        "- All tagnames are lowercase (e.g. 'ficq-6113.pv'). Match exactly.\n"
-        "- PostgreSQL LIKE: dot has no special meaning, no escaping needed.\n"
-        "- Return ONLY the SQL statement. No explanation, no markdown.\n\n"
-        f"{DB_SCHEMA}"
-    )
-    
+
+    system = SQL_SYSTEM_PROMPT
+
    response = await client.chat.completions.create(
        model=VLLM_MODEL,
        messages=[