#!/usr/bin/env python3 """P&ID 센서/계측기 추출기 FT, FIT, LT, PT, TE, PG, LG, TG 등 센서/계측기 전용 추출. 사용법: python pid_extract_sensor.py --input full_text.txt --output sensor.json """ import sys import os # mcp-server/worker 디렉토리를 경로에 추가 sys.path.insert(0, os.path.dirname(os.path.abspath(__file__))) from pid_extract_template import parse_json_array, call_llm, main as template_main from pid_extract_prompts import _SENSOR_PROMPT import argparse import json import logging import time logger = logging.getLogger("pid_extractor.sensor") def extract(input_text: str, max_tokens: int = 65536) -> list: """센서/계측기 태그 추출.""" return call_llm(_SENSOR_PROMPT, input_text, max_tokens=max_tokens) if __name__ == "__main__": # --prompt를 자동으로 _SENSOR_PROMPT로 설정 parser = argparse.ArgumentParser(description="P&ID 센서/계측기 추출기") parser.add_argument("--input", required=True, help="입력 텍스트 파일 경로") parser.add_argument("--output", required=True, help="출력 JSON 파일 경로") parser.add_argument("--max-tokens", type=int, default=65536, help="최대 토큰 수") args = parser.parse_args() # 입력 읽기 with open(args.input, "r", encoding="utf-8") as f: input_text = f.read() logger.info(f"입력 파일 읽기 완료: {len(input_text)}자") # LLM 호출 t0 = time.time() tags = extract(input_text, max_tokens=args.max_tokens) elapsed = time.time() - t0 logger.info(f"추출 완료: {len(tags)}개 태그, 소요 시간: {elapsed:.1f}초") # 결과 저장 output_dir = os.path.dirname(args.output) if output_dir: os.makedirs(output_dir, exist_ok=True) result = { "success": True, "count": len(tags), "tags": tags, "processing_time_sec": round(elapsed, 1), } with open(args.output, "w", encoding="utf-8") as f: json.dump(result, f, ensure_ascii=False, indent=2) logger.info(f"결과 저장 완료: {args.output}") print(json.dumps({"success": True, "count": len(tags), "time": round(elapsed, 1)}, ensure_ascii=False))