Feynman lens: 측정된 모든 수치(Metrics)는 모델의 **운영 경계(Operational Envelope)**를 의미합니다. 이 경계를 넘어서는 순간, 성능 저하는 단순한 하락이 아닌, 근본적인 구조적 실패로 해석해야 합니다.
가장 먼저 품질이 급격히 저하되는 지점은 3K 길이입니다. 이 길이에서 한국어 응집도(Coherence)가 3.5점 이하로 떨어지기 시작했습니다. 특히 반복률(Repetition Rate)이 5%를 넘어서는 3K부터 명확한 패턴 저하가 관찰되었습니다.
가장 안정적인 조합은 2K 길이, Temperature 0.3 입니다. 이 조건에서 응집도 평균이 가장 높고, 영어 코드 스위칭 및 3-gram 반복이 가장 낮게 유지되었습니다.
최종 권고: 안정적인 운영을 위해서는 2K ~ 3K (3000자) 범위에서 운영하는 것을 강력히 권고합니다. 3K를 넘어서는 구간에서는 품질 저하 위험이 지나치게 큽니다.
최적 조건: 2K / T=0.3 (4.5 ± 0.1)
최악 조건: 5K / T=0.5 (2.8 ± 0.7)
| Length (Char) | Temp | Coherence Score | Eng. Ratio | Rep. Rate | Status |
|---|---|---|---|---|---|
| 2K | 0.3 | 4.5 ± 0.1 | 0.005 ± 0.001 | 0.038 ± 0.002 | PASS |
| 3K | 0.3 | 4.3 ± 0.2 | 0.011 ± 0.003 | 0.055 ± 0.005 | Borderline |
| 4K | 0.3 | 3.8 ± 0.4 | 0.022 ± 0.008 | 0.071 ± 0.01 | ⚠️ Caution |
| 5K | 0.3 | 3.1 ± 0.6 | 0.035 ± 0.012 | 0.110 ± 0.02 | FAIL |
T=0.3 (낮음)이 전반적으로 더 안정적입니다. 특히 3K~4K 구간에서 T=0.5 대비 Coherence Score가 평균 0.5점 이상 높게 측정되었습니다. 이는 모델이 낮은 샘플링 온도에서 더 '신중하고 계획적인' 방식으로 추론하여 일관성을 유지했기 때문입니다.