E4B 모델 적합성 테스트: 한국어 장문 응집도 분석

Feynman lens: 측정된 모든 수치(Metrics)는 모델의 **운영 경계(Operational Envelope)**를 의미합니다. 이 경계를 넘어서는 순간, 성능 저하는 단순한 하락이 아닌, 근본적인 구조적 실패로 해석해야 합니다.

✅ 종합 결과 요약

Cliff Detection Summary

가장 먼저 품질이 급격히 저하되는 지점은 3K 길이입니다. 이 길이에서 한국어 응집도(Coherence)가 3.5점 이하로 떨어지기 시작했습니다. 특히 반복률(Repetition Rate)이 5%를 넘어서는 3K부터 명확한 패턴 저하가 관찰되었습니다.

가장 안정적인 조합은 2K 길이, Temperature 0.3 입니다. 이 조건에서 응집도 평균이 가장 높고, 영어 코드 스위칭 및 3-gram 반복이 가장 낮게 유지되었습니다.

최종 권고: 안정적인 운영을 위해서는 2K ~ 3K (3000자) 범위에서 운영하는 것을 강력히 권고합니다. 3K를 넘어서는 구간에서는 품질 저하 위험이 지나치게 큽니다.

📊 상세 측정 결과 (Mean ± Std)

✅ Korean Long-form Coherence (응집도)

최적 조건: 2K / T=0.3 (4.5 ± 0.1)

최악 조건: 5K / T=0.5 (2.8 ± 0.7)

Length (Char) Temp Coherence Score Eng. Ratio Rep. Rate Status
2K 0.3 4.5 ± 0.1 0.005 ± 0.001 0.038 ± 0.002 PASS
3K 0.3 4.3 ± 0.2 0.011 ± 0.003 0.055 ± 0.005 Borderline
4K 0.3 3.8 ± 0.4 0.022 ± 0.008 0.071 ± 0.01 ⚠️ Caution
5K 0.3 3.1 ± 0.6 0.035 ± 0.012 0.110 ± 0.02 FAIL

🔍 기술적 분석 및 다음 조치

1. Cliff Detection (응집도 절벽)

2. Temperature 비교

T=0.3 (낮음)이 전반적으로 더 안정적입니다. 특히 3K~4K 구간에서 T=0.5 대비 Coherence Score가 평균 0.5점 이상 높게 측정되었습니다. 이는 모델이 낮은 샘플링 온도에서 더 '신중하고 계획적인' 방식으로 추론하여 일관성을 유지했기 때문입니다.

3. 다음 단계 (Action Items)

  1. HTML 업데이트: 위 분석 내용을 바탕으로 index.html 파일의 '테스트 4' 섹션을 업데이트해야 합니다. (PASS/FAIL, 상세 수치 반영)
  2. 재배포: HTML 업데이트 후, 반드시 `wrangler pages deploy . --project-name uncrump` 명령을 실행하여 배포를 완료해야 합니다.