Model Card for Model ID
Model Details
Model Description
외국에서 만들어진 글로벌 LMM 오픈소스를 그대로 오프라인에서 사용하는 한국어 LLM 사용자를 위해 한국 정서, 역사, 기업문화/업무, 문서생성, 법률 데이터를 통해 한국어 기업용 LLM을 파인튜닝 하였습니다.
gpt-oss-20b를 파인튜닝 후 OSS-20B 대비 강화되는 능력을 정리하면:
한국어 문화·정서·톤 적합도↑
- 존대/반말, 회사 내 위계, 사회 규범·가치 판단을 더 자연스럽게 반영.
공공·정책·사회 이슈 Q&A 정확도↑
- 한국 역사·정치·외교·안보·사회문화 이슈를 한국 시각에서 설명·요약·비판하는 능력 강화.
기업 업무용 문서 생성력↑
- 기안/품의/보고/회의록/메일/PT·기획서 등 한국 기업 포맷을 제목·목적·간단한 입력만으로 자동 구성.
정형데이터→문서 변환 & 표/CSV 이해 능력↑
- 표/CSV/ERP 처리데이터를 받아 요약, 인사이트 도출, 이상징후 탐지, 자동 기안·정산 문서 생성.
한국 법·회계·금융 도메인 이해력↑
- K-IFRS, 계약서, 내부감사, 각종 법령·판례, 금융 공시 텍스트를 구조적으로 해석·요약·비교.
법률·금융 특화 한↔일/중 번역 품질↑
- 용어 일관성, 문체 유지, 조항 구조 유지 등 도메인 특화 번역 성능.
ERP 스타일 업무 지시 수행력↑
- “매출원가 집계해서 부서별 리포트 작성해줘” 같은 업무 지시를 단계적으로 해석하고 문서/요약 형태로 응답.
컴플라이언스·FDS 시나리오 이해력↑
- 규정 위반 케이스, 이상 거래 시나리오 설명·생성, 리스크 포인트 요약 등.
모델 요약
gpt-oss-safeguard-20b-kor-enterprisee는 gpt-oss-20b 기반으로,
약 274만 건의 한국 기업·법률·공공 도메인 데이터로 파인튜닝한 한국어 특화 LLM입니다.
- 🇰🇷 한국 문화·기업 업무 맥락 최적화
- 🧾 기안/품의/보고/정산 등 한국 기업 표준 양식 문서 자동 생성
- ⚖️ K-IFRS, 계약서, 판례, 공시 등 한국 법·회계·금융 텍스트 이해·요약
- 📊 표·CSV·ERP 데이터 기반 리포트/요약 생성
- 🌐 법률·금융 도메인 한↔일·중 번역
원본 OSS-20B 대비, 한국어 비즈니스/법률/데이터 처리형 태스크에 초점을 맞춰 성능을 강화했습니다.
사용 사례 (Intended Use)
기업 문서 작성 Copilot
- 기안서, 품의서, 보고서, 회의록, PT 초안, 이메일/메신저 답변 제안
- 표·숫자·CSV 기반 정산/정리/요약 문서 자동 생성
ERP/업무지시 보조
- ERP/회계/물류/HR 관련 자연어 지시 → 요약, 보고, 체크리스트, 문서화
한국 법률·회계·금융 리서치 보조
- K-IFRS 기준 설명, 계약서 조항 요약, 법령·판례 쟁점 정리
- 공시/판례/규정 텍스트 비교·요약·Q&A
컴플라이언스 & FDS 시나리오 도우미
- 규정 위반 유형 요약, FDS 룰/케이스 설명, 리스크 시나리오 브레인스토밍
도메인 특화 번역
- 한국어 ↔ 일본어/중국어: 금융·법률·공시·판례 텍스트 번역 및 요약
⚠️ 실제 법률·회계·규제 준수 여부 판단은 반드시 전문가 검토가 필요합니다. 이 모델은 의사결정 참고 용도로만 사용해야 합니다.
모델 설명
- Base model: gpt-oss-20b (20B 파라미터, 디코더 기반 LLM)
- 언어: 주로 한국어, 일부 일본어·중국어 (번역 도메인)
- 학습 방식: Supervised Fine-tuning (SFT)
OSS-20B 대비 강화된 능력
한국 문화·정체성·사회 규범 이해
- 64k건의 한국 문화/정체성/사회규범 데이터로 한국인의 의사소통 톤·예절·정서 표현 및 가치 판단 맥락을 내재화.
한국 중심 공공·정책·사회 이슈 Q&A
- 222k건의 한국 역사·사회문화·안보·정치·외교(한국 견해 중점) 데이터로 공공 이슈에 대한 한국 시각의 해석·설명·요약 능력 향상.
기업 업무 커뮤니케이션 & 문서 자동 생성
- 450k건의 이메일/보고서/회의/기획 등 일반 업무 대화·문서 데이터
- 268k건의 “문서명+목적만 제공” 방식 표준 양식 생성 데이터
- 139k건의 “처리 데이터→문서 작성” 데이터 → 최소 정보만으로도 한국 기업 표준 포맷의 문서를 구조화해 작성하는 능력이 크게 개선.
정형 데이터(표·CSV) 이해 및 리포트 생성
- 180k건의 실데이터 기반 표 분석/요약/이상징후 탐지 데이터
- 108k건의 CSV 정형데이터 로딩→정리→문서화 파이프라인 데이터 → OSS-20B 대비 표/CSV/ERP 데이터에서 인사이트를 뽑아 문서 형태로 정리하는 태스크에 특화.
한국 법률·회계·계약 문서 이해
- 71k건의 K-IFRS/내부감사/노동법/계약서 등 표준 법률 문서 (합성+REAL)
- 400k건의 판례·법령(민사·행정·지재·형사) REAL 데이터 → 조항 구조 파악, 논리 전개 요약, 쟁점 비교, 간단한 설명형 질의에 강점.
법률·금융 도메인 한↔일·중 번역
- 480k건의 금융 법률/공시/판례 번역 REAL 데이터 → 용어 일관성, 조항 번호·구조 보존, 문체 유지 등 도메인 특화 번역에 유리.
업무 지시 수행·시나리오 기반 응답
- 172k건의 ERP(회계·관리·물류·HR) 업무 지시 → 처리 데이터/결과 문서 매핑 데이터 → “~로써 ○○ 업무를 수행하라” 류의 명령형 프롬프트를 단계적으로 해석하는 능력 강화.
컴플라이언스·FDS 문맥 이해
- 40k건의 컴플라이언스 위반 및 FDS 탐지 시나리오 (합성+REAL) → 이상 거래 설명, 규정 위반 예시 생성, 리스크 요약 등에 강점.
학습 데이터 (요약)
총 약 2,747,418 샘플로 SFT.
| 구분 | 분류 | 건수 | 종류 |
|---|---|---|---|
| 한국 정체성·사회규범·가치 | 한국문화 | 64,000 | 합성 |
| 역사·사회문화·안보·정치·외교(한국 시각) | 한국지식 | 222,691 | 합성, REAL |
| 기업 문화/일반 업무(메일·보고·회의·PT·기획) | 기업업무 | 450,079 | 합성 |
| 일반 문서 작성(처리 데이터→문서) | 기업업무 | 150,000 | 합성 |
| 표준 양식 문서 (문서명+목적만 제공) | 문서작성 | 268,277 | 합성 |
| 표준 법률 문서(K-IFRS, 내부감사, 노동법, 계약) | 문서작성 | 71,903 | 합성, REAL |
| 표준 양식 문서 (처리 데이터 제공) | 문서작성 | 139,849 | 합성 |
| 표 기반 문서 읽기·분석 | 문서작성 | 180,000 | REAL |
| CSV 읽기·변환·문서화 | 문서작성 | 108,276 | 합성 |
| 금융 법률/공시/판례 번역(한↔일·중) | 번역 | 480,000 | REAL |
| ERP 업무 지시 수행(회계·관리·물류·HR) | 기업업무 | 172,343 | 합성 |
| 법 판례·법령(민사·행정·지재·형사) | 한국법률 | 400,000 | REAL |
| 법률 컴플라이언스 위반·FDS 탐지 | 한국법률 | 40,000 | 합성, REAL |
각 데이터셋은 내부 품질 점검 기준 정확도 90~99% 수준에서 필터링되었습니다.
한계 (Limitations)
- 일반 코딩·수학·다국어: 한국 기업·법률 도메인에 비해 일반적인 코딩/수학/SAT 스타일 문제나 타 언어는 성능이 상대적으로 낮을 수 있습니다.
- 실시간 법·규정 업데이트 미반영: 최신 개정 법령·규정·회계 기준이 반영되지 않을 수 있습니다.
- 법률·회계 자문 대체 불가: 실제 계약·소송·회계 처리 등에는 반드시 전문가 검토가 필요합니다.
- 편향 가능성: 한국 문화/기업/법 체계 중심 데이터로 인해, 다른 문화·법체계에 대한 답변은 편향되거나 부정확할 수 있습니다.
안전 및 윤리
- 모델 출력은 법률·회계·투자·의료 등 고위험 의사결정의 근거로 직접 사용하면 안 됩니다.
- 개인정보, 특정 개인·집단에 대한 차별·혐오 발언, 불법 행위 조장에 해당하는 사용을 제한해야 합니다.
- 금융 범죄·FDS 관련 데이터는 탐지·교육·연구 목적만을 위한 것이며, 모델을 이용해 우회·악용 시나리오를 구체적으로 설계해서는 안 됩니다.
사용 예시
import os
import os.path as osp
import sys
import json
from typing import List, Union
import torch
from torch.nn import functional as F
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from gptqmodel import GPTQModel
MODEL_DIR = "SEOKDONG/gpt-oss-safeguard-20b-kor-enterprise-gptq-4bit" # model.save() 한 경로
model = GPTQModel.load(MODEL_DIR)
tokenizer = model.tokenizer
#model = model.to("cuda:0")
# pad_token 설정 (필수)
tokenizer.pad_token = tokenizer.eos_token
def gen(prompt: str):
messages = [
{"role": "system", "content": "당신은 한국어로 답하는 유능한 AI 비서입니다. 질문에 대해서 논리적이며 상세하게 작성하세요."},
{"role": "user", "content": prompt},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt",
truncation=True,
# 필요하면 명시: max_length=4096 등
).to(model.device)
# eos 후보들 만들고 None/중복 제거
eos_ids = []
if tokenizer.eos_token_id is not None:
eos_ids.append(tokenizer.eos_token_id)
try:
eot_id = tokenizer.convert_tokens_to_ids("<|eot_id|>")
# 모델/토크나이저에 따라서 unk_token_id 비교는 선택 사항
if eot_id is not None and eot_id != tokenizer.unk_token_id:
eos_ids.append(eot_id)
except Exception:
# 그런 토큰이 없을 수도 있으니 조용히 패스
pass
# HuggingFace generate는 int 또는 list 둘 다 허용
if len(eos_ids) == 0:
eos_arg = None # 그냥 모델 기본 eos 사용
elif len(eos_ids) == 1:
eos_arg = eos_ids[0]
else:
eos_arg = eos_ids
# pad_token_id 가 없는 모델이면 eos로 대체
pad_id = tokenizer.pad_token_id
if pad_id is None:
pad_id = tokenizer.eos_token_id if tokenizer.eos_token_id is not None else (eos_ids[0] if eos_ids else None)
outputs = model.generate(
input_ids,
pad_token_id=pad_id,
eos_token_id=eos_arg,
max_new_tokens=2048, # 2048도 가능, GPU 여유 보고 조절
do_sample=True,
temperature=0.1,
repetition_penalty=1.2,
# top_p=0.9 등 옵션 추가 가능
)
result = tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True)
return result
gen("""한국 동쪽 바다의 이름을 알려주세요. 그리고 그 근거도 알려주세요""")
대한민국이 인접해 있는 동쪽 해역에는 ‘동해’라는 명칭이 국제적으로 널리 사용됩니다 (일본에서는 동일하게 “황해”라고 부르며, 이는 일본 정부·국제기구 일부에서 쓰는 표현이나, 한국과 중국 등 다른 국가들은 ‘동해’를 표준으로 채택하고 있습니다).
한반도의 동부를 둘러싼 주요 수역은 다음과 같습니다.
구분 일반적 지명/범위 대륙붕 전환 지역 황해안(영남권) → 동해안(강원·경북·충청 동부) 주된 항만 주변 해역 부산광역시 동해안(울산까지 포함되는 경우가 많음), 울진군·고성군 일대 국토와 가장 가까운 연안수면 강릉~속초 일대 동해상
근거 요약: 역사·지정학 관점: 조선 시대부터 ‘동해’라는 용어가 국내 문헌에 자주 등장하며, 현대에도 교육·정부 공식문서 및 지도에서 ‘대한민국 동해’ 또는 단순히 ‘동해’로 통용되어 왔습니다. 국제표준 맥락: UN코드네임스 시스템(U.N.Codes of the Sea)은 ‘Sea of Japan’을 제안했으나, 이 문제는 분쟁 대상이며 대부분의 나라들이 ‘East Sea’ 혹은 ‘Donghae’를 선호합니다. 다만 실제 운항·지도 제작 시엔 양측 모두 병기하거나 각국 표기를 따르는 경향이 큽니다. 법률·행정 기준: 행정안전부 산하 지명관리체계에서도 ‘동해’라는 표기가 우세하며, 지방자치단체별 해양관할 범위를 설명할 때 ‘동해안’이라는 표현이 반복됩니다.
간결 정답: 한국 입장에서는 ‘동해(Donghae)’가 올바른 표기로 인정되며, 특히 영유권·경제활동권 논란 속에서 이를 확립하려는 움직임이 지속되고 있습니다. 따라서 질문에 대한 직접적인 응답은 “동해”입니다. (참고로 일본 내외 일부 기관은 여전히 ‘황해(Haruka)'를 사용하지만, 이는 상이한 관습이지 한국의 표준이라 할 수 없습니다.)
라이선스 / 저작권
- Base model: gpt-oss-20b 라이선스 규정을 따릅니다.
- 파인튜닝 데이터: OpenAI 생성 합성 데이터 및 AI-Hub 등 공공/라이선스 준수 소스에서 수집·가공한 한국어 데이터로 구성되었습니다.
- 이 모델 사용자는 해당 라이선스와 각 데이터 소스의 이용 약관을 준수해야 합니다.
- Downloads last month
- 38