본문 바로가기
자격증/데이터아키텍처 준전문가(DAsP)

DAsP(3과목) 2-2. 데이터 표준 정의

by 김엉배 2023. 9. 1.
728x90
반응형

1.  표준 단어 사전 정의

- 기존 데이터 모델 및 용어집을 통해 해당 기관에서 사용되고 있는 모든 단어를 추출해 추출된 단어의 종류와 유형을 분류하고 업무 정의 및 용도를 고려하여 표준 단어를 정의한다.


가) 표준 단어 사전

  • 표준 단어 관리 기준
    - 표준성
    - 일반성
    - 대표성

  • 표준 단어 작성 형식
    - 전사적으로 관리하고 있는 엔터티와 속성을 개별 단위로 하여 추출하며, 추출된 단어는 동음이의어와 이음동의어를 정비한 후 논리명(한글명)을 기준으로 물리명(영문명, 영문약어명), 유사 용어까지 함께 정리하여 관리한다.
    - 표준 단어 사전에는 개별 단어 외에도 동의어, 유의어, 반의어 등과 같은 단어 간의 구조도 함께 정의해야 한다.

 

나) 표준 단어 정의

- 표준 단어는 정보시스템별로 혼재되어 사용되고 있는 모든 용어를 단어 단위로 분할하여 도출한다.

  • 현행 용어 수집
    - 모든 정보시스템에 대한 데이터 모델 또는 테이블 정의서와 칼럼 정의서를 분 석하여 현행 용어에 대한 한글명 및 영문명을 수집한다.

  • 단어 분할
    - 수집된 현행 용어에서 업무상 사용되며 일정한 의미를 갖고 있는 최소 단위의 단어로 분할한다.

  • 단어 정렬
    - 분할하여 취합된 모든 단어 중에서 의미가 동일한 단어들에 대해 하나의 대표 단어를 표준으로 선정하고 영문 약어명을 선택한다.
    - 한글명이 동일한 단어와 의미가 동일한 단어(이음동의어)들을 취합한 후 활용 빈도가 가장 많은 한글명을 표준 단어로 선택한다.
    - 한글명이 동일한 단어와 이음동의어를 모두 통틀어 가장 많이 나타나는 영문 약어명을 해당 표준 단어에 대한 영문 약어명으로 선택
    - 동음이의어의 경우 상대적으로 활용 빈도가 낮은 의미의 단어에 대해서는 동일한 의미를 갖는 다른 한글명을 표준 단어로 선택한다.

  • 표준 단어 사전 정의
    - 단어 정련 작업을 통하여 표준으로 선택한 모든 단어들에 대한 한글명 및 영문명을 표준 단어 사전에 등록한다.

 

다) 표준 단어 정의 시 고려사항

  • 표준 단어의 단위는 최소 단위를 기준으로 하되 사용 빈도가 높은 단어의 조합 또는 단어의 조합이 하나의 고유한 의미를 가지는 경우 하나의 표준 단어로 정의하는 것이 유리할 수 있다.
    - 예) 신용카드, 선하증권

  • 대부분의 DBMS는 테이블 물리명 및 칼럼 물리명의 첫 글자를 알파벳으로 시작하도록 제약하고 있다.
    - 예) 1순위 --> RNK1, 2개월 --> M2

  • 단어는 특히 동음이의어가 많기 때문에 사용빈도가 높은 것을 표준 단어로 사용빈도가 낮은 것은 다른 단어와 조합하여 표준 단어로 정의하도록 한다.

  • 접두어, 접미어와 같이 한 자리로 구성된 단어들은 가급적 표준에서 배제하는 대신 앞뒤에 나오는 단어와 조합하여 표준 단어로 정의하는 것이 바람직하다.

 

 

 

 

 

 

2.  표준 도메인 사전 정의

- 업무적인 용도, 사용 빈도와 데이터의 물리적인 특성 등을 고려하여 도 메 인을 분류하고 도메인별 데이터 타입을 부여한다.
-
도메인에는 코드성 도메인과 숫자 도메인, 날짜 도 메인, 문자 도메인 등이 있다.


가) 표준 도메인 사전 

  • 표준 도메인 관리 기준
    - 표준성: 전사 차원에서 공통적으로 사용되는 속성을 대상으로 정의
    - 유일성: 동일한 내용의 중복 도메인이 서로 다른 이름으로 선언되지 않도록 관리
    - 업무 지향성: 업무의 특성을 충분히 반영할 수 있도록 선언하여 관리한다.

  • 표준 도메인 작성 형식
    - 전사적으로 관리하고 있는 모든 데이터 속성 혹은 대표 속성 가운데에 DBMS에 동일한 형태로 구현되는 속성들을 추출하여 그룹화
    - 모든 속성은 임의의 도메인에 할당되어야 하며, 하나 이 상의 도메인에 복수로 할당되면 안 된다.

 

나) 표준 도메인 정의

  • 현행 용어 정보 분석
    - 현행 용어에 대한 용어명과 데이터 타입 정보를 수집한 뒤 물리적으로 유사한 유형의 용어들을 그룹화한다.

  • 표준 도메인 정의
    - 현행 용어 에 대한 용어명과 데이터 타입 정보를 수집한 뒤 물리적으로 유사한 유형의 용어들을 그룹화한다.

 

다) 표준 도메인 정의 시 고려사항

  • 현실적으로 어느 도메인에도 속하지 않는 칼럼이 있을 수 있기 때문에 모든 용어를 포괄하는 표준 도메인을 생성할 필요는 없다.
  • 데이터 형식을 어떻게 정의하고 각기 다른 DBMS에 어떻게 물리적으로 적용할 것인가에 대한 방안을 고려해야 한다.

 

 

 

 

 

3.   표준 코드 사전 정의

- 현 코드를 바탕으로 통합 요구 사항과 통합 필요성에 따라 통합 대상을 파악하고 표준 코드를 정의하고 현 코드와 매핑 설계를 한다.
-
정의된 표준 코드별로 오너십(Ownership)을 정의하여 향후 해당 코드에 대한 수정, 삭제에 대한 권한을 관리할 수 있도록 한다.


가) 표준 코드 사전

- 각 산업별로 법·제도적으로 부여하여 공통적으로 사용되는 코드뿐만 아니라 기업 내부에서 정의하여 사용하는 코드도 포함.

  • 표준 코드 관리 기준
    - 재사용성
    - 일관성
    - 정보 분석성

  • 표준 코드 작성 형식
    - 전사적으로 사용하고 있는 코드를 추출하여 정의하고 부여된 코드와 동일한지를 확인하고, 동일한 값을 가지는 코드에 대해서 통합 작업을 수행하여 단일화 작업을 수행한다.

 

나) 표준 코드 정의

  •  현행 코드 수집
    - 단독 코드 테이블: 하나의 코드를 하나의 테이블에서 관리하는 형태
    - 통합 코드 테이블: 복수개의 코드를 하나의 통합 관리 테이블에서 관리하는 형태
    - 애플리케이션 정의: 코드를 데이터베이스에 저장하여 관리하지 않고 애플리케이션에서 정의하여 관리하는 형태
    - 코드 데이터 값 수집: 테이블, 통합 코드 테이블, 애플리케이션 사용자 인터페이스를 통하여 코드 정보를 수집
    - 코드성 칼럼 파악: 각 정보시스템의 테이블에 존재하는 칼럼 중에서 코드 정보를 저장하는 코드성 칼럼을 파악
    - 수집된 코드에 대한 사용처 파악: 식별한 코드성 칼럼별로 어떠한 코드를 저장하는지를 파악함으로써 누락된 코드를 확인

  • 현행 코드 상세 분석
    - 코드값이 일치하는 동일한 코드 인스턴스를 가지는 코드를 찾은 뒤 해당 코드의 모든 코드 인스턴스를 확인하고 비교함으로써 통합 가능한 코드를 식별한다.
    -
    분석해야 할 대상 코드가 너무 많을 경우에는 코드를 사용하는 업무 기능별로 코드를 분류한 후, 분류된 단위로 코드를 분석한다.

  • 표준 코드 정의
    - 현행 코드 상세 분석을 통하여 식별된 통합 대상 코드의 코드 인스턴스를 정련하여 통합

 

다) 표준 코드 활용

  • 향후 모든 정보시스템은 표준 코드를 사용해야 한다.
    일부 업무에서 특정 코드의 모든 코드 값을 사용하지 않고 범위를 한정하여 일부 코드값만 사용할 경우에는 표준 코드로부터 파생된 코드를 정의하여 사용한다.

라) 표준 코드 정의 시 고려사항

  • 코드값은 향후 확장성을 고려하여 정의하여야 하며, 여러 업무에서 사용할 수 있도록 통합된 코드로서의 일관성을 유지해야 한다.
  • 시스템 운영 중에 코드값이 변경되는 경우 해당 코드를 사용한 기존 데이터의 유지를 위해 기존 코드값을 삭제하는 대신 사용 중지 상태로 관리하고 새로운 코드값을 신규로 정의한다.
  • 표준 코드를 도출하면서 파악한 표준 코드-현행 코드 간의 변환 매핑 정보를 별도로 기록하여 향후 신규 정보시스템으로의 데이터 이행시 참고한다.

 

 

 

 

 

 

4.  표준 용어 사전 정의

- 표준 적용이 업무적으로나 IT적으로 무리가 없는지 검토한다. 또한 검토 과정에서 누락된 단어, 도메인, 코드 등이 없는지를 확인하고 추가 보완 작업을 수행한다.


가) 표준 용어 사전

- 전사적으로 사용하는 엔터 티와 속성을 대상으로 표준 단어 사전에 정의된 단어를 조합하여 정의한다.

  • 표준 용어 관리 기준
    - 표준성
    - 일반성
    - 업무 지향성

  • 표준 용어 작성 형식
    - 전사적으로 보유하고 있는 엔터티와 속성을 대상으로 추출된 표준 단어를 조합하여 생성되며 용어 사전은 엔터티 용어 사전과 속성 용어 사전으로 구분하여 정의 관리한다.

 

나) 표준 용어 정의

- 모든 현행 용어를 수집하고 표준 단어 사전, 표준 도 메인 사전, 표준 코드 사전 등을 참조하여 현행 용어에 대한 표준 용어를 도출한다.

  • 현행 용어에 대한 표준 단어 도출 및 표준 용어 정의
    - 현행 용어로부터 표준 용어의 도출은 단어 수준에서의 표준화를 통해 이루어진다.

  • 표준 단어에 대한 도메인/코드 정의
    - 표준 도메인을 도출하면서 별도 관리했던 정보를 가지고 표준 단어에 대한 도메인을 정의할 수 있다.

다) 표준 용어 정의 시 고려사항

  • 표준 용어 도출 시 데이터 표준 원칙에서 정의한 한글명 및 영문명의 허용 길이를 넘지 않도록 한다.
  • 영문명의 허용 길이가 문제가 된다면 한글명을 변경하거나 한글명을 구성하는 표준 단어들 중 일부를 조합하여 하나의 표준 단어를 등록하여 영문명의 길이를 축약한다.
  • 생성된 표준 용어가 너무 길다면 두 개의 표준 용어를 복합하여 생성하는 방법도 고려한다.
728x90
반응형