AI 용어집

데이터 과학자, AI 연구자, 제품 매니저, 또는 인공지능에 관심 있는 모든 분들을 위해 AI 용어 사전을 제공합니다. 머신러닝 기초부터 합성 데이터, 프라이버시, 생성형 AI까지 지속적으로 업데이트됩니다.

5G는 4G/LTE를 잇는 5세대 이동통신 기술로, 초저지연(1ms 수준), 초고속(최대 20Gbps), 초연결성(km²당 100만 디바이스)을 특징으로 합니다. 자율주행, 원격 수술, 산업 IoT, AR/VR, 스마트 시티 같은 차세대 응용을 가능하게 하며, 엣지 컴퓨팅·네트워크 슬라이싱과 결합해 전용 네트워크를 구성할 수 있습니다. mmWave 주파수 활용과…

Additive noise differential privacy mechanisms

가산 노이즈 차등 정보보호 메커니즘(Additive Noise Differential Privacy Mechanisms)은 쿼리 결과에 수학적으로 계산된 노이즈를 더해 개별 데이터 주체의 프라이버시를 보호하는 기법입니다. 라플라스 메커니즘과 가우시안 메커니즘이 대표적이며, 프라이버시 예산(ε, δ)을 기반으로 노이즈 규모를 결정합니다. 통계 분석, 머신러닝 학습, 데이터 공개 등에서…

Adversarial machine learning

적대적 머신러닝(Adversarial Machine Learning)은 머신러닝 모델을 속이거나 오작동시키기 위해 악의적으로 조작된 입력을 생성·탐지·방어하는 연구 분야입니다. 공격자는 이미지에 미세한 노이즈를 추가해 모델의 분류를 왜곡하거나, 학습 데이터에 독을 주입해 모델 성능을 저하시킬 수 있습니다. 방어 기법으로는 적대적 학습(adversarial training), 입력 정제, 모델…

AI (Artificial Intelligence)

AI(Artificial Intelligence, 인공지능)는 학습, 추론, 문제 해결, 인식, 언어 이해와 같이 일반적으로 인간의 지능이 필요한 작업을 수행할 수 있는 컴퓨터 시스템의 시뮬레이션을 의미합니다. 머신러닝, 딥러닝, 자연어 처리, 컴퓨터 비전 등 다양한 하위 분야를 포함합니다. 헬스케어, 금융, 제조, 자율주행 등 산업…

AI Agents

AI 에이전트는 환경을 인지하고 자율적으로 의사결정을 내려 특정 목표를 달성하는 지능형 시스템입니다. 머신러닝, 자연어 처리, 컴퓨터 비전 등을 활용해 독립적으로 동작하거나 다른 시스템과 협업합니다. 챗봇, 가상 비서, 자율주행 차량, 로봇 공정 자동화 등 다양한 분야에 적용됩니다. 최신 AI 에이전트는 대규모…

AI alignment

AI 정렬(AI Alignment)은 AI 시스템의 목표·행동·출력이 인간의 가치·의도·지시와 일치하도록 만드는 과정입니다. 대규모 언어 모델이 유해하거나 허위인 출력을 생성하지 않고, 사용자 의도를 정확히 따르도록 훈련하는 것이 핵심입니다. RLHF(인간 피드백 강화학습), 헌법적 AI(Constitutional AI), 안전 미세조정 등이 주요 기법이며, AGI 시대의 핵심…

AI Code Generation

AI 코드 생성(AI Code Generation)은 자연어 설명이나 부분적인 코드 스니펫을 입력받아 AI 모델이 소스 코드를 자동으로 생성하는 기술입니다. GitHub Copilot, Amazon CodeWhisperer, ChatGPT 등이 대표적 도구로, 대규모 코드 학습 데이터와 트랜스포머 기반 모델을 활용합니다. 개발 속도와 생산성을 크게 향상시키지만, 생성…

AI Data Governance Layer

AI 데이터 거버넌스 계층(AI Data Governance Layer)은 AI 시스템에서 사용하는 데이터의 접근 권한, 품질, 개인정보 보호, 감사 로그, 규정 준수를 통합 관리하는 아키텍처 계층입니다. 데이터 소유권, 액세스 정책, 민감도 분류, 사용 내역 추적을 자동화하며, 규제 요구와 기업 정책을 코드로 강제합니다.…

AI Data Refinement

AI 데이터 정제(AI Data Refinement)는 원시 데이터를 AI 학습·추론에 적합한 품질로 끌어올리는 정제·보강·표준화 과정입니다. 노이즈 제거, 결측값 보정, 불균형 해소, 레이블 수정, 민감정보 마스킹을 포함합니다. 자동화된 파이프라인과 AI 기반 품질 평가를 결합해 반복적이고 확장 가능한 방식으로 수행되며, AI 프로젝트 성공의…

AI Deployment Failure Modes

AI 배포 실패 모드(AI Deployment Failure Modes)는 AI 모델이 프로덕션 환경에 배포된 후 나타나는 다양한 실패 유형을 분류한 것입니다. 데이터 드리프트, 개념 드리프트, 인프라 변경, 업스트림 스키마 변경, 엣지 케이스 부재, 무성 실패(silent failure) 등이 포함됩니다. 각 유형에 맞는 탐지·복구…

AI Execution Traceability

AI 실행 추적성(AI Execution Traceability)은 AI 시스템의 각 실행에서 사용된 데이터, 모델 버전, 하이퍼파라미터, 환경 설정, 출력 결과를 완전하게 기록하고 추적할 수 있는 능력을 말합니다. 규제 준수, 디버깅, 재현 가능성, 감사를 위해 필수적이며, 특히 금융·의료·공공 영역에서 요구 사항이 됩니다. 실행…

AI Model

AI 모델은 데이터를 학습해 특정 작업을 수행하는 수학적·계산적 표현입니다. 예측, 분류, 생성, 추천 등 다양한 목적으로 설계되며, 학습 데이터와 알고리즘의 품질에 따라 성능이 결정됩니다. 대표적으로 선형 회귀, 의사결정 트리, 신경망, 트랜스포머 등이 있습니다. 모델은 학습(training), 검증(validation), 배포(deployment) 단계를 거치며, 지속적인…

AI Reliability Gap

AI 신뢰성 격차(AI Reliability Gap)는 PoC나 파일럿에서는 잘 작동하던 AI 시스템이 프로덕션에서 실패하거나 일관되지 않은 결과를 내는 현상을 가리킵니다. 스키마 변경, 데이터 드리프트, 파이프라인 업데이트, 실행 환경 차이 등이 원인이며, 근본 원인 파악에 수 주가 걸리기도 합니다. 실행 상태 고정,…

AI safety

AI 안전성(AI Safety)은 AI 시스템이 의도된 대로 안전하게 동작하고 의도치 않은 해를 끼치지 않도록 설계·검증·운영하는 연구 영역입니다. 강건성(robustness), 정렬(alignment), 해석 가능성(interpretability), 가드레일(guardrails) 등이 핵심 주제이며, 특히 강력한 생성형 AI와 자율 에이전트의 확산으로 중요성이 커지고 있습니다. 기업은 레드팀 테스트, 평가 벤치마크,…

AI software

AI 소프트웨어는 인공지능 기능을 내장한 애플리케이션 또는 플랫폼으로, 데이터 분석·의사결정·자연어 처리·이미지 인식 등의 작업을 수행합니다. 머신러닝 프레임워크(TensorFlow, PyTorch), 자연어 처리 라이브러리(NLTK, spaCy), MLOps 플랫폼 등 다양한 형태로 제공됩니다. 기업은 AI 소프트웨어를 활용해 고객 서비스 자동화, 예측 분석, 콘텐츠 생성, 보안…

AI trust paradox

AI 신뢰 역설(AI Trust Paradox)은 AI 시스템의 성능이 뛰어날수록 사용자가 더 맹목적으로 신뢰하게 되지만, 동시에 내부 작동 원리는 더 불투명해지는 모순을 가리킵니다. 결과적으로 오류가 발생해도 감지하기 어려워지고, 책임 소재도 모호해집니다. 이 역설을 해결하려면 설명 가능한 AI(XAI), 감사 가능한 실행 추적,…

AI-generated

AI 생성(AI-generated)은 이미지, 텍스트, 오디오, 비디오 등 인공지능 알고리즘에 의해 생성된 콘텐츠를 의미합니다. GPT, DALL-E, Stable Diffusion과 같은 생성 모델을 활용해 사람이 만든 것과 유사한 결과물을 자동으로 생성합니다. 광고, 미디어, 게임, 디자인 등 다양한 분야에서 콘텐츠 제작 비용과 시간을 대폭…

AI-Ready Data

AI-Ready 데이터는 AI·머신러닝 시스템이 즉시 학습·추론에 사용할 수 있도록 정제·표준화·규정 준수 처리된 데이터를 의미합니다. 결측치 보정, 이상치 제거, 일관된 스키마, 민감정보 익명화, 레이블 정확성 등이 필수 속성입니다. 많은 기업이 데이터는 보유하고 있지만 AI 학습에 직접 투입 가능한 품질과 형태가 아니어서,…

AI-Ready Data Infrastructure

AI-Ready 데이터 인프라스트럭처는 원시 데이터를 AI 학습·추론에 적합한 형태로 수집·정제·변환·제공하는 엔드투엔드 데이터 플랫폼입니다. 데이터 수집 파이프라인, 메타데이터 관리, 프라이버시·규정 준수 계층, 실행 상태 추적, 합성 데이터 생성, 거버넌스 등을 포함합니다. 기존의 분석용 데이터 웨어하우스·레이크와 달리 AI 워크로드 특유의 요구사항(버전 고정,…

AI-Ready Data Platform

AI-Ready 데이터 플랫폼은 AI 프로젝트 전 과정에서 데이터 준비·관리·거버넌스를 통합 제공하는 소프트웨어 플랫폼입니다. 데이터 수집, 품질 관리, 프라이버시 보호, 합성 데이터 생성, 모델 학습 연동, 실행 상태 관리 등을 단일 환경에서 지원합니다. 기업은 이를 통해 흩어진 도구를 통합하고, AI 프로젝트…

AIOps

AIOps는 IT 운영을 관리하고 자동화하기 위해 인공지능(AI)과 머신러닝(ML)을 활용하는 것을 의미합니다. 기업이 네트워크, 애플리케이션, 서버에서 발생하는 방대한 로그 및 모니터링 데이터를 처리해 문제를 예측하고 자율적으로 해결할 수 있도록 합니다. AIOps 플랫폼은 이벤트 상관관계 분석, 이상 탐지, 자동 복구, 최적화 등의…

Algorithmic bias

알고리즘 편향(Algorithmic Bias)은 AI 시스템이 학습 데이터, 알고리즘 설계, 또는 활용 맥락의 편향으로 인해 특정 집단에 대해 불공정하거나 차별적인 결과를 생성하는 현상입니다. 채용, 신용평가, 형사사법 등 중요 의사결정에 AI가 적용되면서 사회적 파급력이 커지고 있습니다. 편향 완화 기법으로는 데이터 재샘플링, 공정성…

Anomaly Detection

이상 탐지(Anomaly Detection)는 데이터에서 정상 패턴과 크게 벗어난 항목을 식별하는 과정입니다. 머신러닝과 통계 기법을 활용해 비정상적인 행동을 탐지하며, 사기 탐지, 사이버 보안, 제조 품질 관리, 헬스케어 분석 등에 필수적입니다. 두 가지 주요 접근 방식은 지도학습(레이블 데이터 사용)과 비지도학습(레이블 없이 이상…

Apache HBase

Apache HBase는 Apache Hadoop 생태계 내에서 동작하는 오픈소스 분산 NoSQL 데이터베이스입니다. Google Bigtable을 기반으로 설계되었으며, 대규모 구조화 데이터셋에 대한 실시간 읽기/쓰기 작업에 최적화되어 있습니다. 수평적 확장성을 지원해 페타바이트급 데이터를 효율적으로 처리할 수 있습니다. HDFS(Hadoop Distributed File System) 위에서 실행되며, 컬럼…

Artificial General Intelligence

인공 일반 지능(AGI, Artificial General Intelligence)은 인간이 수행할 수 있는 모든 지적 작업을 이해하고 학습·적용할 수 있는 이론적 형태의 AI입니다. 특정 작업에 제한된 현재의 Narrow AI와 달리, AGI는 다양한 도메인에 걸쳐 지식을 일반화할 수 있습니다. 아직 순수하게 이론적이고 연구 단계이지만,…

Auto Augmentation

자동 증강(Auto Augmentation)은 AI 모델이 데이터셋을 분석해 최적의 데이터 증강 전략을 자동으로 탐색·적용하는 기법입니다. 이미지 회전·크롭·색상 변환 등 기본 증강 기법부터 고급 정책 검색(AutoAugment, RandAugment)까지 포함하며, 수작업 튜닝 없이 모델 일반화 성능을 향상시킵니다. 학습 데이터가 부족하거나 불균형한 상황에서 특히 효과적입니다.

Automated machine learning

자동 머신러닝(AutoML, Automated Machine Learning)은 데이터 전처리, 특성 엔지니어링, 모델 선택, 하이퍼파라미터 튜닝 등 ML 파이프라인의 반복적 작업을 자동화하는 기술입니다. 도메인 전문가가 머신러닝 경험이 적어도 고성능 모델을 구축할 수 있게 해줍니다. Google Cloud AutoML, H2O.ai, Auto-sklearn 같은 플랫폼이 대표적이며, 엔터프라이즈…

Automation

자동화(Automation)는 인간의 개입을 최소화하며 작업을 수행하도록 기술을 활용하는 것을 의미합니다. 반복적인 프로세스를 간소화하고, 효율성을 높이며, 오류를 줄여 생산성을 향상시킵니다. 자동화는 제조업의 로봇 조립라인부터 비즈니스의 소프트웨어 기반 자동화(RPA)까지 다양한 형태로 존재합니다. AI와 머신러닝의 발전으로 인지 자동화(cognitive automation)가 가능해져 더욱 복잡한 의사결정…

Balanced data

균형 데이터(Balanced Data)는 분류 작업에서 각 클래스(레이블)의 샘플 수가 비슷한 데이터셋을 의미합니다. 불균형 데이터는 머신러닝 모델이 다수 클래스에 치우쳐 소수 클래스를 제대로 예측하지 못하게 만듭니다. 균형을 맞추는 기법에는 오버샘플링(SMOTE), 언더샘플링, 합성 데이터 생성, 가중치 조정 등이 있으며, 의료 진단·사기 탐지처럼…

Big Data

빅데이터(Big Data)는 전통적인 데이터 처리 도구로는 다루기 어려운 대규모·고속·다양한 형태의 데이터를 의미합니다. 3V(Volume, Velocity, Variety)로 특징지어지며, Value(가치)와 Veracity(정확성)를 더한 5V 모델도 사용됩니다. Hadoop, Spark, Kafka 같은 분산 처리 기술로 다루며, 머신러닝·AI·IoT·실시간 분석의 기반이 됩니다.

Big Data Analytics

빅데이터 분석(Big Data Analytics)은 대규모·다양한 데이터셋에서 숨겨진 패턴, 상관관계, 트렌드, 고객 선호 등을 추출하는 기술·프로세스입니다. 기술 분석(기술 통계), 진단 분석(원인 규명), 예측 분석(미래 예측), 처방 분석(행동 권장) 네 가지 유형이 있으며, Hadoop·Spark·머신러닝과 결합해 운영합니다. 금융 사기 탐지, 의료 진단, 마케팅…

Blockchain

블록체인(Blockchain)은 분산 원장 기술로, 거래 기록을 체인 형태로 연결된 블록에 저장하고 네트워크 참여자 간 합의로 검증하는 구조입니다. 변조 방지, 투명성, 탈중앙화가 핵심 특성이며, 암호화폐(비트코인, 이더리움)의 기반이자 공급망 추적, 디지털 신원, 스마트 계약, NFT 등 다양한 분야로 확장되고 있습니다.

BLOOM (language model)

BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)은 BigScience 협력 프로젝트에서 개발한 오픈소스 다국어 대규모 언어 모델입니다. 1,760억 개의 파라미터를 가지며 46개 자연어와 13개 프로그래밍 언어를 지원합니다. GPT-3 수준의 성능을 공개 라이선스로 제공해 연구·산업계의 접근성을 크게 높였으며, 책임 있는 AI 개발의…

Business Intelligence

비즈니스 인텔리전스(Business Intelligence, BI)는 기업의 의사결정을 지원하기 위해 데이터를 수집·통합·분석·시각화하는 기술과 프로세스의 집합입니다. 대시보드, 보고서, 데이터 마이닝, OLAP 등 다양한 도구를 활용하며, Tableau, Power BI, Looker 같은 플랫폼이 대표적입니다. BI는 과거와 현재 데이터를 기반으로 통찰을 제공하며, 예측 분석과 결합해 전략적…

California Privacy Rights Act

캘리포니아 프라이버시 권리법(California Privacy Rights Act, CPRA)은 2020년 주민투표로 통과되어 2023년 1월 시행된 캘리포니아의 포괄적 개인정보 보호 법률로, 기존 CCPA를 강화·확장합니다. 민감한 개인정보 카테고리 신설, 데이터 주체 권리 확대, 캘리포니아 프라이버시 보호국(CPPA) 설립 등을 포함합니다. 유럽의 GDPR에 비견되는 미국 주(州)…

Class Imbalance Correction

클래스 불균형 보정(Class Imbalance Correction)은 특정 클래스의 샘플 수가 다른 클래스보다 현저히 적은 데이터셋에서 발생하는 모델 편향을 완화하는 기법입니다. 오버샘플링(SMOTE, ADASYN), 언더샘플링, 비용 민감 학습, 합성 데이터 생성, 앙상블 방법(Balanced Random Forest) 등이 있으며, 사기 탐지·의료 진단·결함 탐지처럼 소수 클래스…

Cloud Computing

클라우드 컴퓨팅(Cloud Computing)은 서버, 스토리지, 데이터베이스, 네트워킹, 소프트웨어 등 컴퓨팅 리소스를 인터넷을 통해 온디맨드로 제공하는 모델입니다. IaaS, PaaS, SaaS 세 가지 서비스 유형이 있으며, AWS, Azure, Google Cloud가 대표적 제공업체입니다. 초기 투자 비용을 줄이고, 확장성과 탄력성을 제공하며, 전 세계 어디서나…

Compartmentalization (information security)

구획화(Compartmentalization)는 정보 보안에서 시스템·데이터를 격리된 영역으로 분할해 한 영역이 침해되어도 다른 영역으로 피해가 확산되지 않도록 하는 원칙입니다. 최소 권한 원칙(Principle of Least Privilege)과 결합해, 각 사용자·프로세스·서비스가 필요한 최소한의 정보에만 접근하도록 설계합니다. 마이크로서비스 아키텍처, 제로 트러스트 네트워크, 격리된 컨테이너 실행 환경에…

Compliance-safe Data Usage

규정 준수 안전 데이터 사용(Compliance-safe Data Usage)은 GDPR, CCPA, HIPAA 등 데이터 보호 규제를 자동으로 강제하면서 분석·AI에 데이터를 활용할 수 있도록 설계된 데이터 운영 방식입니다. 동의 관리, 접근 로그, 차등 정보보호, 동형 암호, 합성 데이터를 조합해 원본 데이터 노출 없이…

Computer Audition

컴퓨터 청각(Computer Audition)은 컴퓨터가 소리 신호를 이해하고 해석하도록 하는 연구 분야입니다. 음성 인식, 화자 식별, 음악 정보 검색, 환경 소리 분류, 이상 음향 탐지 등이 포함됩니다. 딥러닝과 대규모 오디오 데이터셋의 결합으로 급격히 발전했으며, 스마트 스피커, 보안 모니터링, 헬스케어(호흡·심박 분석), 자율주행의…

Context-aware De-identification

맥락 인식 비식별화(Context-aware De-identification)는 단순 규칙 기반 마스킹이 아닌, 문맥·의미·사용 용도를 파악해 민감 정보를 선택적으로 제거·대체하는 고급 비식별화 기법입니다. 동일한 이름이라도 뉴스 기사에서는 그대로 유지하고 의료 기록에서는 익명화하는 식으로 차별적 처리가 가능합니다. LLM 기반 개체 인식과 정책 엔진을 결합해 구현하며,…

Conversational AI

대화형 AI(Conversational AI)는 자연어로 인간과 상호작용할 수 있는 AI 시스템입니다. 자연어 이해(NLU), 자연어 생성(NLG), 대화 관리, 음성 인식·합성 기술을 결합합니다. 챗봇, 가상 비서(Siri, Alexa), 고객 지원 봇, 엔터프라이즈 AI 에이전트가 대표적이며, 최근 LLM의 등장으로 맥락 이해와 생성 품질이 혁신적으로 향상되었습니다.

Cross-team Data Collaboration Layer

팀 간 데이터 협업 계층(Cross-team Data Collaboration Layer)은 여러 부서·팀이 동일한 데이터를 안전하게 공유·활용할 수 있도록 공통 거버넌스, 접근 제어, 변환 규칙을 제공하는 아키텍처 계층입니다. 데이터 사일로를 깨고 중앙 집중식 관리 없이 셀프 서비스 데이터 접근을 가능하게 하며, 데이터 메시(Data…

Cryptography

암호학(Cryptography)은 정보를 제3자가 읽거나 변조하지 못하도록 보호하기 위한 기술과 수학적 원리를 다루는 학문입니다. 대칭키 암호(AES), 공개키 암호(RSA, ECC), 해시 함수(SHA-256), 디지털 서명, 영지식 증명(ZKP) 등이 주요 구성 요소입니다. 현대의 인터넷 통신, 금융 거래, 블록체인, 프라이버시 보호 계산(동형 암호, 다자간 계산)…

Cybersecurity

사이버 보안(Cybersecurity)은 컴퓨터 시스템, 네트워크, 데이터, 애플리케이션을 무단 접근·공격·손상·절도로부터 보호하는 기술·프로세스·실무의 집합입니다. 네트워크 보안, 애플리케이션 보안, 엔드포인트 보안, 클라우드 보안, 신원·접근 관리(IAM) 등 여러 계층으로 구성됩니다. 랜섬웨어, 피싱, 제로데이 취약점 등 위협이 진화하면서 AI 기반 위협 탐지와 제로 트러스트 아키텍처가…

Data

데이터(Data)는 사실·통계·측정값·관찰 결과 등 처리·분석될 수 있는 원시 정보를 의미합니다. 숫자, 텍스트, 이미지, 오디오, 비디오 등 다양한 형태를 가지며, 구조화·반구조화·비구조화로 분류됩니다. 데이터는 정보·지식·지혜의 기초이며, 현대 경제에서 '새로운 석유'로 불릴 만큼 기업과 사회의 가장 중요한 자산 중 하나입니다.

Data Access Decoupling

데이터 액세스 분리(Data Access Decoupling)는 데이터 사용자가 원본 데이터에 직접 접근하지 않고, 거버넌스·보안·프라이버시 계층을 경유해 쿼리·분석만 수행하게 하는 아키텍처 패턴입니다. 분석가는 인사이트를 얻고 민감 데이터는 그대로 보호되며, 데이터 소유자는 활용을 감사할 수 있습니다. 데이터 클린룸, 프라이버시 보호 계산이 구현 수단입니다.

Data Acquisition

데이터 수집(Data Acquisition)은 내부·외부 소스에서 데이터를 획득해 조직의 시스템으로 가져오는 프로세스입니다. 센서·IoT, API, 웹 스크래핑, 서드파티 데이터 마켓, 크라우드소싱, 합성 데이터 생성 등 다양한 방법이 사용됩니다. AI·분석 프로젝트의 출발점이며, 데이터 품질·합법성·대표성을 확보하는 것이 관건입니다.

Data analysis

데이터 분석(Data Analysis)은 의사결정과 인사이트 도출을 위해 데이터를 검토·정제·변환·모델링하는 과정입니다. 기술 통계, 진단 분석, 예측 분석, 처방 분석 네 가지 유형이 있으며, Python·R·SQL·Excel·BI 도구가 활용됩니다. 비즈니스, 과학, 공공 정책 등 전 분야에서 증거 기반 의사결정의 기반이 됩니다.

Data analysis for fraud detection

사기 탐지 데이터 분석(Data Analysis for Fraud Detection)은 거래·사용자 행동 데이터에서 비정상적이거나 사기성 활동 패턴을 식별하는 기법입니다. 규칙 기반 룰 엔진, 이상 탐지, 지도 학습(과거 사기 사례 학습), 그래프 분석(연결 관계 분석)을 결합합니다. 신용카드, 은행, 보험, 전자상거래, 핀테크에서 실시간으로 운영되며,…

Data analytics

데이터 분석(Data Analytics)은 조직이 더 나은 의사결정을 내리고 비즈니스 성과를 개선하도록 데이터에서 의미 있는 인사이트를 도출하는 활동입니다. 기술적 분석(무엇이 일어났는가), 진단적 분석(왜 일어났는가), 예측적 분석(무엇이 일어날까), 처방적 분석(무엇을 해야 할까)로 구분됩니다. AI·머신러닝과 결합해 의사결정 자동화로 진화하고 있습니다.

Data Anonymization

데이터 익명화(Data Anonymization)는 개인식별정보(PII)를 제거·대체·암호화해 데이터 주체를 재식별할 수 없도록 만드는 과정입니다. 마스킹, 가명화, 일반화, k-익명성, 차등 정보보호 등이 기법이며, GDPR·HIPAA 등 규제 준수와 데이터 공유·AI 학습을 위한 전제 조건입니다. 완전 익명화와 재식별 위험 간 균형이 핵심 과제입니다.

Data Architecture

데이터 아키텍처(Data Architecture)는 조직이 데이터를 수집·저장·변환·분배·활용하는 전체 구조와 원칙을 정의합니다. 데이터 모델, 통합 패턴, 저장소 선택, 거버넌스 정책, 보안 계층을 포함하며, 비즈니스 요구와 기술 환경을 연결합니다. 현대 아키텍처는 클라우드, 실시간 스트리밍, 데이터 메시, AI 워크로드를 포괄적으로 지원하도록 설계됩니다.

Data Augmentation

데이터 증강(Data Augmentation)은 기존 학습 데이터에 변형(회전, 크롭, 색상 변조, 노이즈 추가 등)을 가해 다양성을 늘리는 기법으로, 모델의 일반화 성능을 높이고 과적합을 방지합니다. 이미지, 텍스트, 오디오, 시계열 등 다양한 도메인에서 활용되며, 최근에는 생성형 AI를 활용한 합성 데이터 증강도 널리 쓰입니다.…

Data breach

데이터 유출(Data Breach)은 기밀·민감 데이터가 권한 없는 개인·단체에 노출·접근·공개되는 보안 사고입니다. 해킹, 내부자 위협, 실수, 시스템 취약점 등이 원인이며, 금융 손실, 평판 손상, 법적 제재, 고객 이탈로 이어집니다. GDPR은 72시간 내 통지를 의무화하며, 사고 대응 계획, 암호화, 접근 제어, 모니터링이…

Data Center

데이터 센터(Data Center)는 대규모 컴퓨팅 인프라(서버, 스토리지, 네트워크 장비)를 수용하는 물리적 시설입니다. 기업의 핵심 애플리케이션·데이터를 운영하며, 전력·냉각·보안·네트워크 연결을 엄격히 관리합니다. 자체 운영(온프레미스), 코로케이션, 클라우드 데이터 센터(하이퍼스케일) 유형이 있으며, AI·클라우드 수요 증가로 GPU 중심의 신규 데이터 센터 투자가 급증하고 있습니다.

Data Center Management

데이터 센터 관리(Data Center Management, DCIM)는 데이터 센터의 물리적·논리적 자원을 모니터링하고 최적화하는 활동입니다. 전력 사용, 냉각, 공간 활용, 하드웨어 자산, 네트워크 트래픽을 통합 관리하며, 운영 효율과 가용성을 극대화합니다. AI 기반 예측 유지보수와 자동화된 용량 계획이 최근 주요 트렌드입니다.

Data classification (business intelligence)

BI 맥락의 데이터 분류(Data Classification)는 비즈니스 가치, 분석 용도, 계층별 집계 수준에 따라 데이터를 조직하는 과정입니다. 차원(dimension), 측정값(measure), 팩트 테이블, 계층(hierarchy) 같은 개념을 사용해 OLAP 큐브와 대시보드를 구성합니다. 효과적 분류는 쿼리 성능, 분석 유연성, 사용자 이해도를 크게 향상시킵니다.

Data classification (data management)

데이터 관리 맥락의 데이터 분류(Data Classification)는 민감도, 규제 요구사항, 비즈니스 중요도에 따라 데이터를 범주화해 적절한 보안·처리 정책을 적용하는 활동입니다. 공개·내부·기밀·매우 민감 같은 레벨로 구분하며, 각 레벨별로 접근 통제, 암호화, 보관 기간, 삭제 절차가 달라집니다. GDPR·HIPAA 등 규제 준수와 보안 사고…

Data cleansing

데이터 정제(Data Cleansing)는 데이터셋의 오류, 중복, 누락, 불일치를 식별·수정·제거해 품질을 높이는 과정입니다. 표준화, 결측값 처리, 중복 제거, 형식 변환, 이상치 처리 등이 포함되며, 분석·AI 프로젝트 시간의 상당 부분을 차지합니다. 자동화 도구(OpenRefine, Trifacta)와 AI 기반 정제 기술이 발전하고 있습니다.

Data collaboratives

데이터 콜라보라티브(Data Collaboratives)는 공공·민간·학계가 데이터와 전문성을 공유해 사회적 문제 해결, 공공 가치 창출, 혁신을 도모하는 협력 모델입니다. 질병 감시, 기후 연구, 도시 계획, 재난 대응 같은 영역에서 개별 조직이 해결하기 어려운 과제에 공동 대응합니다. 프라이버시·보안·지배구조가 핵심 과제이며, 데이터 클린룸·연합학습 같은…

Data collection

데이터 수집(Data Collection)은 연구·분석·의사결정 목적으로 신뢰할 수 있는 정보를 체계적으로 획득하는 과정입니다. 설문조사, 인터뷰, 센서, 로그, API, 웹 크롤링 등 다양한 방법이 사용됩니다. 수집 단계의 품질과 편향이 이후 분석의 신뢰성을 좌우하므로, 샘플링 설계·동의·규정 준수가 중요합니다.

Data Diagnosis (Data Health Check)

데이터 진단(Data Diagnosis) 또는 데이터 헬스 체크(Data Health Check)는 데이터셋의 품질, 완결성, 일관성, AI 적합성을 체계적으로 평가하는 프로세스입니다. 결측값, 이상치, 스키마 변화, 통계적 드리프트, 편향 등을 진단하며, AI 프로젝트 착수 전과 운영 중 지속적으로 수행됩니다. 문제를 조기에 식별해 파이프라인 하류의…

Data dissemination

데이터 보급(Data Dissemination)은 데이터를 내부·외부 이해관계자에게 배포해 활용 가능하게 만드는 활동입니다. 공개 API, 데이터 포털, 구독 서비스, 보고서, 시각화 대시보드 등 다양한 채널이 사용됩니다. 공공 통계, 연구 데이터, 개방 정부 이니셔티브, 상업 데이터 마켓플레이스에서 중요한 역할을 하며, 접근성·발견성·재사용성이 핵심 품질…

Data engineering

데이터 엔지니어링(Data Engineering)은 데이터 파이프라인을 설계·구축·운영해 원시 데이터를 분석·AI에 사용 가능한 형태로 변환·전달하는 분야입니다. ETL/ELT, 스트리밍 처리, 데이터 모델링, 인프라 관리, 품질 모니터링이 핵심 역할이며, Spark, Kafka, Airflow, dbt 등의 도구가 사용됩니다. 데이터 과학·AI의 보이지 않는 뒷단을 책임지는 필수 영역입니다.

Data ethics

데이터 윤리(Data Ethics)는 데이터 수집·분석·공유에서 발생하는 도덕적 문제를 다루는 분야입니다. 프라이버시, 동의, 공정성, 투명성, 책임성, 편향 방지 등을 포함하며, AI 시대에 중요성이 커지고 있습니다. 단순 법적 준수를 넘어 이해관계자의 신뢰, 사회적 책임, 지속 가능성을 고려하며, 윤리 위원회·데이터 감사·임팩트 평가로 실천됩니다.

Data exchange

데이터 교환(Data Exchange)은 서로 다른 조직·시스템 간에 데이터를 공유·전송하는 활동 또는 이를 가능하게 하는 플랫폼을 의미합니다. B2B 데이터 공유, 산업 컨소시엄, 정부·민간 연계, 데이터 마켓플레이스 등이 포함됩니다. 표준화된 포맷, API, 보안 프로토콜, 법적 계약이 필요하며, AWS Data Exchange, Snowflake Marketplace…

Data generation

데이터 생성(Data Generation)은 실제 수집이 어렵거나 비용이 많이 드는 경우 통계적·AI 기법으로 새 데이터를 만드는 과정입니다. 합성 데이터 생성, 데이터 증강, 시뮬레이션이 포함되며, GAN·확산 모델·LLM이 주요 도구입니다. 프라이버시 보호, 레어 케이스 보강, 불균형 해소, AI 학습 데이터 확보 등에 활용됩니다.

Data Governance

데이터 거버넌스(Data Governance)는 조직의 데이터 자산을 효과적·안전하게 관리하기 위한 정책, 프로세스, 역할, 책임의 프레임워크입니다. 데이터 품질, 보안, 프라이버시, 규정 준수, 메타데이터 관리, 데이터 소유권을 다룹니다. GDPR, CCPA 등 규제 강화와 AI 활용 증가로 중요성이 커지고 있으며, Collibra, Alation 같은 도구가…

Data Integration

데이터 통합(Data Integration)은 서로 다른 소스의 데이터를 결합해 일관된 단일 뷰를 제공하는 프로세스입니다. ETL(추출·변환·로드), ELT, 데이터 가상화, 변경 데이터 캡처(CDC) 등의 기법이 사용됩니다. 데이터 웨어하우스·레이크 구축, 360도 고객 뷰, 기업 전반의 분석 통합 등에 필수적이며, Talend, Informatica, Fivetran 같은 도구가…

Data integrity

데이터 무결성(Data Integrity)은 데이터가 정확하고 일관되며 신뢰할 수 있는 상태를 유지하는 것을 의미합니다. 엔티티 무결성, 참조 무결성, 도메인 무결성, 사용자 정의 무결성 같은 관계형 개념부터 암호학적 해시를 이용한 변조 탐지까지 다양한 수준에서 관리됩니다. 규정 준수, 감사, AI 신뢰성, 비즈니스 결정의…

Data labeling

데이터 레이블링(Data Labeling)은 원시 데이터에 클래스, 카테고리, 경계 상자 등 지도학습용 태그를 부착하는 작업입니다. 이미지 분류, 객체 탐지, 음성 전사, 텍스트 감성 분석 등 거의 모든 지도학습 모델의 필수 전제 조건입니다. 수작업 레이블링은 시간·비용이 크므로, 능동 학습·준지도 학습·자동 레이블링으로 효율화가…

Data Lake

데이터 레이크(Data Lake)는 구조화·반구조화·비구조화 데이터를 원시 형태 그대로 대규모로 저장하는 중앙 저장소입니다. 사전 스키마 정의가 필요 없어(schema-on-read) 유연성이 높고, 저렴한 객체 스토리지(Amazon S3, Azure Data Lake Storage)를 기반으로 합니다. 데이터 과학, 머신러닝, 실시간 분석에 활용되며, 데이터 웨어하우스와 결합한 레이크하우스 아키텍처로…

Data loss prevention software

데이터 손실 방지 소프트웨어(Data Loss Prevention, DLP)는 민감한 데이터가 조직 외부로 유출되거나 무단 공유되지 않도록 탐지·차단하는 솔루션입니다. 엔드포인트, 네트워크, 이메일, 클라우드 스토리지에서 콘텐츠를 스캔해 정책 위반 시 경고·차단하며, 최근에는 AI 기반 분류와 생성형 AI 사용 모니터링 기능이 추가되고 있습니다.

Data Management

데이터 관리(Data Management)는 데이터의 수집, 저장, 보호, 품질 유지, 사용을 아우르는 종합적 프로세스와 정책입니다. 데이터 거버넌스, 마스터 데이터 관리, 메타데이터 관리, 데이터 보안, 라이프사이클 관리 등을 포함합니다. 데이터를 조직의 전략 자산으로 관리해 의사결정·규정 준수·혁신을 뒷받침하는 기반 활동입니다.

Data Mart

데이터 마트(Data Mart)는 특정 부서·팀·주제에 맞춰 구축된 데이터 웨어하우스의 부분 집합입니다. 영업, 마케팅, 재무 등 특정 비즈니스 영역의 사용자가 필요한 데이터만 담아 쿼리 성능과 접근성을 높입니다. 독립형 데이터 마트와 종속형 데이터 마트(웨어하우스에서 파생) 두 가지 유형이 있으며, 비용과 구축 시간이…

Data masking

데이터 마스킹(Data Masking)은 민감한 데이터를 구조적으로는 유사하지만 실제 값은 보이지 않도록 대체해 비프로덕션 환경(개발·테스트·분석)에서 안전하게 사용할 수 있게 하는 기법입니다. 정적 마스킹(복제 시점), 동적 마스킹(쿼리 시점), 온더플라이 마스킹이 있으며, 주민번호·카드번호·이메일 같은 PII 처리에 널리 쓰입니다.

Data Mesh

데이터 메시(Data Mesh)는 데이터를 중앙 집중식으로 관리하는 대신, 도메인별 팀이 데이터를 제품(product)으로 소유·제공하는 분산형 데이터 아키텍처 패러다임입니다. Zhamak Dehghani가 제안한 4가지 원칙(도메인 소유, 데이터 as 제품, 셀프서비스 플랫폼, 연합 거버넌스)을 따르며, 대규모 조직의 데이터 확장성과 민첩성 문제를 해결합니다.

Data Migration

데이터 마이그레이션(Data Migration)은 한 시스템·저장소·형식에서 다른 시스템으로 데이터를 이동시키는 프로세스입니다. 레거시 시스템 교체, 클라우드 전환, 데이터베이스 업그레이드 시 수행되며, 계획·추출·변환·로드·검증 단계를 거칩니다. 다운타임 최소화, 데이터 무결성 보장, 규정 준수 유지가 핵심 과제이며, ETL·ELT 도구와 전용 마이그레이션 서비스가 활용됩니다.

Data Mining

데이터 마이닝(Data Mining)은 대규모 데이터셋에서 패턴, 규칙, 상관관계, 이상치를 발견하는 과정입니다. 분류, 군집화, 연관 규칙 학습, 회귀, 이상 탐지 등의 기법을 사용하며, 머신러닝과 통계가 기반이 됩니다. 마케팅(장바구니 분석), 금융(사기 탐지), 의료(질병 예측), 웹 로그 분석 등 다양한 분야에 적용됩니다.

Data packaging

데이터 패키징(Data Packaging)은 데이터를 메타데이터·스키마·문서화와 함께 재사용 가능한 단위로 묶어 배포·공유하기 쉬운 형태로 만드는 과정입니다. Frictionless Data Package, FAIR 데이터 원칙 준수 패키지 등이 있으며, 과학 데이터 공유, 오픈 데이터 포털, 기업 내 데이터 제품화에 사용됩니다. 발견성·이해성·재사용성을 크게 개선합니다.

Data platform

데이터 플랫폼(Data Platform)은 데이터 수집·저장·처리·분석·제공을 통합 지원하는 엔드투엔드 인프라와 도구의 집합입니다. 데이터 웨어하우스, 데이터 레이크, 스트리밍 처리, 머신러닝, BI를 하나의 환경에서 제공해 데이터 파편화를 줄입니다. Snowflake, Databricks, Google BigQuery, AWS, Microsoft Fabric이 대표적 플랫폼입니다.

Data privacy

데이터 프라이버시(Data Privacy)는 개인이 자신의 개인정보가 수집·사용·공유되는 방식을 통제할 수 있는 권리와 그 보호를 다룹니다. 데이터 보안이 위협으로부터의 보호라면, 프라이버시는 합법적·윤리적 수집과 사용에 관한 원칙입니다. GDPR, CCPA, PIPL 등 규제가 글로벌 기준을 만들고 있으며, 동의 관리, 목적 제한, 최소화 원칙이…

Data privacy day

데이터 프라이버시의 날(Data Privacy Day, 매년 1월 28일)은 개인정보 보호의 중요성에 대한 인식을 높이고 모범 사례를 확산시키기 위한 국제 기념일입니다. 1981년 유럽평의회의 '개인 데이터 자동 처리에 관한 협약' 서명일을 기념하며, 기업·정부·시민사회가 교육 캠페인, 세미나, 정책 논의를 진행합니다. 북미에서는 'Data Privacy…

Data protection

데이터 보호(Data Protection)는 데이터의 무단 접근, 손실, 변조, 파괴로부터 데이터를 지키는 기술·정책·절차의 집합입니다. 암호화, 접근 제어, 백업·복구, 재해 복구, 프라이버시 보호가 포함되며, GDPR 같은 법적 요구사항 준수도 중요한 부분입니다. 사이버 위협 고도화와 규제 강화로 기업의 핵심 리스크 관리 영역이 되었습니다.

Data Protection Act

데이터 보호법(Data Protection Act)은 개인정보의 수집·처리·저장·공유를 규율하는 법률을 통칭합니다. 영국의 Data Protection Act 2018이 대표적이며, EU GDPR을 국내법화했습니다. 데이터 주체의 권리(접근·수정·삭제·이동), 컨트롤러·프로세서 의무, 위반 시 제재를 규정합니다. 많은 국가가 유사한 법률을 제정해 글로벌 프라이버시 기준을 형성하고 있습니다.

Data Protection Directive

데이터 보호 지침(Data Protection Directive, 95/46/EC)은 1995년 EU가 채택한 개인정보 보호 법률로, 회원국의 개인정보 처리·이동에 관한 공통 기준을 제시했습니다. 2018년 GDPR로 대체되었으나 현대 프라이버시 법제의 기초를 마련했으며, 데이터 주체 권리, 컨트롤러·프로세서 구분, 동의 원칙 같은 핵심 개념을 정립했습니다.

Data protection officer

데이터 보호 책임자(Data Protection Officer, DPO)는 조직의 개인정보 보호 규정 준수를 감독하는 전담 역할입니다. GDPR에서 특정 조직에 대해 의무화했으며, 처리 활동 모니터링, 영향 평가 자문, 감독기관과의 연락 창구 역할을 수행합니다. 독립성과 전문 지식이 요구되며, 법적·윤리적 데이터 활용의 내부 감시자 역할을…

Data re-identification

데이터 재식별(Data Re-identification)은 익명화된 데이터를 다른 데이터와 결합하거나 분석 기법을 통해 원래 데이터 주체를 재식별해내는 과정입니다. 지퍼 공격(linkage attack), 속성 추론, 멤버십 추론 등이 공격 기법이며, 단순 마스킹이나 식별자 제거만으로는 프라이버시가 보장되지 않음을 보여줍니다. k-익명성, 차등 정보보호 같은 수학적 보장이…

Data Readiness Gap

데이터 준비도 격차(Data Readiness Gap)는 기업이 보유한 데이터의 현 상태와 AI 프로젝트에서 요구하는 수준 사이의 차이를 말합니다. 품질 부족, 레이블 부재, 규정 준수 문제, 접근 제어 미흡, 불균형이 주요 원인이며, 많은 AI 프로젝트가 이 격차 때문에 착수하지 못하거나 실패합니다. AI-Ready…

Data Repair Pipeline

데이터 복구 파이프라인(Data Repair Pipeline)은 품질 이슈가 있는 데이터를 자동으로 탐지·진단·수정하는 엔드투엔드 워크플로우입니다. 이상치·결측치·불일치 탐지, 복구 규칙 적용, 검증, 품질 메트릭 기록까지 포함합니다. 대규모 엔터프라이즈 데이터와 AI 학습 파이프라인에서 수작업 개입을 줄이고 지속적 품질 관리를 가능하게 합니다.

Data reporting

데이터 리포팅(Data Reporting)은 수집된 데이터를 요약·정리해 의사결정자에게 전달하는 활동입니다. 정기 경영 보고서, 대시보드, 애드혹 리포트, 규제 공시 등 형태가 다양하며, Power BI·Tableau·Looker 같은 도구가 사용됩니다. 품질 높은 리포팅은 정확성·적시성·맥락·행동 지향적 인사이트를 제공해 조직의 데이터 리터러시를 키웁니다.

Data Reproducibility

데이터 재현성(Data Reproducibility)은 동일한 데이터·코드·환경이 주어지면 동일한 분석·AI 결과를 반복 생성할 수 있는 속성을 의미합니다. 데이터 버전 관리, 코드 버전 관리, 환경 고정(Docker, Conda), 실행 메타데이터 기록이 필요하며, 과학 연구의 재현 위기와 AI의 신뢰성 문제를 해결하는 기반입니다.

Data Restoration

데이터 복원(Data Restoration)은 손상·손실·훼손된 데이터를 원상 복구하거나 품질을 되살리는 활동입니다. 백업으로부터의 복구, 손상된 파일 복원, AI 기반 이미지·오디오 복원, 결측값 보간 등 다양한 형태를 포함합니다. 재해 복구, 디지털 보존, 과학 데이터 복원, AI 학습 데이터 품질 향상 등에 활용됩니다.

Data Science

데이터 과학(Data Science)은 통계, 컴퓨터 과학, 도메인 지식을 결합해 데이터에서 의미 있는 통찰을 추출하는 다학제적 분야입니다. 데이터 수집, 정제, 분석, 모델링, 시각화 전 과정을 포함하며, Python, R, SQL, 머신러닝 프레임워크가 주요 도구입니다. 비즈니스 의사결정, 과학 연구, 제품 개발에 광범위하게 적용됩니다.

Data science (data scientist)

데이터 과학(Data Science)은 통계, 수학, 프로그래밍, 도메인 지식을 결합해 데이터에서 가치를 추출하는 분야이며, 데이터 과학자(Data Scientist)는 이를 실무로 수행하는 전문가입니다. 데이터 수집·정제·탐색·모델링·시각화·커뮤니케이션까지 전 과정을 담당하며, Python·R·SQL·머신러닝 프레임워크를 주로 활용합니다. 현대 기업에서 가장 수요가 높은 직군 중 하나입니다.

Data Science and Predictive Analytics

데이터 과학과 예측 분석(Data Science and Predictive Analytics)은 과거 데이터로 미래 결과를 예측하는 데이터 과학의 한 응용 영역입니다. 회귀 분석, 시계열 예측, 분류, 앙상블 기법을 활용해 고객 이탈, 수요 예측, 리스크 평가, 장비 고장 예측 등에 적용합니다. 비즈니스 의사결정을 반응적(reactive)에서…

Data security

데이터 보안(Data Security)은 데이터의 기밀성, 무결성, 가용성(CIA 삼위일체)을 보호하기 위한 기술·정책·통제 수단입니다. 암호화, 접근 제어, 인증, 감사 로그, 취약점 관리, 사고 대응이 포함됩니다. 사이버 공격·내부 위협·실수로 인한 노출 등 다양한 위험에 대비하며, 데이터 보호·프라이버시·규정 준수와 밀접하게 연결됩니다.

Data Security Law of the People's Republic of China

중화인민공화국 데이터 보안법(Data Security Law of the PRC, DSL)은 2021년 9월 시행된 중국의 포괄적 데이터 보안 법률입니다. 중요 데이터와 국가 핵심 데이터의 분류·보호, 데이터 국외 반출 통제, 데이터 처리 활동 전반에 대한 보안 의무를 규정합니다. PIPL(개인정보보호법), 사이버보안법과 함께 중국의 3대…

Data Sharing

데이터 공유(Data Sharing)는 조직·부서·파트너 간에 데이터를 안전하고 규정 준수된 방식으로 교환·제공하는 프로세스입니다. API, 데이터 교환 플랫폼, 데이터 클린룸, 데이터 계약을 통해 이루어지며, 프라이버시·보안·지적재산권을 보호하기 위한 거버넌스가 필수입니다. AI 학습 데이터 공유, 산업 간 협업, 공공 데이터 공개 등 다양한 맥락에서…

Data simulation

데이터 시뮬레이션(Data Simulation)은 실제 세계의 프로세스·현상을 수학적·물리적 모델로 표현해 인공 데이터를 생성하는 기법입니다. 자율주행 훈련용 시뮬레이션 환경, 금융 리스크 몬테카를로 시뮬레이션, 제조 공정 디지털 트윈 등이 대표 사례입니다. 실험이 위험하거나 비용이 큰 시나리오에서 AI 학습·검증의 필수 기법입니다.

Data Standardization

데이터 표준화(Data Standardization)는 서로 다른 형식·단위·명명 규칙으로 저장된 데이터를 공통 표준으로 통일하는 과정입니다. 단위 변환, 카테고리 정규화, 날짜·주소 포맷 통일, 스키마 매핑을 포함합니다. 데이터 통합, AI 학습, 조직 간 데이터 공유, 국제 표준(ISO, SDMX) 준수의 기반이며, 데이터 품질과 상호운용성을 크게…

Data State Freezing

데이터 상태 고정(Data State Freezing)은 AI 실행 시점의 데이터 스냅샷을 불변의 상태로 저장해 이후 재현·감사·디버깅이 가능하게 하는 기법입니다. 학습·추론에 사용된 정확한 데이터 버전·스키마·필터·변환 로직을 함께 기록해, 운영 환경에서 결과가 달라지거나 문제가 발생해도 원인 분석이 가능합니다. 재현 가능한 AI와 규제 준수의…

Data stewardship

데이터 스튜어드십(Data Stewardship)은 조직의 특정 데이터 자산에 대해 품질·사용·접근을 관리·감독하는 역할과 책임입니다. 데이터 스튜어드는 비즈니스 팀·IT·거버넌스 위원회를 연결하며, 데이터 정의·표준·규칙을 유지하고 이슈 해결을 주도합니다. 대규모 조직의 데이터 거버넌스 실행 단위로 필수적이며, 도메인별 분산 소유 모델과도 잘 맞습니다.

Data Storage

데이터 스토리지(Data Storage)는 디지털 데이터를 영구적으로 저장하는 기술과 미디어의 총칭입니다. HDD, SSD, 테이프, 광학 디스크 등 물리 매체부터 블록·파일·객체 스토리지 같은 논리 구조, 온프레미스·클라우드·하이브리드 배포까지 포함합니다. 성능, 내구성, 비용, 확장성, 보안 요구에 따라 적절한 아키텍처를 선택하며, AI 시대에는 대용량 벡터·임베딩…

Data Store

데이터 스토어(Data Store)는 디지털 데이터를 저장·관리하는 시스템을 통칭하는 광범위한 용어로, 관계형 데이터베이스, NoSQL, 파일 시스템, 객체 스토리지, 데이터 레이크 등을 모두 포함합니다. 데이터베이스보다 더 포괄적 개념으로, 구조화·반구조화·비구조화 데이터를 아우릅니다. 애플리케이션 아키텍처에서 영속성 계층의 핵심 역할을 담당합니다.

Data strategy

데이터 전략(Data Strategy)은 조직이 데이터를 전략 자산으로 활용해 비즈니스 목표를 달성하기 위한 장기 계획입니다. 데이터 비전, 거버넌스, 아키텍처, 인프라, 역량, 문화를 통합적으로 다루며, CDO(최고 데이터 책임자)가 주도합니다. 효과적 데이터 전략은 데이터 활용 성숙도를 높이고, AI·디지털 전환의 토대를 제공합니다.

Data Structure

자료 구조(Data Structure)는 데이터를 효율적으로 저장·접근·조작하기 위해 컴퓨터 메모리에 배치하는 방식입니다. 배열, 연결 리스트, 스택, 큐, 트리, 그래프, 해시 테이블 등 다양한 종류가 있으며, 각각 시간·공간 복잡도 특성이 다릅니다. 알고리즘과 함께 컴퓨터 과학의 근간이며, 소프트웨어 성능·확장성의 기초를 결정합니다.

Data theft

데이터 절도(Data Theft)는 무단으로 데이터를 획득·복사·이전하는 행위입니다. 외부 공격(해킹, 피싱, 맬웨어)과 내부자 위협(권한 남용, 악의적 직원) 모두 포함되며, 개인정보, 영업 비밀, 지적재산권, 금융 데이터가 주 타깃입니다. DLP, 암호화, 접근 제어, 이상 탐지, 직원 교육이 예방 수단이며, GDPR·CCPA 등 법적 통지…

Data validation

데이터 검증(Data Validation)은 데이터가 정의된 규칙·형식·범위·관계 제약을 만족하는지 확인하는 과정입니다. 입력 시점 검증, 배치 처리 검증, 스키마 검증, 비즈니스 규칙 검증 등 다양한 수준에서 수행됩니다. Great Expectations, Soda, Monte Carlo 같은 도구가 활용되며, 데이터 품질·신뢰성 유지와 다운스트림 분석·AI의 오류 방지에…

Data verification

데이터 검증(Data Verification)은 데이터가 정확하게 수집·이전·저장되었는지 확인하는 과정입니다. 체크섬, 이중 입력, 소스 대조, 왕복 검증(round-trip verification) 등이 사용됩니다. 데이터 마이그레이션, 백업·복구, 과학 실험 데이터, 재무 기록 등 정확성이 중요한 상황에서 필수이며, 검증(validation)과 함께 데이터 품질 파이프라인의 양대 축을 형성합니다.

Data Version Locking

데이터 버전 잠금(Data Version Locking)은 특정 AI 실행에 사용할 데이터셋의 버전을 명시적으로 고정해 시간이 지나도 동일한 입력이 보장되도록 하는 기법입니다. DVC, LakeFS, Delta Lake 같은 도구로 구현되며, 학습·평가·프로덕션 추론의 일관성을 보장하고 규제 감사와 디버깅을 용이하게 합니다.

Data visualization

데이터 시각화(Data Visualization)는 차트, 그래프, 지도, 대시보드 형태로 데이터를 시각적으로 표현해 패턴·트렌드·이상치를 직관적으로 이해하게 하는 기술입니다. Tableau, Power BI, Matplotlib, D3.js, Plotly 같은 도구가 활용되며, 효과적 시각화는 단순 미적 표현이 아니라 데이터 스토리텔링과 의사결정 지원의 핵심 수단입니다.

Data Warehouse

데이터 웨어하우스(Data Warehouse)는 여러 소스의 데이터를 통합·변환해 분석 목적으로 저장하는 중앙 집중식 저장소입니다. OLAP(온라인 분석 처리) 워크로드에 최적화되어 있으며, 비즈니스 인텔리전스와 보고서 생성의 기반입니다. Snowflake, Amazon Redshift, Google BigQuery, Azure Synapse가 대표적 클라우드 데이터 웨어하우스이며, 데이터 레이크와 결합한 레이크하우스(Lakehouse) 아키텍처가…

Data-centric security

데이터 중심 보안(Data-centric Security)은 네트워크·엔드포인트 경계가 아닌 데이터 자체에 보안 통제를 내장하는 접근 방식입니다. 데이터 암호화, 접근 제어, 분류·라벨링, 마스킹, 사용 정책이 데이터와 함께 이동해 어디서나 보호가 유지됩니다. 클라우드·하이브리드·제로 트러스트 환경에서 필수적이며, AI·생성형 도구 사용이 늘면서 중요성이 커지고 있습니다.

Data-driven control system

데이터 기반 제어 시스템(Data-driven Control System)은 물리 모델 없이 측정된 데이터로부터 직접 제어 법칙을 학습·설계하는 시스템입니다. 강화학습, 시스템 식별, 모델 예측 제어와 결합되며, 복잡한 동역학을 가진 산업 공정, 로봇, 자율주행, 에너지 그리드 최적화에 활용됩니다. 전통적 제어의 한계를 넘어 적응적·지능적 제어를…

Data-driven decision-making

데이터 주도 의사결정(Data-driven Decision-making)은 직관·경험이 아닌 데이터 분석 결과에 기반해 의사결정을 내리는 접근 방식입니다. 성과 지표, 실험 결과, 예측 모델을 적극 활용하며, A/B 테스트 문화, 데이터 리터러시, 품질 높은 데이터 인프라가 전제 조건입니다. 디지털 기업의 경쟁력을 좌우하는 핵심 경영 철학입니다.

Data-informed decision-making

데이터 정보 기반 의사결정(Data-informed Decision-making)은 데이터를 의사결정의 중요한 입력 중 하나로 활용하되, 전문가의 경험·직관·맥락적 판단과 균형을 맞추는 접근 방식입니다. 순수 데이터 주도 방식이 간과할 수 있는 정성적 요소를 고려하며, 정보가 불충분하거나 윤리적 판단이 필요한 상황에서 더 적합합니다.

Database

데이터베이스(Database)는 구조화된 데이터를 저장·관리·검색하기 위한 조직화된 컬렉션입니다. 관계형 데이터베이스(MySQL, PostgreSQL, Oracle), NoSQL 데이터베이스(MongoDB, Redis, Cassandra), 뉴SQL, 벡터 데이터베이스 등 다양한 유형이 있으며, 각각 데이터 모델과 사용 사례가 다릅니다. 데이터 무결성, ACID 트랜잭션, 동시성 제어, 백업·복구 기능을 제공하며, 거의 모든 애플리케이션의…

Database encryption

데이터베이스 암호화(Database Encryption)는 저장된 데이터 또는 쿼리 결과를 암호화해 무단 접근자로부터 보호하는 기법입니다. 투명한 데이터 암호화(TDE), 컬럼 수준 암호화, 필드 수준 암호화, 애플리케이션 계층 암호화 등이 있으며, 키 관리 서비스(KMS)와 결합됩니다. PCI-DSS, HIPAA, GDPR 같은 규제 준수의 필수 요건이기도 합니다.

Decision Theory

의사결정 이론(Decision Theory)은 불확실성 하에서 합리적 의사결정을 연구하는 학문으로, 확률론·통계학·경제학·심리학의 교차 영역입니다. 기대효용 이론, 베이지안 의사결정, 게임 이론, 다기준 의사결정 등이 포함됩니다. AI에서는 강화학습, 추천 시스템, 자율 에이전트가 최적 행동을 선택하는 수학적 기반으로 활용됩니다.

Deep Learning

딥러닝(Deep Learning)은 다층 인공 신경망을 기반으로 한 머신러닝의 하위 분야입니다. 이미지 인식, 음성 인식, 자연어 처리, 생성 AI 등에서 인간 수준의 성능을 달성하며, CNN·RNN·트랜스포머 같은 아키텍처가 대표적입니다. 대규모 데이터와 GPU·TPU 등 가속기의 발전으로 급성장했으며, ChatGPT·Stable Diffusion 같은 최신 AI의 기반…

Deep learning speech synthesis

딥러닝 음성 합성(Deep Learning Speech Synthesis)은 신경망을 이용해 텍스트로부터 자연스러운 인간 음성을 생성하는 기술입니다. Tacotron, WaveNet, VITS 같은 모델이 대표적이며, 프로소디(prosody)·억양·감정까지 사실적으로 재현합니다. 가상 비서, 오디오북, 접근성 보조, 게임 캐릭터 더빙, 다국어 콘텐츠 로컬라이제이션에 활용되며, 성우 음성 복제 등 윤리…

DeepDream

DeepDream은 Google이 2015년 공개한 컴퓨터 비전 프로그램으로, 이미 학습된 CNN의 특정 뉴런 활성을 극대화하도록 입력 이미지를 반복 변형해 환각적인 시각 패턴을 생성합니다. 신경망이 무엇을 '보고' 있는지 시각화하는 연구 도구로 출발했으나, 독특한 예술적 스타일 때문에 생성 예술의 초기 대표작으로도 유명합니다.

Deepfake

딥페이크(Deepfake)는 딥러닝 기술로 기존 이미지·영상·음성에 다른 사람의 얼굴이나 목소리를 합성해 매우 실제처럼 보이게 만든 가짜 미디어입니다. GAN(적대적 생성 신경망)과 최신 확산 모델이 주로 사용되며, 엔터테인먼트·교육에서 합법적으로 활용되기도 하지만 사기·명예훼손·허위정보 유포 등 악용 사례가 급증해 탐지 기술과 법적 규제가 주요 이슈가…

Differential Privacy

차등 정보보호(Differential Privacy)는 데이터셋에 수학적으로 계산된 노이즈를 추가해 개별 데이터 주체의 정보 유출을 방지하면서 통계적 분석은 가능하게 하는 프라이버시 보호 기법입니다. 프라이버시 예산(ε)으로 보호 강도를 정량화하며, 미국 인구조사국, Apple, Google이 실제 서비스에 적용합니다. AI 학습, 통계 공개, 데이터 공유에서 수학적으로…

Diffusion Models

확산 모델(Diffusion Models)은 데이터에 점진적으로 노이즈를 더했다가 역방향으로 제거하는 과정을 학습해 새 데이터를 생성하는 생성형 모델입니다. Stable Diffusion, DALL-E 2, Imagen 등 고품질 이미지 생성의 주류 기술이 되었으며, 비디오·오디오·3D·분자 설계로도 확장되고 있습니다. GAN보다 훈련이 안정적이고 다양한 샘플을 생성하는 장점이 있습니다.

Digital Preservation

디지털 보존(Digital Preservation)은 디지털 콘텐츠를 장기간 접근·활용할 수 있도록 유지·관리하는 활동입니다. 파일 형식 노후화, 매체 부식, 소프트웨어 호환성 상실에 대응해 마이그레이션, 에뮬레이션, 다중 백업, 체크섬 검증 등이 활용됩니다. 도서관, 기록관, 박물관뿐 아니라 기업 규제 준수 문서와 연구 데이터 보존에도 적용됩니다.

Distributed Computing

분산 컴퓨팅(Distributed Computing)은 여러 대의 컴퓨터가 네트워크를 통해 협력해 하나의 계산 작업을 수행하는 모델입니다. 확장성, 내결함성, 병렬 처리 능력을 제공하며, Hadoop, Spark, Kubernetes 같은 프레임워크가 대표적입니다. 빅데이터 분석, 대규모 AI 모델 학습, 클라우드 서비스의 기반 기술로 쓰이며, 단일 머신으로는 처리…

Document Processing

문서 처리(Document Processing)는 PDF, 이미지 스캔, 이메일, 계약서 등 비정형·반정형 문서에서 구조화된 정보를 추출·분류·처리하는 기술입니다. OCR(광학 문자 인식), 문서 AI, NLP를 결합해 청구서 자동 처리, 계약 검토, 양식 디지털화, 지식 추출 등에 활용됩니다. 생성형 AI와 IDP(Intelligent Document Processing) 플랫폼이 자동화…

Economics of open data

오픈 데이터의 경제학(Economics of Open Data)은 공개 데이터가 창출하는 경제적·사회적 가치와 이를 실현하는 비즈니스 모델을 연구합니다. McKinsey는 전 세계 오픈 데이터 가치를 연 3~5조 달러로 추산했으며, 정부 효율성, 혁신 기업 창출, 연구 가속, 시장 투명성 등이 주요 편익입니다. 데이터 품질·라이선스·인프라…

Edge Computing

엣지 컴퓨팅(Edge Computing)은 데이터가 생성되는 위치 가까이(디바이스, 센서, 로컬 서버)에서 연산을 수행하는 분산 컴퓨팅 모델입니다. 클라우드 왕복 없이 저지연 응답이 가능하며, 대역폭·프라이버시·오프라인 운영에 유리합니다. 자율주행, 산업 IoT, 스마트 시티, AR/VR, 실시간 AI 추론이 주요 활용처이며, 5G와 결합해 빠르게 성장하고 있습니다.

Efficiently updatable neural network

효율적으로 업데이트 가능한 신경망(Efficiently Updatable Neural Network, NNUE)은 체스 엔진에서 사용되는 특수한 평가 함수 신경망으로, 일부 입력이 변경될 때 전체를 재계산하지 않고 증분적으로 업데이트할 수 있습니다. 주로 체스·장기 엔진(Stockfish 등)의 위치 평가 고속화에 사용되며, CPU 기반 추론 성능을 크게 향상시켜…

Emotional Intelligence

감성 지능(Emotional Intelligence, EI)은 자신과 타인의 감정을 인식·이해·관리하는 능력을 의미합니다. AI 분야에서는 감정 인식 AI(얼굴 표정, 음성 톤, 텍스트 감성 분석)로 구현되며, 고객 서비스, 헬스케어, 교육, 마케팅에 응용됩니다. 인간 수준의 감성적 상호작용을 지향하지만, 편향·프라이버시·조작 가능성 같은 윤리적 우려도 함께 제기됩니다.

Encryption

암호화(Encryption)는 원본 데이터(plaintext)를 암호 알고리즘과 키로 변환해 권한 없는 자가 이해할 수 없는 형태(ciphertext)로 만드는 기술입니다. 대칭키(AES, ChaCha20), 비대칭키(RSA, ECC), 동형 암호, 양자 내성 암호 등이 있으며, 저장 데이터(at rest), 전송 중 데이터(in transit), 사용 중 데이터(in use)를 보호합니다. 현대…

Enterprise Application Integration (EAI)

엔터프라이즈 애플리케이션 통합(Enterprise Application Integration, EAI)은 조직 내 이질적인 애플리케이션이 데이터·프로세스를 공유하도록 연결하는 아키텍처와 기술입니다. 메시지 브로커, ESB(엔터프라이즈 서비스 버스), API 게이트웨이, iPaaS 같은 구성 요소를 활용해 사일로를 깨고 엔드투엔드 프로세스를 구현합니다. 디지털 전환과 SaaS 확산으로 API 주도 통합과 iPaaS가…

Enterprise data management

엔터프라이즈 데이터 관리(Enterprise Data Management, EDM)는 조직 전체 데이터 자산의 수집·저장·통합·품질·보안·접근·거버넌스를 포괄하는 관리 체계입니다. 마스터 데이터 관리, 메타데이터 관리, 데이터 품질, 데이터 거버넌스가 하위 영역이며, 전사적 데이터 일관성과 신뢰성을 확보해 BI·분석·AI의 기반을 제공합니다.

Enterprise data planning

엔터프라이즈 데이터 계획(Enterprise Data Planning)은 조직의 데이터 수요·공급·이동·저장을 장기적으로 계획하는 활동입니다. 데이터 아키텍처 로드맵, 인프라 용량 계획, 라이프사이클 관리, 투자 우선순위 결정을 포함하며, 비즈니스 전략과 IT 인프라를 연결합니다. AI·클라우드 전환 같은 대규모 이니셔티브의 기반 계획으로 중요합니다.

Enterprise Resource Planning

전사적 자원 관리(Enterprise Resource Planning, ERP)는 조직의 핵심 비즈니스 프로세스(재무, 회계, HR, 공급망, 제조, 영업)를 통합 관리하는 소프트웨어 시스템입니다. SAP, Oracle, Microsoft Dynamics, Workday가 대표적이며, 실시간 데이터 공유와 프로세스 표준화를 통해 효율성과 의사결정 품질을 개선합니다. 클라우드 ERP와 AI 기반 자동화가…

EPrivacy Directive

ePrivacy 지침(Directive 2002/58/EC)은 전자 통신 분야의 프라이버시와 개인정보 보호를 규정하는 EU 법률입니다. 쿠키 동의, 스팸 방지, 위치 데이터 보호, 통신 비밀이 주요 내용이며, 웹사이트의 쿠키 배너 확산의 법적 근거입니다. 현재 ePrivacy Regulation으로 대체 논의가 진행 중이나, 아직 지침이 유효합니다.

EPrivacy Regulation

ePrivacy 규정(ePrivacy Regulation)은 기존 ePrivacy 지침을 대체하기 위해 EU가 추진하는 전자 통신 프라이버시 규정안입니다. GDPR과 보완 관계이며, 쿠키·트래킹·마케팅 통신을 현대적 기술 환경(IoT, OTT 서비스 등)에 맞게 규율하려 합니다. 2017년 이후 회원국 간 이견으로 채택이 지연되고 있으나, 통과 시 디지털 마케팅·광고…

EU-US Data Privacy Framework

EU-미국 데이터 프라이버시 프레임워크(EU-US Data Privacy Framework, DPF)는 2023년 7월 발효된 EU-미국 간 개인정보 이전의 새 법적 기반으로, 무효화된 Privacy Shield를 대체합니다. 미국 정보기관의 개인정보 접근 제한, 비례성 원칙, 독립적 구제 절차 강화를 포함하며, 자체 인증한 미국 기업은 EU GDPR…

EU-US Privacy Shield

EU-미국 프라이버시 쉴드(EU-US Privacy Shield)는 2016년 체결된 EU-미국 간 개인정보 이전 프레임워크로, 이전의 Safe Harbor를 대체했습니다. 미국 기업이 EU 주민의 개인정보를 처리할 때 준수해야 할 원칙과 감독 체계를 규정했으나, 2020년 유럽사법재판소가 'Schrems II' 판결로 무효화했습니다. 이후 EU-US Data Privacy Framework로…

European Centre for Certification and Privacy

유럽 인증 및 프라이버시 센터(European Centre for Certification and Privacy, ECCP)는 유럽 데이터 보호 인증 스킴(Europrivacy)을 관리·운영하는 비영리 기관입니다. GDPR 기반 인증 방법론 개발, 인정된 인증 기관 감독, 국제 데이터 보호 협력을 주도하며, 룩셈부르크에 본부를 두고 있습니다.

European Data Format

유럽 데이터 포맷(European Data Format, EDF)은 생체의학·의학 시계열 신호(뇌파EEG, 근전도EMG, 수면다원검사)를 저장·교환하기 위한 표준 파일 포맷입니다. 1992년 표준화되어 의료 연구·임상에서 광범위하게 사용되며, EDF+와 같은 확장 포맷이 추가 기능을 제공합니다. 장비·소프트웨어 간 상호운용성 확보와 연구 데이터 공유의 기반입니다.

European Data Portal

유럽 데이터 포털(European Data Portal, 현 data.europa.eu)은 EU 회원국과 EU 기관의 공개 데이터를 통합 제공하는 단일 접속점입니다. 150만 건 이상의 데이터셋이 공개 라이선스로 제공되며, 정부·공공 서비스·연구·기업 활용이 가능합니다. 오픈 데이터를 통한 투명성, 혁신, 경제 가치 창출이 목적입니다.

European Data Protection Board

유럽 데이터 보호 이사회(European Data Protection Board, EDPB)는 EU GDPR 시행을 감독하는 독립 기구로, 2018년 설립되어 기존 Article 29 Working Party를 대체했습니다. 각 회원국 데이터 보호 당국의 수장으로 구성되며, GDPR 해석 가이드라인 발표, 분쟁 조정, 인증 스킴 승인을 담당합니다. EU…

European Data Protection Seal

유럽 데이터 보호 인증(European Data Protection Seal)은 GDPR 제42조에 따라 데이터 처리 활동이 유럽 데이터 보호법을 준수함을 증명하는 공식 인증 스킴입니다. 유럽 데이터 보호 이사회(EDPB)가 승인하며, 컨트롤러·프로세서가 자발적으로 취득해 규정 준수를 입증하고 데이터 이전의 안전장치로 활용할 수 있습니다. 2025년 현재…

European Financial Data Institute

유럽 금융 데이터 기관(European Financial Data Institute, EFDI)은 금융 시장 데이터의 품질·표준화·접근성 개선을 위해 설립된 유럽 차원의 기관·이니셔티브입니다. 금융 기관의 데이터 보고, 규제 당국의 감독, 연구자·투자자의 분석 편의성을 목표로 공통 데이터 모델과 통합 플랫폼을 제공합니다.

Europrivacy

Europrivacy는 EU 개인정보 보호 이사회(EDPB)가 공식 승인한 유럽 데이터 보호 인증 스킴으로, GDPR 준수를 검증·인증합니다. 데이터 처리 활동을 표준화된 기준에 따라 평가해 인증서를 발급하며, 제3국 데이터 이전 시 적법성 근거로도 활용됩니다. 기업의 규정 준수 입증과 고객·파트너 신뢰 제고에 사용되는 주요…

Execution Drift

실행 드리프트(Execution Drift)는 AI 시스템이 시간이 지남에 따라 예상과 다른 결과를 생성하게 되는 현상입니다. 데이터 드리프트, 개념 드리프트, 환경 변화(라이브러리 업데이트, OS 패치), 업스트림 스키마 변경 등이 원인입니다. 무증상적으로 진행되어 서서히 성능을 저하시키므로 지속적 모니터링과 실행 상태 비교가 필요합니다.

Execution Environment Drift

실행 환경 드리프트(Execution Environment Drift)는 AI 시스템이 배포된 런타임 환경(OS, 라이브러리, 하드웨어, 네트워크) 구성이 학습·검증 시점과 달라지면서 결과에 영향을 주는 현상입니다. 라이브러리 자동 업데이트, 컨테이너 기반 이미지 변경, 클러스터 노드 이질성이 주요 원인이며, 환경 고정·재현 가능 빌드가 대응책입니다.

Execution Instability

실행 불안정성(Execution Instability)은 동일한 입력에도 AI 시스템이 서로 다른 결과를 내거나 간헐적으로 실패하는 현상을 말합니다. 비결정적 연산, 랜덤 시드 미고정, 부동소수점 누적 오차, 병렬 처리 순서, 모델 온도(temperature) 같은 요소가 원인이 되며, 재현성과 신뢰성을 해칩니다. 시드 고정, 결정론적 알고리즘, 안정적…

Execution Lineage

실행 계보(Execution Lineage)는 AI 시스템의 각 실행이 어떤 데이터·코드·모델·설정에서 비롯되었고 어떤 출력으로 이어졌는지의 인과 관계를 완전히 추적하는 기록입니다. 데이터 리니지가 데이터 흐름을 다룬다면 실행 계보는 실행 단위의 전체 컨텍스트를 다루며, 디버깅·감사·규제 대응·재현성의 핵심 메타데이터입니다.

Execution State

실행 상태(Execution State)는 AI 시스템이 실행될 때의 모든 요소(데이터 스냅샷, 모델 가중치, 하이퍼파라미터, 런타임 환경, 의존성 라이브러리, 시드)의 집합입니다. 실행 상태를 명확히 정의·고정·기록해야 동일 입력에 동일 출력을 보장할 수 있으며, 프로덕션 환경에서의 재현 가능한 AI와 안정성 유지의 기반입니다.

Execution State Layer

실행 상태 계층(Execution State Layer)은 AI 시스템의 매 실행에서 입력 데이터, 모델 버전, 코드, 설정, 출력, 환경을 불변적으로 기록해 재현성과 감사를 보장하는 아키텍처 계층입니다. 실행 간 드리프트 탐지, 오류 원인 분석, 규제 준수를 지원하며, 엔터프라이즈 AI의 신뢰성과 안정성을 확보하는 핵심…

External Data Representation

외부 데이터 표현(External Data Representation, XDR)은 서로 다른 아키텍처의 컴퓨터 간 데이터 교환을 위한 표준 형식입니다. Sun Microsystems가 개발해 RFC 4506으로 표준화되었으며, NFS 같은 분산 시스템에서 바이트 순서·정수 크기 차이를 극복해 이식 가능한 데이터 교환을 제공합니다. JSON·Protocol Buffers 같은 현대…

FAIR data

FAIR 데이터는 데이터가 Findable(찾기 쉬움), Accessible(접근 가능), Interoperable(상호운용 가능), Reusable(재사용 가능)해야 한다는 데이터 관리 원칙입니다. 2016년 과학 데이터 관리를 위해 제안되었으며, 지속 가능한 식별자, 풍부한 메타데이터, 표준 포맷, 명확한 라이선스가 실천 요소입니다. 과학 데이터, 연구 공유, 공공 데이터 정책의 글로벌…

Fairness (machine learning)

머신러닝의 공정성(Fairness in Machine Learning)은 AI 시스템이 인종·성별·나이·장애·지역 등 민감 속성에 따라 차별하지 않도록 보장하는 연구·실무 영역입니다. 통계적 균등성, 기회의 균등, 예측 균등 등 다양한 수학적 정의가 있으며, 편향 탐지·완화 기법, 공정성 제약 학습, 감사 프레임워크가 활용됩니다. 책임 있는 AI의…

Fake data

가짜 데이터(Fake Data)는 실제가 아닌 인공적으로 생성된 데이터를 통칭하는 광범위한 용어입니다. 테스트·개발을 위한 더미 데이터, 합성 데이터, 딥페이크, 조작된 허위 정보까지 포함됩니다. 맥락에 따라 의도가 다르며, 테스트 데이터는 합법적·유용한 반면 허위 정보·딥페이크는 사회적 문제를 일으킵니다. 합성 데이터와는 구분되는 용어입니다.

Feature Engineering

피처 엔지니어링(Feature Engineering)은 원시 데이터에서 머신러닝 모델 성능을 극대화할 수 있는 특성(feature)을 선택·생성·변환하는 과정입니다. 도메인 지식 기반 파생 변수 생성, 정규화, 원-핫 인코딩, 임베딩, 교호작용 생성 등이 기법이며, 고전적 ML에서 가장 중요한 단계로 여겨집니다. 딥러닝은 자동 특성 추출이 강점이지만, 구조화…

Foundation Models

파운데이션 모델(Foundation Models)은 방대한 데이터로 자기 지도 학습된 대규모 모델로, 다양한 다운스트림 작업에 미세조정(fine-tuning) 또는 프롬프팅만으로 적응할 수 있는 AI 모델입니다. GPT, PaLM, LLaMA, CLIP, Stable Diffusion이 대표적이며, 언어·비전·멀티모달 영역에서 범용 AI의 기반을 형성합니다. 개별 작업별로 모델을 처음부터 학습할 필요를…

Functional data analysis

함수형 데이터 분석(Functional Data Analysis, FDA)은 관측값이 개별 숫자가 아닌 곡선·함수로 표현되는 데이터를 분석하는 통계 분야입니다. 성장 곡선, 심전도, 기후 곡선, 주가 시계열 같이 연속적 과정의 관측을 함수로 간주해 평균 함수, 함수형 주성분 분석, 함수형 회귀를 수행합니다. 고차원·연속 관측 데이터에서…

Generative AI

생성형 AI(Generative AI)는 학습된 패턴을 기반으로 새로운 텍스트, 이미지, 오디오, 비디오, 코드를 생성하는 AI입니다. GPT, DALL-E, Stable Diffusion, Sora가 대표 사례이며, 트랜스포머·확산 모델·GAN이 주요 기술 기반입니다. 콘텐츠 제작, 고객 지원, 소프트웨어 개발, 디자인, 교육 등에 광범위하게 적용되며, 2020년대 AI 혁명의…

Generative art

생성 예술(Generative Art)은 알고리즘·코드·자율 시스템이 창작 과정에 직접 참여해 만들어내는 예술 작품을 의미합니다. 초기에는 프로세싱·크리에이티브 코딩 기반이었으나, 최근에는 GAN·확산 모델 같은 생성형 AI로 확장되어 Midjourney·DALL-E·Stable Diffusion으로 누구나 시각 작품을 생성할 수 있습니다. 예술의 저작권, 창의성, 인간의 역할에 대한 새로운 논의를…

Generative model

생성 모델(Generative Model)은 학습 데이터의 분포를 학습해 그와 유사한 새 샘플을 생성할 수 있는 통계·머신러닝 모델입니다. 변분 오토인코더(VAE), GAN, 확산 모델, 자기 회귀 모델(GPT), 정규화 흐름이 대표적입니다. 이미지·텍스트·오디오 생성, 데이터 증강, 이상 탐지, 시뮬레이션에 활용됩니다. 판별 모델(discriminative)과 대비되는 개념입니다.

Generative systems

생성 시스템(Generative Systems)은 단순 입력에서 복잡하고 다양한 출력을 만들어내는 규칙 기반 또는 학습 기반 시스템을 포괄하는 용어입니다. 절차적 콘텐츠 생성(게임 레벨·음악), 진화 알고리즘, 규칙 기반 생성 문법, 최신 AI 생성 모델까지 포함하며, 창작·디자인·시뮬레이션·과학적 탐색 등 광범위한 영역에서 활용됩니다.

Genetic privacy

유전 정보 프라이버시(Genetic Privacy)는 개인의 유전 정보(DNA 시퀀스, 유전자 검사 결과)를 무단 수집·사용·공유·차별로부터 보호할 권리입니다. 유전 정보는 평생 변하지 않고 혈연에도 영향을 미치는 민감한 정보이며, 보험·고용·형사사법에서의 차별 가능성으로 인해 특별한 보호가 필요합니다. 미국 GINA, EU GDPR의 특수 카테고리가 법적 보호를…

GPT (generative pre-trained transformer)

GPT(Generative Pre-trained Transformer)는 OpenAI가 개발한 대규모 언어 모델 계열로, 트랜스포머 디코더 아키텍처를 기반으로 방대한 텍스트로 사전 학습된 후 다양한 작업에 적응합니다. GPT-2(2019), GPT-3(2020), GPT-4(2023), GPT-4o·o1(2024) 등으로 진화하며 언어 이해·생성·추론 능력이 크게 향상되었습니다. ChatGPT로 대중화되었으며 생성형 AI 시대를 열었습니다.

Health data

건강 데이터(Health Data)는 개인의 신체적·정신적 건강 상태, 진료 이력, 의료 처치, 검사 결과, 건강 행동과 관련된 모든 정보를 의미합니다. GDPR·HIPAA에서 민감 정보 특수 카테고리로 보호되며, 정밀 의료·공공 보건·제약 연구의 핵심 자원이지만 유출 시 차별·낙인 위험이 큽니다. 엄격한 동의·익명화·접근 제어가 요구됩니다.

Inference Attack

추론 공격(Inference Attack)은 공개된 또는 접근 가능한 데이터·모델 출력으로부터 보호되어야 할 민감 정보를 추론해내는 프라이버시 공격입니다. 멤버십 추론(학습 데이터 포함 여부), 속성 추론, 모델 역전(model inversion), 데이터셋 재구성 등 다양한 형태가 있으며, 차등 정보보호, 출력 제한, 모델 정규화가 방어 수단입니다.…

Information privacy

정보 프라이버시(Information Privacy)는 개인이 자신에 대한 정보의 수집·사용·공개를 통제할 수 있는 권리를 의미합니다. 데이터 보호와 밀접하게 관련되며, 개인의 자율성·존엄성을 보호하는 기본권으로 간주됩니다. 디지털 시대에 소셜 미디어, AI, 빅데이터 감시로 도전받고 있으며, GDPR 같은 법제가 이를 구체적 권리로 제도화하고 있습니다.

Information privacy law

정보 프라이버시 법(Information Privacy Law)은 개인 정보의 수집·처리·저장·공유를 규율하는 법률의 총칭입니다. EU GDPR, 캘리포니아 CCPA/CPRA, 중국 PIPL, 한국 개인정보보호법, 일본 APPI 등 국가·지역별로 상이하며, 국경을 넘는 데이터 이전을 위한 적정성 결정과 표준계약조항(SCC)이 국제 상거래에서 중요합니다. 최근 AI 규제와도 긴밀히 연결됩니다.

Information security

정보 보안(Information Security, InfoSec)은 정보의 기밀성·무결성·가용성(CIA 삼위일체)을 보호하기 위한 모든 기술·정책·절차를 아우르는 분야입니다. 사이버 보안이 디지털 시스템에 초점을 맞춘다면, 정보 보안은 물리적 문서와 인적 요인까지 포괄합니다. ISO 27001, NIST 프레임워크 같은 표준이 모범 사례를 제시합니다.

Intelligent Automation

지능형 자동화(Intelligent Automation, IA)는 RPA(로봇 프로세스 자동화)에 AI·머신러닝·자연어 처리·컴퓨터 비전을 결합해 단순 반복 업무를 넘어 판단·학습이 필요한 업무까지 자동화하는 접근입니다. 문서 분류, 이메일 분류 응답, 이상 거래 탐지, 고객 서비스 챗봇 등이 예이며, 엔터프라이즈 디지털 전환의 핵심 동력입니다.

Internet of Things

사물 인터넷(Internet of Things, IoT)은 센서·디바이스·기기가 인터넷에 연결되어 데이터를 수집·교환하며 자동화된 의사결정을 수행하는 네트워크입니다. 스마트 홈, 산업 IoT, 커넥티드 카, 웨어러블 헬스케어, 스마트 시티가 대표 영역입니다. 5G, 엣지 컴퓨팅, AI와 결합해 실시간 지능형 서비스를 가능하게 하며, 보안·프라이버시·상호운용성이 지속 과제입니다.

IT Operations Analytics

IT 운영 분석(IT Operations Analytics, ITOA)은 IT 인프라·애플리케이션에서 발생하는 대량 로그·메트릭·이벤트 데이터를 수집·분석해 운영 인사이트를 도출하는 기술입니다. 실시간 모니터링, 이상 탐지, 장애 예측, 용량 계획, 근본 원인 분석에 활용되며, AIOps의 데이터 기반 엔진 역할을 합니다. Splunk, Datadog, New Relic이 대표…

LAMP Stack

LAMP 스택은 Linux(운영체제), Apache(웹 서버), MySQL(데이터베이스), PHP/Perl/Python(프로그래밍 언어)의 조합을 가리키는 전통적 웹 애플리케이션 개발 스택입니다. 오픈소스이며 상호 호환성이 뛰어나 2000년대 웹 개발의 사실상 표준이었고, 여전히 많은 웹사이트가 이 스택으로 운영됩니다. 현대에는 MEAN·MERN 스택, 서버리스 아키텍처와 경쟁·공존합니다.

LangChain

LangChain은 대규모 언어 모델(LLM)을 활용한 애플리케이션 개발을 쉽게 해주는 오픈소스 프레임워크입니다. 프롬프트 관리, 체인(연쇄 호출), 에이전트, 메모리, 외부 도구·데이터 연결(RAG) 기능을 제공하며, Python·JavaScript로 사용 가능합니다. LLM 기반 챗봇, 질의응답 시스템, 자율 에이전트 개발의 사실상 표준으로 자리 잡았습니다.

Latent diffusion model

잠재 확산 모델(Latent Diffusion Model, LDM)은 픽셀 공간이 아닌 저차원 잠재 공간에서 확산 과정을 수행해 계산 효율을 크게 높인 생성 모델입니다. Stable Diffusion이 대표 사례로, 오토인코더로 이미지를 잠재 표현으로 압축한 뒤 확산 모델을 적용합니다. 고해상도 이미지를 실시간에 가까운 속도로 생성할…

Layer (deep learning)

딥러닝의 계층(Layer)은 입력을 변환해 다음 계층에 전달하는 연산 단위입니다. 완전 연결(Dense), 합성곱(Convolutional), 순환(Recurrent), 어텐션(Attention), 정규화(Normalization), 드롭아웃(Dropout) 등 다양한 유형이 있으며, 각 계층이 특정한 특성 추출·변환 역할을 합니다. 신경망의 '깊이'란 이러한 계층의 수를 의미합니다.

Leakage (machine learning)

머신러닝의 데이터 누수(Data Leakage)는 학습 시 미래 정보나 테스트 세트 정보가 의도치 않게 모델에 스며들어 평가 성능이 비정상적으로 높게 나타나고 실 배포 시 성능이 급락하는 현상입니다. 타깃 누수, 훈련-테스트 분할 오류, 특성 엔지니어링 단계 오염이 주 원인이며, 엄격한 데이터 분할·파이프라인…

Linked Data Platform

링크드 데이터 플랫폼(Linked Data Platform, LDP)은 W3C 표준으로, RESTful 방식으로 링크드 데이터(Linked Data)를 읽고 쓸 수 있도록 하는 사양입니다. 시맨틱 웹 기술(RDF, SPARQL)과 결합해 조직 간 데이터 연결·통합·쿼리를 표준화된 방식으로 지원합니다. 지식 그래프, 오픈 데이터, 통합 카탈로그에 활용됩니다.

LLM (Large Language Model)

대규모 언어 모델(Large Language Model, LLM)은 방대한 텍스트 데이터로 학습된 수십억~수조 개 파라미터 규모의 트랜스포머 기반 모델입니다. GPT, Claude, Gemini, LLaMA가 대표적이며, 텍스트 생성, 번역, 요약, 코드 작성, 추론, 대화 등 광범위한 자연어 작업을 단일 모델로 수행합니다. 프롬프트 엔지니어링·RAG·파인튜닝을 통해…

LLM Audit Trail

LLM 감사 추적(LLM Audit Trail)은 LLM 호출의 프롬프트, 모델 버전, 응답, 사용자, 시점, 정책 적용 내역을 불변으로 기록해 규정 준수·보안·거버넌스를 지원하는 로그 체계입니다. 개인정보 유출, 편향 응답, 규제 위반 출력 등을 사후 분석·감사하고, 필요 시 재현해 책임 소재를 규명할 수…

LLM Gateway

LLM 게이트웨이(LLM Gateway)는 엔터프라이즈 환경에서 직원·애플리케이션이 대규모 언어 모델을 안전하게 사용하도록 중계하는 프록시·관리 계층입니다. 프롬프트·응답 내 민감 정보 마스킹, 접근 통제, 사용량 관리, 감사 로그, 모델 라우팅, 비용 제어를 제공하며, Shadow AI 문제와 규정 준수 리스크를 해결하는 핵심 인프라입니다.

Local differential privacy

로컬 차등 정보보호(Local Differential Privacy, LDP)는 사용자 디바이스에서 데이터를 중앙 서버로 보내기 전에 노이즈를 추가해 서버조차 원본 데이터를 볼 수 없게 하는 프라이버시 보호 모델입니다. Apple·Google이 텔레메트리·통계 수집에 실제 적용하며, 중앙 집중 모델보다 강력한 보호를 제공하지만 유용성 확보를 위해 더…

Machine Learning

머신러닝(Machine Learning, ML)은 명시적으로 프로그래밍하지 않고도 데이터로부터 패턴을 학습해 예측·의사결정을 수행하는 AI의 하위 분야입니다. 지도학습, 비지도학습, 준지도학습, 강화학습이 주요 범주이며, 선형 회귀·의사결정 트리·SVM·앙상블·신경망 등 다양한 알고리즘이 있습니다. 이미지 인식, 추천, 금융, 헬스케어 등 거의 모든 산업에 적용됩니다.

Machine Learning (ML)

머신러닝(Machine Learning, ML)은 알고리즘이 데이터에서 학습해 모델을 만들고 새 데이터에 대해 예측·의사결정하는 기술 분야입니다. 인간의 수작업 규칙 대신 데이터 기반 규칙을 스스로 찾으며, 지도/비지도/강화학습, 딥러닝, 전이학습 등 다양한 패러다임이 있습니다. 검색, 추천, 번역, 이미지 분류, 자율주행 등 현대 디지털 서비스의…

Market data

시장 데이터(Market Data)는 금융 시장의 가격, 거래량, 주문 흐름, 호가, 참고 정보 등 거래·분석에 필요한 실시간·역사적 데이터를 의미합니다. 거래소·ECN, Bloomberg·Refinitiv 같은 벤더가 제공하며, 트레이딩, 리스크 관리, 리서치, 규제 보고의 기반입니다. 지연 시간, 데이터 품질, 라이선스 비용이 주요 고려 사항입니다.

Medical data breach

의료 데이터 유출(Medical Data Breach)은 환자의 의료 정보·건강 기록이 무단 노출·접근·공개되는 보안 사고입니다. 극도로 민감하며 평생 지속되는 영향을 미치므로 HIPAA, GDPR 특수 카테고리 등이 엄격한 통지·제재를 규정합니다. 랜섬웨어, 시스템 취약점, 내부자 위협, 잘못된 구성 오류가 주 원인이며, 암호화·접근 제어·사고 대응…

Metadata

메타데이터(Metadata)는 '데이터에 관한 데이터'로, 데이터의 생성자·생성 시점·구조·의미·위치·사용 맥락을 기술하는 정보입니다. 기술적 메타데이터(스키마, 포맷), 비즈니스 메타데이터(용어집, 규칙), 운영 메타데이터(데이터 흐름, 품질 지표)로 구분됩니다. 데이터 발견, 거버넌스, 리니지 추적, 규정 준수의 기반으로 데이터 카탈로그·메타데이터 관리 시스템이 담당합니다.

Multimodal learning

멀티모달 학습(Multimodal Learning)은 텍스트·이미지·오디오·비디오·센서 데이터 등 서로 다른 종류(모달리티)의 데이터를 동시에 학습·추론하는 AI 기법입니다. CLIP, GPT-4V, Gemini 같은 모델이 대표적이며, 이미지 캡셔닝, 시청각 음성 인식, 멀티모달 검색, 자율주행 지각 등에 활용됩니다. 인간 수준의 풍부한 이해를 지향하는 AI의 핵심 방향입니다.

Multiway data analysis

다방향 데이터 분석(Multiway Data Analysis)은 2차원 행렬을 넘어 3차원 이상의 텐서(예: 주체×변수×시간) 데이터를 분석하는 통계 기법입니다. PARAFAC, Tucker 분해 같은 텐서 분해가 대표적이며, 신경과학 데이터, 심리 측정, 화학 계량학, 추천 시스템에 활용됩니다. 차원을 평탄화하지 않고 각 축의 구조를 보존해 더…

National data protection authority

국가 데이터 보호 당국(National Data Protection Authority, DPA)은 각국에서 개인정보 보호 법률을 집행하는 독립 감독 기구입니다. 불만 처리, 조사, 과징금 부과, 가이드라인 발표, 국제 협력을 담당합니다. EU 각 회원국의 DPA(프랑스 CNIL, 독일 BfDI), 영국 ICO, 한국 개인정보보호위원회가 대표적이며, EDPB 같은…

National Privacy Commission

국가 프라이버시 위원회(National Privacy Commission, NPC)는 국가 차원에서 개인정보 보호·프라이버시 관련 정책을 수립하고 감독하는 기관을 의미합니다. 필리핀의 NPC가 대표적이며(2012년 데이터 프라이버시법에 따라 설립), 한국의 개인정보보호위원회, 일본의 개인정보보호위원회도 유사한 역할을 수행합니다. 규제 집행, 인식 제고, 기업 가이던스가 주요 업무입니다.

Natural Language Processing (NLP)

자연어 처리(Natural Language Processing, NLP)는 컴퓨터가 인간의 언어를 이해·해석·생성하도록 하는 AI 분야입니다. 기계 번역, 텍스트 요약, 감성 분석, 질의응답, 개체명 인식, 대화형 AI가 주요 응용이며, 전통적 통계 방법에서 최근 트랜스포머 기반 대규모 언어 모델로 패러다임이 전환되었습니다. 챗봇·검색·음성 비서 등 일상에…

Neural machine translation

신경망 기계 번역(Neural Machine Translation, NMT)은 딥러닝, 특히 시퀀스-투-시퀀스·트랜스포머 모델을 사용해 자동 번역을 수행하는 기술입니다. 기존 통계 기반 번역(SMT)보다 훨씬 자연스러운 번역을 생성하며, Google Translate, DeepL, Papago 같은 서비스가 이를 도입해 품질을 크게 향상시켰습니다. 제로샷 번역, 문맥 인식, 멀티링구얼 모델이…

Neural network (machine learning)

신경망(Neural Network)은 생물학적 뉴런의 구조에서 영감을 받은 계산 모델로, 다수의 노드(뉴런)가 가중치 연결로 이어진 계층 구조를 가집니다. 각 노드는 입력의 가중합에 활성화 함수를 적용해 출력을 생성하며, 역전파 알고리즘으로 학습됩니다. CNN·RNN·트랜스포머 같은 다양한 아키텍처가 있으며, 딥러닝의 핵심 구성 요소입니다.

No Code Machine Learning

노코드 머신러닝(No-Code Machine Learning)은 코딩 없이 GUI로 데이터를 업로드하고 모델을 학습·배포할 수 있게 해주는 플랫폼·도구입니다. DataRobot, Google AutoML, Azure ML Studio, Vertex AI가 대표적이며, 비개발자 도메인 전문가가 AI를 활용할 수 있게 해 AI 민주화에 기여합니다. 단순 분류·회귀에는 효과적이나 복잡한 커스텀…

Non-personal data

비개인 정보(Non-personal Data)는 특정 개인을 식별할 수 없거나 식별할 수 없도록 처리된 데이터를 의미합니다. 기계 데이터, 집계 통계, 익명화 데이터가 포함되며, GDPR·개인정보보호법의 적용 대상에서 제외되어 자유로운 활용이 가능합니다. 단, 다른 데이터와 결합 시 재식별 위험이 있어 지속적인 프라이버시 위험 평가가…

Object Storage

오브젝트 스토리지(Object Storage)는 데이터를 파일·블록이 아닌 고유 ID와 메타데이터가 붙은 '오브젝트' 단위로 저장하는 방식입니다. 평면 네임스페이스와 REST API로 접근하며, 사실상 무한히 확장 가능하고 내구성이 높습니다. Amazon S3, Azure Blob Storage, Google Cloud Storage가 대표적이며, 클라우드 데이터 레이크, 백업, 미디어 저장,…

Open AI

OpenAI는 2015년 설립된 AI 연구·배포 기업으로, 'AGI가 모든 인류에게 이익이 되도록' 하는 미션을 표방합니다. GPT 시리즈, DALL-E, Whisper, Codex, ChatGPT 같은 혁신적 제품을 출시하며 생성형 AI 붐을 이끌었습니다. Microsoft와의 전략적 파트너십, 비영리→이익 제한(capped-profit) 전환, AI 안전·정책 논쟁의 중심에 있는 대표적…

Open Source

오픈소스(Open Source)는 소프트웨어의 소스 코드가 공개되어 누구나 열람·수정·재배포할 수 있는 라이선싱 모델입니다. GPL, MIT, Apache 2.0 같은 다양한 라이선스가 있으며, Linux·Kubernetes·TensorFlow·PyTorch·Python 같은 핵심 기술들이 오픈소스입니다. 투명성, 커뮤니티 협업, 공급자 종속 회피가 장점이며, 최근 대규모 언어 모델과 AI 도구에서도 오픈소스 운동이…

Performance Indicator

성과 지표(Performance Indicator, KPI)는 조직·프로젝트·개인의 성과를 정량적으로 측정·추적하기 위한 핵심 지표입니다. 재무(매출, 이익), 고객(NPS, 유지율), 운영(가동률, 처리 시간), 직원(참여도) 등 다양한 카테고리가 있습니다. SMART 원칙(구체적·측정 가능·달성 가능·관련성·기한)에 따라 설계되며, 대시보드·BI 도구로 실시간 모니터링됩니다.

Personal data

개인 정보(Personal Data)는 살아있는 자연인을 직간접적으로 식별할 수 있는 모든 정보를 의미합니다. 이름, 주소, 이메일, 전화번호 같은 기본 정보부터 IP 주소, 쿠키 ID, 위치 정보, 생체 정보, 행동 패턴까지 포함됩니다. GDPR에서 '데이터 주체'의 개인 정보로 정의되며, 수집·처리·공유 전반에 걸쳐 법적…

Personal Data Privacy and Security Act of 2009

2009년 개인정보 프라이버시 및 보안법(Personal Data Privacy and Security Act of 2009)은 미국에서 제안된 연방 차원의 포괄적 데이터 보호 법안입니다. 데이터 유출 통지, 민감 개인정보 정의, 데이터 브로커 규제, 사생활 영향 평가 의무화 등을 포함했으나 최종 입법에는 이르지 못했습니다. 미국…

Personal Data Protection Act

개인정보 보호법(Personal Data Protection Act, PDPA)은 개인정보의 수집·이용·제공·보관을 규율하는 법률을 일컫는 용어로, 싱가포르 PDPA(2012), 태국 PDPA(2019), 말레이시아 PDPA(2010) 등 많은 아시아 국가가 채택하고 있습니다. 한국의 개인정보보호법도 동일 명칭이며, GDPR 영향을 받아 데이터 주체 권리, 동의, 국외 이전 규제, 위반 제재를…

Personal Data Protection Bill

개인정보 보호 법안(Personal Data Protection Bill)은 현재 시행 중인 법률의 개정 또는 아직 시행 전인 법률안을 통칭합니다. 인도의 Digital Personal Data Protection Act 2023 이전의 여러 차례 법안이 대표 사례이며, 통과 전 공개 협의·산업계 의견 수렴을 거칩니다. 글로벌 프라이버시 규제…

PII Encapsulation

PII 캡슐화(PII Encapsulation)는 개인식별정보(Personally Identifiable Information)를 보호된 컨테이너·토큰·레퍼런스로 감싸 실제 값은 노출하지 않고 처리·분석·전달할 수 있게 하는 기법입니다. 토큰화, 포맷 보존 암호화, 암호화된 레퍼런스를 활용하며, LLM 프롬프트·로그·AI 파이프라인에서 PII 유출을 방지하는 핵심 패턴입니다.

Predictive Analytics

예측 분석(Predictive Analytics)은 통계·머신러닝 기법으로 과거 데이터에서 패턴을 학습해 미래 결과를 예측하는 데이터 분석의 한 형태입니다. 고객 이탈, 신용 리스크, 수요 예측, 장비 고장, 질병 발병 예측 등에 활용되며, 선행적 의사결정을 가능하게 합니다. 데이터 품질·특성 엔지니어링·모델 검증이 성능의 관건이며, 처방…

Privacy Act

프라이버시법(Privacy Act)은 국가·지역별 개인정보 보호 법률을 일컫는 포괄적 명칭입니다. 미국 연방 Privacy Act of 1974(연방 정부 기관의 개인정보 관리 규율), 호주 Privacy Act 1988, 캐나다 Privacy Act, 뉴질랜드 Privacy Act 2020 등이 있으며, 공공·민간 영역 적용 범위와 보호 수준이 법마다…

Privacy by design

프라이버시 바이 디자인(Privacy by Design)은 프라이버시 보호를 시스템·프로세스 설계 초기 단계부터 내재화하는 접근 방식입니다. Ann Cavoukian이 제안한 7대 원칙(사전 예방, 기본 설정으로 프라이버시, 시스템 내 프라이버시 내재, 완전한 기능, 종단 간 보안, 가시성·투명성, 사용자 중심 존중)을 따릅니다. GDPR 제25조에서 법적…

Privacy Impact Assessment

프라이버시 영향 평가(Privacy Impact Assessment, PIA)는 새 프로젝트·시스템·프로세스가 개인정보에 미치는 영향을 사전에 식별·평가·완화하는 체계적 절차입니다. GDPR의 DPIA(데이터 보호 영향 평가)가 대표적이며, 고위험 처리 활동에 의무화됩니다. 개인정보 유형·처리 범위·위험 식별·완화 조치·잔여 위험 수용을 문서화해 책임성과 규정 준수를 입증합니다.

Privacy settings

프라이버시 설정(Privacy Settings)은 사용자가 웹 서비스·앱·OS에서 자신의 개인정보·데이터 공유·가시성을 제어할 수 있는 옵션의 집합입니다. 소셜 미디어의 게시물 공개 범위, 브라우저의 쿠키·트래킹 차단, 모바일 앱의 권한 관리(카메라·위치·연락처)가 포함됩니다. 기본 설정이 프라이버시 친화적이어야 한다는 'privacy by default' 원칙이 중요합니다.

Privacy-enhancing technologies

프라이버시 강화 기술(Privacy-Enhancing Technologies, PETs)은 개인정보를 보호하면서 데이터 활용을 가능하게 하는 기술의 총칭입니다. 차등 정보보호, 동형 암호, 보안 다자간 계산(MPC), 연합학습, 영지식 증명, 신뢰 실행 환경(TEE), 합성 데이터 등이 포함됩니다. 규제 강화와 AI 활용 증가로 주목받는 영역이며, 데이터 주권과 협업의…

Privacy-preserving Data Layer

프라이버시 보호 데이터 계층(Privacy-preserving Data Layer)은 원본 민감 데이터를 그대로 노출하지 않고 분석·AI 활용이 가능하도록 암호화·차등 정보보호·합성 데이터·접근 정책을 내장한 데이터 아키텍처 계층입니다. 데이터 소유자·분석가·AI 모델 사이에서 거버넌스를 자동 강제하며, 규제 준수와 데이터 활용의 균형을 제공합니다.

Production AI Stability

프로덕션 AI 안정성(Production AI Stability)은 AI 시스템이 실제 운영 환경에서 일관되고 예측 가능한 성능을 유지하는 속성입니다. 데이터 드리프트·개념 드리프트·환경 변경·스키마 업데이트 같은 변수에도 안정적인 출력을 보장하며, 실행 상태 고정, 지속 모니터링, 회귀 테스트, 자동 복구 메커니즘으로 달성됩니다. 엔터프라이즈 AI의 핵심…

Production Drift (non-model)

프로덕션 드리프트(비모델, Production Drift - non-model)는 모델 자체는 변경되지 않았지만 주변 환경의 변화로 AI 출력이 시간이 지나며 달라지는 현상입니다. 데이터 스키마 변경, 업스트림 파이프라인 업데이트, 라이브러리 버전 변경, 인프라 리소스 변동, 사용자 행동 변화 등이 원인이며, 흔히 모델 재학습으로 해결할…

Prompt Anonymization

프롬프트 익명화(Prompt Anonymization)는 사용자가 LLM에 보내는 프롬프트에 포함된 개인정보·내부 식별자·기밀을 자동으로 탐지·마스킹해 외부 모델에 노출되지 않도록 하는 기술입니다. 응답 수신 후에는 원래 값으로 복원(de-anonymize)할 수 있어 사용자 경험을 유지합니다. 엔터프라이즈 LLM 게이트웨이의 핵심 기능이며, GDPR·HIPAA 준수의 필수 요건입니다.

Prompt Engineering

프롬프트 엔지니어링(Prompt Engineering)은 대규모 언어 모델로부터 원하는 품질의 출력을 얻기 위해 입력 프롬프트를 설계·최적화하는 기법입니다. 제로샷·퓨샷 예시 제공, 체인 오브 쏘트(CoT), 역할 부여, 템플릿 구조화, 제약 조건 명시가 주요 기법이며, 모델 재학습 없이 성능을 크게 끌어올릴 수 있어 AI 활용의…

Protein Data Bank (file format)

단백질 데이터 뱅크(Protein Data Bank, PDB) 파일 포맷은 생체 분자(단백질, 핵산, 복합체)의 3차원 구조 정보를 표현하는 표준 텍스트 포맷입니다. 원자 좌표, 결합 정보, 실험 방법, 해상도 등을 포함하며, 구조 생물학·약물 설계·AlphaFold 같은 AI 구조 예측 모델의 입출력 포맷으로 필수적입니다. 현재는…

Public data transmission service

공공 데이터 전송 서비스(Public Data Transmission Service)는 정부·공공 기관이 보유한 데이터를 민간에 체계적·안전하게 전송·제공하는 서비스입니다. 한국의 공공마이데이터 서비스, 유럽 오픈 데이터 포털, 미국 Data.gov 등이 관련 사례이며, 데이터 포맷 표준화, 인증·접근 제어, 사용 이력 기록이 필수 요소입니다. 디지털 정부와 혁신…

Public domain

Quantum Computing

양자 컴퓨팅(Quantum Computing)은 양자역학의 중첩·얽힘·간섭 현상을 활용해 특정 문제에서 기존 컴퓨터보다 기하급수적으로 빠른 계산을 수행하는 컴퓨팅 패러다임입니다. 큐비트가 기본 단위이며, Shor·Grover 같은 양자 알고리즘이 암호 해독·검색·시뮬레이션·최적화에 적용될 수 있습니다. IBM, Google, IonQ 등이 초전도·이온 트랩 방식으로 하드웨어를 개발 중이며, 상용화는…

Raw data

원시 데이터(Raw Data)는 수집된 후 처리·정제·변환되지 않은 상태의 데이터를 의미합니다. 센서 측정값, 로그, 스캔한 문서, 원시 텍스트·이미지 등이 해당하며, 분석·AI에 사용되기 전 전처리 과정을 거쳐야 합니다. 원본의 완전한 정보를 보존한다는 장점과 노이즈·중복·일관성 부족이라는 단점을 함께 가지며, 데이터 레이크에 대량 저장됩니다.

Re-run / Replayability

재실행/재현 가능성(Re-run / Replayability)은 과거 AI 실행을 동일 조건에서 다시 수행해 동일한 결과를 얻을 수 있는 능력을 의미합니다. 데이터 버전·코드·환경 고정과 결정론적 알고리즘이 전제 조건이며, 규제 감사, 장애 디버깅, 실험 비교, 모델 진화 추적의 기반입니다. 단순 기록이 아닌 '언제든 되감기…

Real-time PII Filtering

실시간 PII 필터링(Real-time PII Filtering)은 데이터 스트림·LLM 프롬프트·API 호출·로그에서 개인식별정보를 즉각 탐지하고 마스킹·차단·알림하는 기술입니다. 이름·주민번호·카드번호·주소 같은 패턴을 정규식, 개체 인식 AI, 도메인 특화 모델로 식별하며, 엔터프라이즈 LLM 게이트웨이, 데이터 파이프라인, 고객 지원 시스템에서 규정 준수를 강제합니다.

Reinforcement Learning

강화 학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하며 보상을 최대화하는 정책을 학습하는 머신러닝 패러다임입니다. Q-learning, Policy Gradient, Actor-Critic, PPO 등이 주요 알고리즘이며, AlphaGo, 자율주행, 로봇 제어, LLM의 인간 피드백 강화학습(RLHF) 등에 활용됩니다. 시행착오로 학습한다는 점에서 지도학습·비지도학습과 구분됩니다.

Relational Database

관계형 데이터베이스(Relational Database)는 데이터를 테이블(행과 열)로 구조화하고 테이블 간 관계를 외래키로 표현하는 데이터베이스 모델입니다. SQL로 쿼리하며, ACID 트랜잭션, 참조 무결성, 정규화가 특징입니다. MySQL, PostgreSQL, Oracle, SQL Server, SQLite가 대표적이며, 재무·HR·전자상거래 같이 구조화된 업무 데이터 관리의 표준으로 수십 년간 사용되고 있습니다.

Release State

릴리스 상태(Release State)는 AI 시스템이 프로덕션에 배포된 특정 시점의 완전한 스냅샷으로, 모델 가중치, 코드, 데이터 버전, 환경 설정, 의존성을 모두 포함합니다. 릴리스 상태를 불변으로 보존하면 이후 동일 실행을 재현하고 문제 발생 시 이전 상태로 롤백할 수 있어, 엔터프라이즈 AI 운영의…

Reproducible AI Execution

재현 가능한 AI 실행(Reproducible AI Execution)은 동일한 입력·코드·환경 조건이 주어지면 AI 시스템이 동일한 출력을 반복 생성할 수 있는 속성입니다. 데이터 버전 고정, 랜덤 시드 고정, 결정론적 연산, 환경 컨테이너화, 실행 메타데이터 기록이 필요하며, 과학적 검증·규제 감사·디버깅·프로덕션 안정성의 기반이 됩니다.

RESTful API

RESTful API는 HTTP 프로토콜 기반으로 REST(Representational State Transfer) 아키텍처 스타일 원칙을 따르는 웹 API입니다. 자원을 URL로 식별하고 GET·POST·PUT·DELETE 등 HTTP 메서드로 작업하며, 무상태성·캐시 가능성·계층 구조가 특징입니다. JSON을 주로 사용하며, 웹·모바일 애플리케이션의 사실상 표준 API 설계 방식입니다. 최근 GraphQL, gRPC 같은…

Restricted Data

제한된 데이터(Restricted Data)는 법적·규제적·계약적·내부 정책에 의해 접근·사용·공유가 엄격히 통제되는 데이터를 의미합니다. 국가 기밀, 영업 비밀, 민감 개인정보, 규제 대상 건강·금융 데이터가 해당하며, 엄격한 접근 제어·암호화·감사 로그·사용 제한이 필수입니다. AI 학습에 직접 활용이 어려워 합성 데이터·연합학습 같은 우회 방안이 모색됩니다.

Retrieval-Augmented Generation (RAG)

검색 증강 생성(Retrieval-Augmented Generation, RAG)은 LLM이 답변을 생성할 때 외부 지식 베이스·문서에서 관련 정보를 검색해 프롬프트에 주입함으로써 정확성·최신성·출처 추적성을 확보하는 기법입니다. 벡터 데이터베이스, 임베딩, 리트리버를 결합해 구현되며, 도메인 특화 질의응답, 엔터프라이즈 AI 비서, 법률·의료 LLM 등에서 환각(hallucination)을 줄이는 표준 접근법이…

Run Binding

런 바인딩(Run Binding)은 AI 시스템의 단일 실행(run)에 관련된 모든 요소—입력 데이터 스냅샷, 모델 버전, 코드 커밋, 하이퍼파라미터, 환경, 출력—를 고유 식별자로 묶어 추적 가능하게 만드는 기법입니다. 실험 추적, 감사, 디버깅, 규제 대응 시 실행 컨텍스트를 완전히 복원할 수 있게 해주며,…

Safe LLM Execution Layer

안전 LLM 실행 계층(Safe LLM Execution Layer)은 대규모 언어 모델 호출 전후에 프롬프트 검증, 민감정보 필터링, 정책 강제, 출력 검증, 감사 로깅을 수행하는 미들웨어 계층입니다. 프롬프트 인젝션 방지, 개인정보 노출 차단, 환각 완화, 편향 필터링을 제공하며, 엔터프라이즈 환경에서 LLM을 안전하고…

SDK

SDK(Software Development Kit)는 특정 플랫폼·서비스·라이브러리의 개발을 돕는 도구·라이브러리·문서·샘플 코드의 패키지입니다. AWS SDK, Google Cloud SDK, iOS SDK, Android SDK가 대표적이며, API 호출을 추상화해 개발 생산성을 높입니다. AI 분야에서는 OpenAI SDK, Hugging Face Transformers, LangChain 같은 SDK가 LLM·ML 통합을 단순화합니다.

Self-supervised learning

자기 지도 학습(Self-Supervised Learning, SSL)은 레이블 없는 데이터로부터 모델이 스스로 예측 과제(pretext task)를 만들어 학습하는 방법입니다. BERT의 마스크 언어 모델, GPT의 다음 토큰 예측, SimCLR의 대조 학습이 대표 예이며, 대규모 레이블 없는 데이터를 활용할 수 있어 파운데이션 모델 학습의 핵심…

Sentiment Analysis

감성 분석(Sentiment Analysis)은 텍스트에 담긴 감정·의견·태도를 자동으로 식별·분류하는 자연어 처리 기법입니다. 긍정/부정/중립 분류, 감정(기쁨·분노·슬픔) 탐지, 측면 기반 감성 분석(aspect-based)이 있으며, 브랜드 모니터링, 제품 리뷰 분석, 고객 서비스, 소셜 미디어 분석, 주식 시장 예측에 활용됩니다. LLM·트랜스포머 모델로 정확도가 크게 향상되었습니다.

Silent Failure in AI

AI의 무성 실패(Silent Failure in AI)는 AI 시스템이 명시적 오류 없이 잘못된 결과를 계속 생성하는 상황을 가리킵니다. 데이터 드리프트, 입력 분포 변화, 모델 열화가 서서히 진행되어 외형적으론 작동하지만 정확성은 저하된 상태입니다. 탐지가 어렵고 비즈니스에 누적 피해를 주므로, 지속적 모니터링, 골든…

Social data analysis

사회 데이터 분석(Social Data Analysis)은 사람들의 사회적 행동, 상호작용, 네트워크, 감정·태도 데이터를 분석해 사회적 트렌드와 인사이트를 도출하는 활동입니다. 소셜 네트워크 분석, 감성 분석, 토픽 모델링, 협업 필터링이 활용되며, 브랜드 전략, 공공 정책, 재난 대응, 유행 예측에 적용됩니다. 프라이버시 보호와 윤리적…

Social data science

사회 데이터 과학(Social Data Science)은 소셜 미디어, 모바일 로그, 설문, 공공 데이터 등을 활용해 인간·사회 현상을 연구하는 다학제적 분야입니다. 사회학, 경제학, 심리학, 정치학이 데이터 과학·ML과 결합하며, 여론 분석, 네트워크 분석, 건강 행태 연구, 선거 예측 등에 활용됩니다. 데이터 윤리·편향·동의가 특히…

Soft privacy technologies

소프트 프라이버시 기술(Soft Privacy Technologies)은 사용자가 자신의 데이터가 적절히 처리된다고 신뢰하는 서비스 제공자를 전제로 하는 프라이버시 보호 기술입니다. 접근 제어, 감사 로그, 동의 관리, 정책 엔진이 포함되며, 조직 내부 정책·규제·계약으로 보호가 강제됩니다. 서비스 제공자조차 원본을 볼 수 없게 하는 '하드…

Source data

원본 데이터(Source Data)는 가공·변환·복제 전 최초 수집된 데이터로, 데이터 파이프라인의 진실된 원천(source of truth) 역할을 합니다. 운영 시스템, IoT 센서, 외부 API, 사용자 입력 등이 소스이며, 데이터 리니지 추적에서 각 파생 데이터의 근원을 찾아갈 때 핵심 참조점이 됩니다. 원본 보존은…

Speech Recognition

음성 인식(Speech Recognition, ASR)은 음성 신호를 텍스트로 자동 변환하는 기술입니다. 가상 비서(Siri, Alexa), 음성 검색, 자동 자막, 콜센터 분석, 받아쓰기 도구에 활용되며, 최근 Whisper 같은 트랜스포머 기반 다국어 모델이 성능을 혁신적으로 향상시켰습니다. 잡음·억양·전문 용어에 대한 강건성이 주요 연구 과제이며, 실시간…

SQL

SQL(Structured Query Language)은 관계형 데이터베이스의 데이터를 쿼리·조작·정의·제어하기 위한 표준 프로그래밍 언어입니다. SELECT, INSERT, UPDATE, DELETE 같은 DML과 CREATE, ALTER 같은 DDL을 포함하며, 수십 년간 데이터 접근의 사실상 표준으로 사용되었습니다. 빅데이터·NoSQL 시대에도 데이터 웨어하우스·레이크하우스에서 SQL 쿼리 엔진(Presto, Trino, BigQuery)이 핵심 역할을…

Stable Diffusion

Stable Diffusion은 Stability AI가 2022년 공개한 오픈소스 잠재 확산 모델로, 텍스트 설명을 이미지로 변환하는 생성 AI입니다. 잠재 공간에서 확산 과정을 수행해 일반 GPU에서 실행 가능하며, 오픈 모델 가중치와 유연한 파인튜닝(LoRA, Textual Inversion, DreamBooth) 생태계로 크리에이티브 AI 대중화에 크게 기여했습니다. SDXL·SD3…

State Diff / State Comparison

상태 diff/비교(State Diff / State Comparison)는 두 AI 실행 상태 사이의 차이를 체계적으로 식별·분석하는 기법입니다. 데이터 스키마 변경, 모델 파라미터 변화, 환경 의존성 차이, 설정 값 변경을 자동으로 탐지하며, 드리프트 원인 분석, 회귀 추적, 변경 영향 평가에 활용됩니다. 소프트웨어의 git…

State Versioning

상태 버전 관리(State Versioning)는 AI 시스템의 실행 상태를 시간에 따른 여러 버전으로 관리해 각 시점의 상태로 되돌아가거나 비교할 수 있게 하는 기법입니다. 데이터·모델·설정·환경의 모든 측면을 포괄하며, Git과 유사한 브랜칭·머징 개념을 적용할 수 있습니다. 안정성 보장, 롤백, A/B 비교, 감사의 기반이…

Statistical data

통계 데이터(Statistical Data)는 집계·요약된 수치·비율·지표로 표현되는 데이터를 의미합니다. 인구 조사, 경제 지표, 사회 조사 결과 등이 대표 예이며, 개별 단위의 상세 정보 대신 모집단 수준의 패턴과 추세를 보여줍니다. 공공 통계 기관(통계청, Eurostat)이 주로 생산하며, 정책 결정·연구·언론 보도의 기초 자료가 됩니다.

Statistical data agreements

통계 데이터 협정(Statistical Data Agreements)은 국가·기관 간 통계 데이터 교환·공유를 표준화된 방식으로 규율하는 공식 합의입니다. SDMX(Statistical Data and Metadata eXchange)가 대표 표준이며, IMF·OECD·ECB 같은 국제 기구가 공통 포맷·메타데이터로 데이터를 교환합니다. 국제 비교 가능성과 데이터 품질 확보를 가능하게 합니다.

Statistical data coding

통계 데이터 코딩(Statistical Data Coding)은 통계 분석을 위해 원시 응답·관측을 표준화된 코드·카테고리로 변환하는 작업입니다. 산업 분류(ISIC, KSIC), 직업 분류(ISCO), 지역 코드(ISO 3166), 의료 코드(ICD)가 예이며, 설문 응답의 개방형 질문을 수치 코드로 변환하는 것도 포함합니다. 일관된 코딩이 비교·집계·국제 통계의 전제입니다.

Statistical data types

통계 데이터 유형(Statistical Data Types)은 분석 방법 선택의 기준이 되는 데이터 분류 체계입니다. 명목형(성별, 국적), 순서형(만족도 등급), 구간형(온도), 비율형(나이, 매출)으로 구분되며, 각 유형에 적합한 통계 기법(평균·중앙값·카이제곱 등)이 다릅니다. 올바른 유형 분류가 분석 결과의 타당성을 좌우합니다.

Statistical Fidelity (distribution preservation)

통계적 충실도(Statistical Fidelity, 분포 보존)는 합성 데이터가 원본 데이터의 통계적 분포·상관관계·패턴을 얼마나 잘 유지하는지를 나타내는 품질 지표입니다. 단변량 분포, 다변량 상관, 조건부 분포, 시계열 패턴 등을 비교하며, 충실도가 높을수록 합성 데이터로 학습한 AI 모델이 실제 데이터와 유사한 성능을 보입니다. 프라이버시…

Streaming Data

스트리밍 데이터(Streaming Data)는 지속적으로 생성되어 실시간 또는 준실시간으로 처리되는 데이터 흐름입니다. IoT 센서, 금융 거래, 로그, 소셜 미디어 피드, 비디오 스트림이 대표 예이며, Apache Kafka, Flink, Spark Streaming 같은 플랫폼으로 처리합니다. 배치 처리와 달리 낮은 지연 시간과 지속적 분석이 필요하며,…

Structured Data

구조화 데이터(Structured Data)는 명확한 스키마를 따르는 테이블 형태의 데이터로, 관계형 데이터베이스나 스프레드시트에 저장됩니다. 재무 기록, 고객 정보, 거래 내역 같이 사전 정의된 열·형식을 가지며, SQL로 쉽게 쿼리할 수 있습니다. 비구조화 데이터(텍스트·이미지·비디오)와 대비되며, BI·OLAP·전통적 ML에서 가장 직접적으로 활용됩니다.

Supervised Learning

지도 학습(Supervised Learning)은 레이블된 학습 데이터(입력-정답 쌍)로부터 모델이 입력-출력 매핑을 학습하는 머신러닝 패러다임입니다. 분류(이메일 스팸 여부)와 회귀(집값 예측)가 주요 작업이며, 선형 회귀·의사결정 트리·신경망·SVM 등 다양한 알고리즘이 사용됩니다. 레이블 품질과 양이 성능을 좌우하며, 가장 많이 사용되는 ML 패러다임입니다.

Support vector machine

서포트 벡터 머신(Support Vector Machine, SVM)은 클래스 간 경계를 최대화하는 초평면을 찾는 지도 학습 알고리즘입니다. 커널 트릭을 사용해 비선형 분리가 가능하며, 분류·회귀·이상 탐지에 활용됩니다. 적은 데이터에서도 강력한 성능을 내고 과적합에 강해 전통 ML에서 널리 사용되었으며, 딥러닝 이전 시대에는 이미지 분류·텍스트…

Synthetic Data

합성 데이터(Synthetic Data)는 실제 데이터의 통계적 특성을 유지하면서 통계 모델·생성 AI로 인공적으로 생성한 데이터입니다. 프라이버시 보호, 데이터 희소성 극복, 클래스 불균형 해소, AI 학습 데이터 확보, 시뮬레이션에 활용됩니다. GAN·확산 모델·LLM 등을 이용하며, 개인정보를 직접 노출하지 않고도 데이터의 가치를 공유·활용할 수…

Synthetic Data Generation

합성 데이터 생성(Synthetic Data Generation)은 실제 데이터의 통계적 특성·관계·분포를 유지하면서 새로운 인공 데이터를 만드는 기술입니다. GAN, 확산 모델, VAE, 시뮬레이션, 통계적 샘플링이 활용되며, 프라이버시 보호, 데이터 증강, 레어 케이스 생성, 규제 준수 환경에서 AI 학습 데이터 확보에 사용됩니다. 품질 평가는…

Synthetic Data Governance

합성 데이터 거버넌스(Synthetic Data Governance)는 합성 데이터의 생성·검증·사용·공유에 걸친 정책·프로세스·통제 체계입니다. 프라이버시 보호 수준 검증(재식별 위험, 멤버십 추론), 통계적 충실도 평가, 사용 용도 제한, 감사 로그, 생성 파이프라인 문서화를 포함합니다. 합성 데이터가 실제 데이터 대체재로 신뢰받기 위한 필수 체계로 부상하고…

Synthetic media

합성 미디어(Synthetic Media)는 AI로 생성·편집된 이미지, 비디오, 오디오, 텍스트 등 미디어를 통칭합니다. 딥페이크, AI 생성 이미지, 합성 음성, 가상 인플루언서가 포함되며, 엔터테인먼트·교육·광고·접근성에 긍정적으로 활용되는 한편, 허위 정보·사기·초상권 침해 등 악용 사례도 빈번합니다. 콘텐츠 인증(C2PA), 워터마킹, 탐지 AI가 대응 기술로 발전하고…

Synthetic-first Data Layer

합성 우선 데이터 계층(Synthetic-first Data Layer)은 AI 개발·분석 과정에서 기본적으로 합성 데이터를 먼저 사용하고 실제 데이터는 엄격히 통제된 상황에서만 접근하도록 설계된 데이터 아키텍처입니다. 프라이버시 최소화, 규정 준수 기본 설정, 개발자 생산성 향상, 실제 데이터 유출 위험 감소를 동시에 달성하며, 엔터프라이즈…

Tabular Data

테이블 데이터(Tabular Data)는 행과 열로 조직된 구조화된 데이터로, 스프레드시트·관계형 데이터베이스의 표준 형식입니다. 각 행은 하나의 레코드, 각 열은 속성(feature)을 나타냅니다. 비즈니스 데이터 대부분이 이 형태이며, 부스팅 계열(XGBoost, LightGBM, CatBoost) 알고리즘이 딥러닝보다 우수한 성능을 내는 경우가 많습니다. 최근 테이블 데이터용 파운데이션…

Test data

테스트 데이터(Test Data)는 머신러닝 모델의 최종 성능을 평가하기 위해 학습·검증에 사용되지 않은 별도의 데이터셋입니다. 실제 배포 후 성능을 추정하는 근거이며, 훈련/검증/테스트 분할이 표준적으로 적용됩니다. 데이터 누수 방지, 대표성 확보, 충분한 크기가 중요하며, 소프트웨어 테스트에서의 합성·가상 테스트 데이터를 의미하기도 합니다.

Text Mining

텍스트 마이닝(Text Mining)은 비정형 텍스트 데이터에서 패턴·트렌드·인사이트를 추출하는 기법입니다. 키워드 추출, 토픽 모델링, 개체명 인식, 감성 분석, 문서 분류, 관계 추출이 포함되며, 고객 리뷰 분석, 문서 자동 분류, 경쟁사 모니터링, 법률·의학 문서 분석에 활용됩니다. 전통 NLP 기법부터 최신 LLM까지 다양한…

Text-to-video model

텍스트-비디오 모델(Text-to-Video Model)은 텍스트 설명으로부터 비디오 클립을 생성하는 AI 모델입니다. OpenAI의 Sora, Runway Gen-2, Google Veo, Pika Labs가 대표적이며, 확산 모델·트랜스포머 기반으로 수 초~수십 초의 일관된 영상을 생성합니다. 영화 제작, 광고, 교육 콘텐츠 제작에 혁신을 가져오는 한편, 딥페이크 악용·저작권 이슈…

Transaction data

거래 데이터(Transaction Data)는 상거래·금융·운영 상의 개별 거래 활동을 기록한 데이터입니다. 결제 내역, 은행 거래, 주식 매매, 공급망 발주·배송 기록이 포함됩니다. 타임스탬프·금액·당사자·품목 같은 상세 정보를 가지며, 사기 탐지, 매출 분석, 고객 세분화, 예측 분석의 핵심 소스입니다. 대량·실시간 처리와 규제 준수가 주요…

Transfer Learning

전이 학습(Transfer Learning)은 한 작업에서 학습된 지식을 관련 있는 다른 작업에 재사용하는 머신러닝 기법입니다. 대규모 데이터로 사전 학습된 모델을 특정 도메인·작업에 맞게 미세조정(fine-tuning)하는 방식이 대표적이며, 데이터·계산 자원을 크게 절약합니다. 딥러닝 시대의 표준 패러다임이 되었으며, 파운데이션 모델 활용의 근간입니다.

Transformer Model

트랜스포머(Transformer)는 2017년 구글의 'Attention Is All You Need' 논문에서 제안된 신경망 아키텍처로, 셀프 어텐션 메커니즘을 기반으로 시퀀스 데이터를 병렬 처리합니다. BERT, GPT, T5 같은 대규모 언어 모델의 기반이며, 번역·요약·질의응답을 넘어 이미지(ViT)·비디오·단백질 구조 예측까지 확장되었습니다. 현대 AI의 가장 영향력 있는 아키텍처입니다.

Unstructured Data

비구조화 데이터(Unstructured Data)는 사전 정의된 스키마가 없고 텍스트, 이미지, 비디오, 오디오, 이메일, PDF 등 자유 형식을 가진 데이터입니다. 기업 데이터의 80~90%가 비구조화 데이터로 추정되며, 가치 있는 정보를 담고 있지만 전통적 분석 도구로는 활용이 어렵습니다. NLP, 컴퓨터 비전, LLM, 벡터 데이터베이스…

Unusable Data

사용 불가능한 데이터(Unusable Data)는 품질 문제, 규제·접근 제약, 불균형, 레이블 부재 등으로 AI·분석에 직접 활용하기 어려운 데이터를 의미합니다. 많은 기업이 방대한 데이터를 보유하지만 이 상태의 비율이 높아 AI 프로젝트를 시작하지 못하거나 실패합니다. 데이터 진단, 정제, 합성 데이터 보강, 거버넌스 정비가…

Upsampling

업샘플링(Upsampling)은 신호·이미지의 해상도·샘플 수를 늘리는 과정 또는 머신러닝에서 소수 클래스의 샘플을 복제·생성해 클래스 균형을 맞추는 기법을 의미합니다. 신호 처리에서는 보간법으로 새 샘플을 추가하며, ML에서는 단순 복제, SMOTE, 합성 데이터 생성을 활용합니다. 불균형 데이터셋으로 인한 모델 편향을 완화하는 중요한 전처리 단계입니다.

Vector Database

벡터 데이터베이스(Vector Database)는 고차원 벡터(임베딩)를 효율적으로 저장·검색·관리하는 특수 데이터베이스입니다. 근사 최근접 이웃(ANN) 알고리즘(HNSW, IVF, PQ)으로 유사도 기반 검색을 수행하며, Pinecone, Weaviate, Qdrant, Milvus, pgvector가 대표적입니다. LLM의 RAG, 의미 검색, 추천 시스템, 멀티모달 검색의 핵심 인프라로 급부상했습니다.

Zero Data Exposure LLM Usage

제로 데이터 노출 LLM 사용(Zero Data Exposure LLM Usage)은 기업의 민감한 원본 데이터가 외부 LLM 서비스에 노출되지 않도록 하면서 LLM을 활용하는 아키텍처 접근입니다. PII 캡슐화, 프롬프트 익명화, 참조 토큰 치환, 사내 추론 환경을 조합해 모델은 유용성을 유지하되 기밀 정보는 외부로…

Zero-access Data Processing

제로 액세스 데이터 처리(Zero-access Data Processing)는 데이터 처리자(서비스 제공자, 분석가, AI 모델)가 원본 데이터에 직접 접근하지 않고도 처리·분석·학습을 수행할 수 있게 하는 아키텍처 패러다임입니다. 동형 암호, 보안 다자간 계산, 연합학습, 신뢰 실행 환경(TEE), 합성 데이터가 실현 수단이며, 규제 강화와 데이터…