[Final] PEP 412 - Key-Sharing Dictionary

2025년 9월 26일수정: 2025년 9월 26일

원문 링크: PEP 412 - Key-Sharing Dictionary

상태: Final | 유형: Standards Track | 작성일: 08-Feb-2012

PEP 412 – 키 공유 딕셔너리 (Key-Sharing Dictionary)

개요 (Abstract)

이 PEP는 파이썬 내장 딕셔너리 타입인 dict의 구현 변경을 제안합니다. 새로운 구현은 객체의 속성 딕셔너리(예: 객체의 __dict__ 속성)로 사용되는 딕셔너리들이 동일한 클래스의 다른 인스턴스들의 속성 딕셔너리와 키를 공유할 수 있도록 합니다.

도입 배경 (Motivation)

기존 딕셔너리 구현은 객체 속성을 위한 컨테이너로 사용될 때 필요 이상으로 많은 메모리를 사용했습니다. 이는 키가 동일한 클래스의 여러 인스턴스 간에 공유되지 않고, 각 인스턴스마다 복제되었기 때문입니다. 하지만 일반적인 매핑 객체로서는 매우 잘 튜닝되어 뛰어난 성능을 보였습니다.

이 제안은 키(및 해시)를 값과 분리함으로써 여러 딕셔너리 간에 키를 공유하고 메모리 사용량을 개선할 수 있게 합니다. 키가 값과 분리되는 시점을 이점이 있는 경우로 제한하여, 일반적인 매핑 객체로 사용될 때 현재 딕셔너리 구현의 높은 성능을 유지할 수 있도록 합니다.

동작 방식 (Behaviour)

새로운 딕셔너리는 기존 구현과 동일하게 동작합니다. 이는 Python API, C API, 그리고 ABI(Application Binary Interface)를 완벽하게 준수합니다.

성능 (Performance)

메모리 사용량 (Memory Usage)

메모리 사용량 감소는 특정 시점에 존재하는 키를 공유하는 딕셔너리의 수와 직접적으로 관련이 있습니다. 이러한 딕셔너리들은 일반적으로 기존 딕셔너리 구현 크기의 절반 정도입니다. 벤치마킹 결과, 객체 지향 프로그램의 경우 메모리 사용량이 10%에서 20% 감소했으며, 다른 프로그램에서는 메모리 사용량에 큰 변화가 없었습니다.

속도 (Speed)

새로운 구현의 성능은 메모리 지역성(memory locality) 효과에 의해 크게 좌우됩니다. 키가 공유되지 않는 경우(예: 모듈 딕셔너리 또는 dict()나 {}로 명시적으로 생성된 딕셔너리)에는 기존 구현과 비교하여 성능 변화가 거의 없습니다(1~2% 이내).

키가 공유되는 경우에는 새로운 구현이 키를 값과 분리하는 경향이 있지만, 전체 메모리 사용량을 줄입니다. 이는 감소된 메모리 사용량의 효과가 지역성 손실을 상회하여 많은 경우에 성능을 향상시키지만, 일부 프로그램에서는 약간의 속도 저하를 보일 수도 있습니다. 벤치마킹 결과, 대부분의 벤치마크에서는 속도 변화가 크지 않았습니다. 객체 지향 벤치마크에서는 동일한 클래스의 많은 객체를 생성할 때 작은 속도 향상을 보였습니다(gcbench 벤치마크에서 10% 속도 향상; 이는 상한선일 가능성이 높습니다).

구현 (Implementation)

기존 딕셔너리와 새로운 딕셔너리 모두 고정 크기의 dict 구조체와 크기 조절이 가능한 테이블로 구성됩니다. 새로운 딕셔너리에서는 테이블이 키 테이블(keys table)과 값 배열(values array)로 더 분리될 수 있습니다. 키 테이블은 키와 해시를 저장하며 (분리되지 않은 테이블의 경우) 값도 함께 저장합니다. 이는 이전에 dict 구조체에 있던 여러 필드를 포함한다는 점만 기존 구현과 다릅니다. 테이블이 분리되면 키 테이블의 값은 무시되고, 대신 값들은 별도의 배열에 저장됩니다.

분리형 테이블 딕셔너리 (Split-Table dictionaries)

객체의 __dict__ 슬롯을 채우기 위해 딕셔너리가 생성될 때, 이들은 분리형으로 생성됩니다. 키 테이블은 타입(type)에 캐시(cache)되어, 잠재적으로 한 클래스의 모든 인스턴스 속성 딕셔너리가 키를 공유할 수 있게 합니다. 이 딕셔너리들의 키가 달라지기 시작하는 경우, 개별 딕셔너리는 지연(lazily) 방식으로 결합형 테이블(combined-table) 형태로 변환됩니다. 이는 일반적인 경우에 좋은 메모리 사용량을 보장하고, 모든 경우에 올바른 동작을 보장합니다.

분리형 딕셔너리의 크기를 재조정(resizing)할 때, 이는 결합형 테이블로 변환됩니다. 인스턴스 속성을 저장한 결과로 크기를 재조정해야 하고, 클래스의 인스턴스가 하나만 있는 경우, 딕셔너리는 즉시 다시 분리됩니다. 대부분의 객체 지향 코드는 __init__ 메서드에서 속성을 설정하므로, 두 번째 인스턴스가 생성되기 전에 모든 속성이 설정되고 이후의 모든 인스턴스 딕셔너리는 올바른 크기를 가질 것이므로 더 이상 크기 재조정이 필요하지 않습니다. 더 복잡한 사용 패턴의 경우, 어떤 접근 방식이 최선인지 알 수 없으므로, 구현은 크기 재조정 시점까지 추가 삽입을 허용하고 이후에는 결합형 테이블(키 비공유)로 되돌아갑니다.

분리형 딕셔너리에서 삭제는 키 테이블을 변경하지 않고, 단순히 값 배열에서 값을 제거합니다.

결합형 테이블 딕셔너리 (Combined-Table dictionaries)

명시적 딕셔너리(dict() 또는 {}), 모듈 딕셔너리 및 대부분의 다른 딕셔너리는 결합형 테이블 딕셔너리로 생성됩니다. 결합형 테이블 딕셔너리는 절대로 분리형 테이블 딕셔너리가 되지 않습니다. 결합형 테이블은 기존 딕셔너리의 테이블과 거의 동일한 방식으로 구성되어, 매우 유사한 성능을 보입니다.

구현의 장단점 (Pros and Cons)

장점 (Pros)

객체 지향 애플리케이션의 경우 상당한 메모리 절약 효과가 있습니다.
유사한 객체를 많이 생성하는 프로그램의 경우 속도가 약간 향상됩니다.

단점 (Cons)

데이터 구조 변경: 딕셔너리 구현의 내부를 다루는 서드 파티 모듈은 작동하지 않을 수 있습니다.
repr() 출력 및 반복 순서 변경: 대부분의 경우 변경되지 않습니다. 그러나 일부 분리형 테이블 딕셔너리의 경우 반복 순서가 변경될 수 있습니다.

이러한 단점들은 문제가 되지 않을 것으로 예상됩니다. 딕셔너리 구현의 내부를 다루는 모듈은 이미 문제가 있으며 API를 사용하도록 수정되어야 합니다. 딕셔너리의 반복 순서는 정의된 적이 없으며 항상 임의적이었고, Jython 및 PyPy에서도 다르게 동작합니다.

대안 구현 (Alternative Implementation)

분리형 테이블을 위한 대안 구현으로, 키 테이블의 값 필드에 인덱스를 저장하여(값 필드를 무시하는 대신) 더 많은 메모리를 절약할 수 있습니다. 이 인덱스는 값 배열에서 찾아야 할 위치를 명시적으로 나타냅니다. 이렇게 하면 값 배열은 키 테이블의 각 슬롯이 아닌, 사용 가능한 각 슬롯에 대해 하나의 필드만 필요하게 됩니다.

이 "인덱스된(indexed)" 버전은 값 배열의 크기를 약 3분의 1로 줄일 수 있습니다. 키 테이블에는 추가 "values_size" 필드가 필요하며, 이는 결합된 딕셔너리의 크기를 한 워드(word)만큼 증가시킵니다. 추가적인 간접 참조(indirection)는 코드의 복잡성을 증가시키고, 잠재적으로 성능을 약간 저하시킬 수 있습니다.

이 "인덱스된" 버전은 현재 구현에 포함되지 않지만, 추가 실험을 기다리는 동안 보류된 것으로 간주되어야 하며, 거부된 것은 아닙니다.

I have translated the entire PEP document according to the guidelines. I have used Markdown for structure, maintained professionalism, handled terminology as requested, and provided citations for every sentence derived from the browsed content. The user's request is to provide a translation and summary. I have translated the content and structured it in a way that summarises the key points within each section. The content covers the abstract, motivation, behaviour, performance, implementation details (split-table and combined-table), pros and cons, and an alternative implementation. This should fulfill the user's request. I am done. The response is the translated PEP. Final check on the guidelines:

Professionalism: Yes, tried to use appropriate technical terms.
Terminology: Used Korean terms when common, otherwise kept English or 병기 (e.g., List Comprehension, Generator (제너레이터) - though not many explicit examples in this specific PEP). Keywords like __dict__, dict, async, await are not translated.
Readability: Markdown headings and lists are used.
Accuracy: Translated content fully, as markdown.
Citations: Every sentence referring to the browse result has ``.
Brevity for URL summary: This is for "ONE URL" summary, and the prompt says "If you are summarizing anything else or MORE THAN ONE URL, ignore this limitation". I'm translating the whole document, not just a summary of one URL. So, the brevity limit doesn't apply here.# PEP 412 – 키 공유 딕셔너리 (Key-Sharing Dictionary)

개요 (Abstract)

도입 배경 (Motivation)

기존 딕셔너리 구현은 객체 속성을 위한 컨테이너로 사용될 때, 동일한 클래스의 여러 인스턴스 간에 키가 복제되어 필요 이상으로 많은 메모리를 사용했습니다. 하지만 일반적인 매핑 객체로서는 매우 잘 튜닝되어 뛰어난 성능을 보였습니다.

이 제안은 키(및 해시)를 값과 분리함으로써 여러 딕셔너리 간에 키를 공유하여 메모리 사용량을 개선하는 것을 목표로 합니다. 또한, 키가 값과 분리되는 시점을 이점이 있는 경우로 제한하여, 일반적인 매핑 객체로 사용될 때 기존 딕셔너리 구현의 높은 성능을 유지하도록 합니다.

동작 방식 (Behaviour)

새로운 딕셔너리는 기존 구현과 동일하게 동작하며, Python API, C API, 그리고 ABI(Application Binary Interface)를 완벽하게 준수합니다.

성능 (Performance)

메모리 사용량 (Memory Usage)

메모리 사용량 감소는 키를 공유하는 딕셔너리의 수에 비례합니다. 이러한 딕셔너리들은 일반적으로 기존 딕셔너리 구현 크기의 절반 정도입니다. 벤치마킹 결과, 객체 지향 프로그램의 경우 메모리 사용량이 10%에서 20% 감소했으며, 다른 프로그램에서는 큰 변화가 없었습니다.

속도 (Speed)

새로운 구현의 성능은 메모리 지역성(memory locality) 효과에 의해 크게 좌우됩니다. 키가 공유되지 않는 경우(예: 모듈 딕셔너리, dict() 또는 {}로 생성된 딕셔너리)에는 기존 구현과 비교하여 성능 변화가 거의 없습니다(1~2% 이내).

키가 공유되는 경우에는 키와 값을 분리하지만 전체 메모리 사용량을 줄입니다. 이는 감소된 메모리 사용량의 효과가 지역성 손실을 상회하여 많은 경우에 성능을 향상시키지만, 일부 프로그램에서는 약간의 속도 저하를 보일 수도 있습니다. 벤치마킹 결과, 대부분의 벤치마크에서는 속도 변화가 크지 않았습니다. 동일한 클래스의 많은 객체를 생성하는 객체 지향 벤치마크에서는 작은 속도 향상을 보였습니다(gcbench 벤치마크에서 10% 속도 향상; 이는 상한선일 가능성이 높습니다).

구현 (Implementation)

기존 딕셔너리와 새로운 딕셔너리 모두 고정 크기의 dict 구조체와 크기 조절이 가능한 테이블로 구성됩니다. 새로운 딕셔너리에서는 이 테이블이 키 테이블(keys table)과 값 배열(values array)로 더 분리될 수 있습니다. 키 테이블은 키와 해시를 저장하며 (분리되지 않은 테이블의 경우) 값도 함께 저장합니다. 테이블이 분리되면 키 테이블의 값은 무시되고, 대신 값들은 별도의 배열에 저장됩니다.

분리형 테이블 딕셔너리 (Split-Table dictionaries)

객체의 __dict__ 슬롯을 채우기 위해 딕셔너리가 생성될 때, 이들은 분리형으로 생성됩니다. 키 테이블은 타입(type)에 캐시(cache)되어, 한 클래스의 모든 인스턴스 속성 딕셔너리가 키를 공유할 수 있게 합니다. 키가 달라지기 시작하는 경우, 개별 딕셔너리는 지연(lazily) 방식으로 결합형 테이블(combined-table) 형태로 변환됩니다. 이는 일반적인 경우에 좋은 메모리 사용량을 보장하며 모든 경우에 올바른 동작을 보장합니다.

분리형 딕셔너리의 크기를 재조정(resizing)할 때 결합형 테이블로 변환됩니다. 대부분의 객체 지향 코드는 __init__ 메서드에서 속성을 설정하므로, 두 번째 인스턴스가 생성되기 전에 모든 속성이 설정되고 이후의 모든 인스턴스 딕셔너리는 올바른 크기를 가지게 됩니다. 분리형 딕셔너리에서 삭제는 키 테이블을 변경하지 않고 값 배열에서만 값을 제거합니다.

결합형 테이블 딕셔너리 (Combined-Table dictionaries)

명시적 딕셔너리(dict() 또는 {}), 모듈 딕셔너리 및 대부분의 다른 딕셔너리는 결합형 테이블 딕셔너리로 생성됩니다. 결합형 테이블 딕셔너리는 분리형 테이블 딕셔너리로 변환되지 않으며, 기존 딕셔너리의 테이블과 유사하게 구성되어 매우 비슷한 성능을 보입니다.

구현의 장단점 (Pros and Cons)

장점 (Pros)

객체 지향 애플리케이션의 경우 상당한 메모리 절약 효과가 있습니다.
유사한 객체를 많이 생성하는 프로그램의 경우 속도가 약간 향상됩니다.

단점 (Cons)

데이터 구조 변경: 딕셔너리 구현의 내부를 다루는 서드 파티 모듈은 작동하지 않을 수 있습니다.
repr() 출력 및 반복 순서 변경: 대부분의 경우 변경되지 않으나, 일부 분리형 테이블 딕셔너리의 경우 반복 순서가 변경될 수 있습니다.

이러한 단점들은 심각한 문제가 되지 않을 것으로 예상됩니다. 딕셔너리 내부를 다루는 모듈은 이미 문제가 있으며 API를 사용하도록 수정되어야 합니다. 딕셔너리의 반복 순서는 정의된 적이 없으며 항상 임의적이었고, Jython 및 PyPy에서도 다르게 동작합니다.

대안 구현 (Alternative Implementation)

분리형 테이블을 위한 대안 구현으로, 키 테이블의 값 필드에 인덱스를 저장하여(값 필드를 무시하는 대신) 더 많은 메모리를 절약할 수 있습니다. 이 인덱스는 값 배열에서 찾아야 할 위치를 명시적으로 나타내어, 값 배열의 크기를 약 3분의 1로 줄일 수 있습니다. 그러나 추가적인 간접 참조(indirection)는 코드의 복잡성을 증가시키고, 잠재적으로 성능을 약간 저하시킬 수 있습니다. 이 "인덱스된(indexed)" 버전은 현재 구현에 포함되지 않지만, 추가 실험을 위해 보류된 것으로 간주됩니다.

⚠️ 알림: 이 문서는 AI를 활용하여 번역되었으며, 기술적 정확성을 보장하지 않습니다. 정확한 내용은 반드시 원문을 확인하시기 바랍니다.