HashMap vs ConcurrentHashMap vs HashTable in Java

자바

HashMap vs ConcurrentHashMap vs HashTable in Java

_soboro 2023. 6. 26. 23:14

들어가며

자바에서 key value 형태로 저장되는 대표적인 자료구조인 HashMap, HashTable, ConcurrentHashMap에 대해서 설명해보려 한다.

HashMap vs HashTable

HashMap과 ConcurrentHashMap은 공통적으로 Entry라는 개념을 가지고 있다. Entry는 key value 한 쌍을 의미하며, 하나의 Entry는 여러개의 Entry를 가지고 있다. Bucket은 Entry를 하나 또는 여러개를 가진 HashMap의 구성 요소이다. HashMap을 초기화 시킬 때, initialCapacity 파라미터를 통하여 Bucket의 크기를 정해줄 수 있다.

만약 initialCapacity 보다 많은 버킷을 HashMap에 넣게 된다면 리사이징 과정이 일어나게 된다. 리사이징은 사이즈가 늘어난 새로운 HashMap 생성 + 기존 HashMap 복사 + 새로운 값과 기존 HashMap 붙여넣기 이렇게 세가지 과정으로 이루어진다. 여기서 주목할 점은 리사이징 과정이 원자적 연산이 아니기 때문에 흔히 말하는 동시성 문제가 (멀티 쓰레드 환경에서 데이터의 무결성이 보장 되지 않는 문제) 발생 가능성이 있다.

예제 코드를 통해 이해하기 쉽게 설명 해보려 한다.

    final HashMap<Integer, String> map = new HashMap<>(16);
    final Integer targetKey = Integer.MAX_VALUE;
    final String value = "v";

    map.put(targetKey, value);

    Executors.newFixedThreadPool(1).execute(() -> {
      IntStream.range(0, targetKey).forEach(key -> map.put(key, "someValue"));
    });

    while (true) {
      if (map.get(targetKey) == null)
        System.out.println("RESULT IS NULL");
    }

위 코드는 멀티 쓰레드 상황에서 동시성 문제가 발생하는 경우를 재현한다. 코드에서 주목할 부분은 while loop 이다. while loop에서는 앞 코드에서 분명 Integer.MAX_VALUE를 키값으로 v라는 값을 넣었지만 null이라는 값을 무한히 내뱉는다.

이유는 initialCapacity로 설정한 16을 넘기는 Bucket을 HashMap에 넣게되면 리사이징 과정이 진행되기 때문이다. 리사이징 과정은 원자적 연산이 아니기 때문에, 멀티쓰레드 환경에서 값을 복사해서 붙여 넣기 전에 (새로운 사이즈의 HashMap이 생성되었을때) 값을 불러오는 과정에서 NULL 값을 가져오는 결과가 생긴다. 이 문제를 동시성 문제라고 한다.

HashMap을 사용하면 앞에서 설명한 것처럼 동시성 문제가 생기게 된다. 동시성 문제를 해결할 수 있는 방법 중의 하나는 HashMap 대신 HashTable를 사용하는 것이다.

HashTable은 모든 연산을 수행할 때 하나의 쓰레드만 접근할 수 있도록 한다. 간단한 방법이지만, 이 방법은 멀티쓰레드 환경에서 성능에 큰 영향을 주게 된다. 이유는 하나의 쓰레드 이외에 다른 쓰레드들은 하나의 쓰레드의 연산이 끝날때까지 기다려야 하기 때문이다.

성능, 동시성 문제를 동시에 해결하기 위해 ConcurrentHashMap이 등장했다.