^(코딩캣)^ = @"코딩"하는 고양이;
[Win32 문자열 종류와 상호 변환 방법] Part 3 - COM/.NET 문자열 (完)
Win32 C/C++ 문자열 종류와 상호 변환 방법 Win32 C/C++에는 문자열을 나타내는 자료형이 다양하다. 그리고 그 자료형마다 용도와 역할이 있기 때문에 어느 하나만을 선택해서 사용할 수도 없다. 본 포스트에서는 이전 포스트에 이어서 Win32 C/C++에서 사용하는 문자열의 종류 중 COM, .NET에서 사용하는 문자열에 대해 설명하고 상호 변환 방법에 대해 설명하겠다. 1. BSTR, __bstr_t, CComBSTR BSTRBasic String / Binary String은 COM에서 표준으로 사용하는 문자열이다. 이 문자열은 마지막에 NULL 문자가 붙지 않는 대신 문자열의 맨 앞에 4바이트 정수로 크기를 명시하는 특징이 있다. 그렇기 때문에 Win32 C/C++에서 문자열 리터럴을 B..
Microsoft Windows/Win32 문자열 처리
2019. 3. 11. 11:13

[Win32 문자열 종류와 상호 변환 방법] Part 3 - COM/.NET 문자열 (完)

Microsoft Windows/Win32 문자열 처리
2019. 3. 11. 11:13

Win32 C/C++ 문자열 종류와 상호 변환 방법


Win32 C/C++에는 문자열을 나타내는 자료형이 다양하다. 그리고 그 자료형마다 용도와 역할이 있기 때문에 어느 하나만을 선택해서 사용할 수도 없다. 본 포스트에서는 이전 포스트에 이어서 Win32 C/C++에서 사용하는 문자열의 종류 중 COM, .NET에서 사용하는 문자열에 대해 설명하고 상호 변환 방법에 대해 설명하겠다.

 

1. BSTR, __bstr_t, CComBSTR


BSTRBasic String / Binary String은 COM에서 표준으로 사용하는 문자열이다. 이 문자열은 마지막에 NULL 문자가 붙지 않는 대신 문자열의 맨 앞에 4바이트 정수로 크기를 명시하는 특징이 있다. 그렇기 때문에 Win32 C/C++에서 문자열 리터럴을 BSTR형 객체에 보관하기 위해서는 다음과 같이 SysAllocString으로 동적할당을 수행하며, 사용이 완료된 객체는 SysFreeString으로 해제한다. 다음은 BSTR의 선언이다.

typedef OLECHAR * BSTR;

 

여기서 혼동하지 말아야 할 것은, BSTR이 문자열 앞에 문자수를 동반하지만, BSTR이 가리키는 포인터는 문자열 그 자체라는 것이다. 문자수를 얻고자 한다면 해당 포인터에서 4바이트 앞을 참조하면 되지만, 항상 4바이트일 것이라는 억측을 하면 안되므로 SysStringLen 함수로 하여금 문자 수를 대신 가져오게 한다.

또한 문자열 앞에 문자열의 길이를 명시하므로 문자열의 끝에 반드시 NULL 문자가 붙을 필요는 없다. 다른 말로 문자열 끝에 NULL 문자가 있을 것이라는 억측을 하면 안 된다. 그러므로 BSTR을 C-Style로 변환하기 위해서 강제 형변환하는 것보다는, 별도로 제공된 함수를 사용하는 것이 안전하다.

 

BSTR SysAllocString(
    OPT IN const OLECHAR * psz
);
void SysFreeString(
    BSTR bstrString
);
UINT SysStringLen(
    OPT IN BSTR bstr
);

 

이 함수를 사용하여 OLECHAR 문자열을 BSTR로 변환하고, 사용이 끝난 문자열을 해제해 보겠다.

/* Example */
OLECHAR ocs[] = OLESTR("테스트 문자열.");
BSTR bstr;

/* ... */

bstr = SysAllocString(ocs);

// ... BSTR로 처리될 작업

SysFreeString(bstr);

/* ... */

 

BSTR에서 OLECHAR 문자열로 변환하기 위해, 앞서 설명된 매크로 함수를 사용할 수 있다.

/* Example */
#include <atlconv.h>

BSTR bstr;
LPTSTR tcs = NULL;

/* ... */

USES_CONVERSION;
tcs = OLE2T(bstr);

/* ... */

 

1-2. __bstr_t, CComBSTR

__bstr_t와 CComBSTR은 공통적으로 BSTR 형 문자열과 관련 함수들을 하나의 클래스로 캡슐화 한 것이다. 다만, __bstr_t는 Compiler COM Support에서 사용하는 자료형으로서 comutil.h 헤더파일에 정의되어 있고, CComBSTR은 ATL에서 사용하는 자료형으로서 atlbase.h에 정의되어 있다는 차이가 있다. 여기서 Compiler COM Support는 COM을 지원하는 라이브러리 파일을 소스 코드에서 #import 구문으로 포함시켰을 때 컴파일러가 자동으로 내부 클래스와 메서드를 선언하는 구문을 생성하는 것을 뜻한다.

 

2. System::String ^

System::String ^은 .NET Framework에서 지원하는 System.String 형을 C++/CLI에서 부르는 명칭이다. 다음과 같이 생성자로 Multibyte String과 Wide String의 두 가지를 받을 수 있고, 메모리 고정을 통해 Wide String으로 변환할 수 있다.

/* Example */
TCHAR tcs1[] = TEXT("안녕하세요.");
TCHAR tcs2[56] = { TEXT('\0'), };

System::String ^ gcs = nullptr;
pin_ptr pcs = nullptr;

gcs = gcnew System::String(tcs1); // C-Style에서 관리되는 문자열로 변환
pcs = PtrToStringChars(gcs); // 관리되는 문자열에서 C-Style 버퍼 얻기

// wchar_t *가 필요한 곳에 pcs를 대입 가능

 

추가적으로 관리되는 배열을 C-Style 배열로 변환하는 소스 패턴은 다음과 같다.

/* Example */
cli::array^ origin = gcnew cli::array(/* ... */);
cli::pin_ptr conv = &origin[0];

// ... conv를 포인터 배열처럼 사용

 

참고 자료

pin_ptr (C++/CLI) - MSDN
https://msdn.microsoft.com/ko-kr/library/1dz8byfh.aspx
How to convert from System::String* to Char* in Visual C++ - MSDN
https://support.microsoft.com/en-us/help/311259/how-to-convert-from-system-string-to-char-in-visual-c
Working with strings in COM, MFC, Win32, STL / Unraveling Strings in Visual C++
https://www.johndcook.com/blog/cplusplus_strings/

 

 

카테고리 “Microsoft Windows/Win32 문자열 처리”
more...
[Win32 문자열 종류와 상호 변환 방법] Part 2 - Windows API 문자열
Win32 C/C++ 문자열 종류와 상호 변환 방법 Win32 C/C++에는 문자열을 나타내는 자료형이 다양하다. 그리고 그 자료형마다 용도와 역할이 있기 때문에 어느 하나만을 선택해서 사용할 수도 없다. 본 포스트에서는 이전 포스트에 이어서 Win32 C/C++에서 사용하는 문자열의 종류 중 Windows API에서 사용하는 문자열에 대해 설명하고 상호 변환 방법에 대해 설명하겠다. 1. CHAR, LPSTR, LPCSTR, WCHAR, LPWSTR, LPCWSTR, TCHAR, LPTSTR, LPCTSTR 지금까지의 설명의 C/C++의 표준 문자열이었다면 지금부터는 Win32에서 쓰이는 문자열 형에 대한 설명이다. 우선, Windows API에서 기본적으로 쓰이는 문자형은 CHAR과 WCHAR이다. ..
Microsoft Windows/Win32 문자열 처리
2019. 3. 11. 11:03

[Win32 문자열 종류와 상호 변환 방법] Part 2 - Windows API 문자열

Microsoft Windows/Win32 문자열 처리
2019. 3. 11. 11:03

Win32 C/C++ 문자열 종류와 상호 변환 방법


Win32 C/C++에는 문자열을 나타내는 자료형이 다양하다. 그리고 그 자료형마다 용도와 역할이 있기 때문에 어느 하나만을 선택해서 사용할 수도 없다. 본 포스트에서는 이전 포스트에 이어서 Win32 C/C++에서 사용하는 문자열의 종류 중 Windows API에서 사용하는 문자열에 대해 설명하고 상호 변환 방법에 대해 설명하겠다.

 

1. CHAR, LPSTR, LPCSTR, WCHAR, LPWSTR, LPCWSTR, TCHAR, LPTSTR, LPCTSTR


지금까지의 설명의 C/C++의 표준 문자열이었다면 지금부터는 Win32에서 쓰이는 문자열 형에 대한 설명이다. 우선, Windows API에서 기본적으로 쓰이는 문자형은 CHAR과 WCHAR이다. 각각은 표준 자료형을 다르게 이름붙인 것이다.

typedef char CHAR;
typedef wchar_t WCHAR;

 

두 종류의 문자가 각각 NULL 문자로 끝나는 C-Style 문자열로 구성될 경우 이를 LPSTR, LPWSTR이라 한다.

typedef CHAR * LPSTR;
typedef WCHAR * LPWSTR;

 

LPSTR과 LPWSTR이 상수 속성을 가질 경우 LPCSTR와 LPCWSTR이라 한다.

typedef CONST CHAR * LPCSTR;
typedef CONST WCHAR * LPCWSTR;

 

마지막으로 Visual Studio(Visual C++) 컴파일러의 설정에 따라 유니코드를 지원하면 Widechar를 쓰고 지원하지 않으면 ANSI 문자열을 사용하도록 가변적으로 설정한 문자열이 TCHAR, LPTSTR, LPCTSTR이다. 그리고 문자열 리터럴이 이에 맞춰 지정되도록 TEXT 매크로가 사용된다.

/* TCHAR, LPTSTR, LPCTSTR */
#ifdef _UNICODE
    typedef WCHAR TCHAR;
    typedef LPWSTR LPTSTR;
    typedef LPCWSTR LPCTSTR;
    #define TEXT(str) L##str
#else
    typedef CHAR TCHAR;
    typedef LPSTR LPTSTR;
    typedef LPCSTR LPCTSTR;
    #define TEXT(str) str
#endif

 

1-1. CHAR과 WCHAR간 상호변환


일반적으로 Windows API는 A로 끝나는 ANSI형(예: DrawTextA)과 W로 끝나는 Widechar형(예: DrawTextW)를 모두 선언한 뒤 TCHAR 형으로 컴파일러에 따라 매크로에 의해 전환하는 형태(예: DrawText)를 갖고 있다. 하지만, 명시적으로 Widechar 문자열과 ANSI 문자열을 상호 변환하고자 한다면 다음과 같은 Windows API를 사용한다.

int MultiByteToWideChar(
    IN UINT CodePage,
    IN DWORD dwFlags,
    IN LPCSTR lpMultiByteStr,
    IN INT cbMultiByte,
    OPT OUT LPWSTR lpWideCharStr,
    IN INT cchWideChar
);
int WideCharToMultiByte(
    IN UINT CodePage,
    IN DWORD dwFlags,
    IN LPCWSTR lpWideCharStr,
    IN INT cchWideChar,
    OPT OUT LPSTR lpMultiByteStr,
    IN INT cbMultiByte,
    OPT IN LPCSTR lpDefaultChar,
    OPT OUT LPBOOL lpUsedDefaultChar
);

 

CodePage
Multibyte 문자열에 대해 어떤 코드페이지를 기준으로 인코드되었는지(인코드 할 것인지)를 지정하는 옵션이다.
CP_ACP
현재 Windows의 기본 코드 페이지를 사용한다.
CP_THREAD_ACP
본 프로그램이 실행되는 Thread에 할당된 코드 페이지를 적용한다.
CP_UTF7 또는 CP_UTF8
UTF-7 또는 UTF-8로 인코드한다. 이 옵션을 사용할 경우 lpDefaultCharlpUsedDefaultChar 매개변수는 항상 NULL이어야 한다.
dwFlags
각종 플래그 옵션이다.
WC_COMPOSITECHECK
강세가 붙는 문자에 대해 기본 알파벳 + 강세표시로 분리하여 인코드한다. 이 옵션을 명시하지 않을 경우 강세 붙는 문자 그대로 인코드된다.
lpWideCharStr
변환할 또는 변환될 문자열을 수용하는 Widechar형 문자열 버퍼이다.
cchWideChar
lpWideCharStr의 버퍼의 크기이다. 단위는 문자 수이다. 상기 문자열이 NULL 문자로 끝나는 C-Style 문자열이면 이 매개변수는 -1을 전달해도 무방하다.
lpMultiByteStr
변환할 또는 변환될 문자열을 수용하는 Multibyte형 문자열 버퍼이다.
cbMultiByte
lpMultiByteStr의 버퍼의 크기이다. 단위는 바이트이다. 이 매개변수의 값으로 0을 전달할 경우 변환 시 필요한 버퍼의 바이트 수가 반환되며 상기 Multibyte형 문자열 버퍼 매개변수는 무시된다.
lpDefaultChar
특정 WCHAR에 대응하는 Multibyte 문자가 없는 경우(예: 유니코드에는 있는데 KS-X-1001/1002에는 없는 글자) 대체할 기본 문자이다. 단, UTF-7/UTF-8로 변환되는 경우 이 매개변수는 반드시 NULL이어야 한다.
lpUsedDefaultChar
상기 lpDefaultChar를 한번이라도 사용하게 된 경우가 생겼다면 이 매개변수로 TRUE가 출력된다. 이 매개변수를 사용할 필요가 없을 경우 NULL로 지정해도 무방하며, UTF-7/UTF-8로 변환하는 경우 이 매개변수는 반드시 NULL이어야 한다.

 

다음은 WCHAR형 문자열에서 CHAR형 문자열로 변환하는 예이다.

/* Example */
#include <windows.h>

/* ... */

WCHAR wcs[] = L"안녕하세요.";
CHAR mbs[56] = { '\0', };

WideCharToMultiByte(CP_ACP, 0, wcs, _countof(wcs), mbs, sizeof(mbs), NULL, NULL);

/* ... */

 

다음은 CHAR형 문자열에서 WCHAR형 문자열로 변환하는 예이다.

/* Example */
#include <windows.h>

/* ... */

CHAR mbs[] = "안녕하세요.";
WCHAR wcs[56] = { L'\0', };

MultiByteToWideChar(CP_ACP, 0, mbs, sizeof(mbs), wcs, _countof(wcs));

/* ... */

 

2. OLECHAR, LPOLESTR, LPCOLESTR


이 문자열은 ATLActive Template Library, OLEObject Linking and Embedding에서 정의된 문자열 중 하나이다. Windows 운영체제에서 이 문자열은 항상 WCHAR형 문자열과 같다. 구 Macintosh(현재의 OS X가 아닌 클래식 맥)에서 구동되던 COM/OLE에서는 이 문자열이 CHAR형 Multibyte 문자열과 같았다. 문자열 리터럴 상수를 이 문자열형에 대입하기 위해서는 OLESTR 매크로를 사용한다.

/* Definition */
#ifdef _WIN32
    typedef wchar_t OLECHAR;
    typedef wchar_t * LPOLESTR;
    typedef const wchar_t * LPCOLESTR;
    #define OLESTR(str) L##str
#else
    typedef char OLECHAR;
    typedef char * LPOLESTR;
    typedef const char * LPCOLESTR;
    #define OLESTR(str) str
#else

 

2-1. OLECHAR과 WCHAR 상호변환, OLECHAR과 CHAR 상호변환 OLECHAR과 TCHAR간 상호 변환


atlconv.h 헤더파일을 include하면 OLESTR, WCHAR, TCHAR, CHAR, BSTR간 상호 변환이 가능합니다. BSTR에 대해서는 다음 문단에 이어서 설명하고 여기에서는 OLESTR, WCHAR, TCHAR, CHAR간의 상호 변환만을 사용해보겠다.

OLECHAR에서 WCHAR로 변환하기 위한 함수는 다음과 같다.

  • OLE2W(LPOLESTR에서 LPWSTR)
  • OLE2CW(LPOLESTR에서 LPCWSTR)
  • COLE2W(LPCOLESTR에서 LPWSTR)
  • COLE2CW(LPCOLESTR에서 LPCWSTR)

 

OLESTR에서 CHAR로 변환하기 위한 함수는 다음과 같다.

  • OLE2A(LPOLESTR에서 LPSTR)
  • OLE2CA(LPOLESTR에서 LPCSTR)
  • COLE2A(LPCOLESTR에서 LPSTR)
  • COLE2CA(LPCOLESTR에서 LPCSTR)

 

OLESTR에서 TCHAR로 변환하기 위한 함수는 다음과 같다.

  • OLE2T(LPOLESTR에서 LPTSTR)
  • OLE2CT(LPOLESTR에서 LPCTSTR)
  • COLE2T(LPCOLESTR에서 LPTSTR)
  • COLE2CT(LPCOLESTR에서 LPCTSTR)

 

WCHAR에서 OLECHAR로 변환하기 위한 함수는 다음과 같다.

  • W2OLE(LPWSTR에서 LPOLESTR)
  • W2COLE(LPWSTR에서 LPCOLESTR)
  • CW2OLE(LPCWSTR에서 LPOLESTR)
  • CW2COLE(LPCWSTR에서 LPCOLESTR)

 

CHAR에서 OLECHAR로 변환하기 위한 함수는 다음과 같다.

  • A2OLE(LPSTR에서 LPOLESTR)
  • A2COLE(LPSTR에서 LPCOLESTR)
  • CA2OLE(LPCSTR에서 LPOLESTR)
  • CA2COLE(LPCSTR에서 LPCOLESTR)

 

TCHAR에서 OLECHAR로 변환하기 위한 함수는 다음과 같다.

  • T2OLE(LPTSTR에서 LPOLESTR)
  • T2COLE(LPTSTR에서 LPCOLESTR)
  • CT2OLE(LPCTSTR에서 LPOLESTR)
  • CT2COLE(LPCTSTR에서 LPCOLESTR)

 

위 함수를 사용하여 OLECHAR을 WCHAR, CHAR, TCHAR로 변환해보겠다. 이 함수들은 atlconv.h에 정의되어 있으며 호출 전에 USES_CONVERSION 매크로 호출을 필요로 합니다. 이 매크로는 내부적으로 로케일에 맞춰 리셋하는 것과 관련한 내용이 있다.

/* Example */
#include <windows.h>
#include <atlconv.h>

/* ... */

OLECHAR ocs[] = OLESTR("안녕하세요.");

LPTSTR tcs = NULL;
LPWSTR wcs = NULL;
LPSTR mbs = NULL;

LPCTSTR ctcs = NULL;
LPCWSTR cwcs = NULL;
LPCSTR cmbs = NULL;

USES_CONVERSION;

tcs = OLE2T(ocs);
wcs = OLE2W(ocs);
mbs = OLE2A(ocs);

ctcs = OLE2CT(ocs);
cwcs = OLE2CW(ocs);
cmbs = OLE2CA(ocs);

/* ... */

 

여기서 tcs, wcs, mbs 포인터는 각 변환함수로부터 반환된 포인터를 반환받는데, 이 포인터를 직접 해제할 필요는 없다. 오히려 해제하면 안 된다. 왜냐하면 MSDN이 이 버퍼는 정적 버퍼이므로 해제하지 않는다고 되어 있기 때문이다. 다만, 정적버퍼이기 때문에 너무 1MB를 넘는 긴 문자열을 이 함수를 통해 변환해서는 안될 것이다.

이번에는 이 ATL 매크로 함수를 사용하여 TCHAR, CHAR, WCHAR간 상호 변환에 대해 알아보겠다.

TCHAR과 CHAR간 변환하기 위한 함수는 다음과 같다.

  • T2A(LPTSTR에서 LPSTR)
  • T2CA(LPTSTR에서 LPCSTR)
  • CT2A(LPCTSTR에서 LPSTR)
  • CT2CA(LPCTSTR에서 LPCSTR)
  • A2T(LPSTR에서 LPSTR)
  • A2CT(LPSTR에서 LPCSTR)
  • CA2T(LPCSTR에서 LPSTR)
  • CA2CT(LPCSTR에서 LPCSTR)

 

TCHAR과 WCHAR간 변환하기 위한 함수는 다음과 같다.

  • T2W(LPTSTR에서 LPWSTR)
  • T2CW(LPTSTR에서 LPCWSTR)
  • W2T(LPWSTR에서 LPTSTR)
  • W2CT(LPWSTR에서 LPCTSTR)
  • CT2W(LPCTSTR에서 LPWSTR)
  • CT2CW(LPCTSTR에서 LPCWSTR)
  • CW2T(LPCWSTR에서 LPTSTR)
  • CW2CT(LPCWSTR에서 LPCTSTR)

 

CHAR과 WCHAR간 변환하기 위한 함수는 다음과 같다.

  • A2W(LPSTR에서 LPWSTR)
  • A2CW(LPSTR에서 LPCWSTR)
  • W2A(LPWSTR에서 LPSTR)
  • W2CA(LPWSTR에서 LPCSTR)
  • CA2W(LPCSTR에서 LPWSTR)
  • CA2CW(LPCSTR에서 LPCWSTR)
  • CW2A(LPCWSTR에서 LPSTR)
  • CW2CA(LPCWSTR에서 LPCSTR)

 

3. CString


CString은 MFCMicrosoft Foundation Class에서 사용하는 문자열로서 Multibyte String 또는 Wide String 및 각종 문자열 함수를 래핑한 자료형이다. C++ 클래스로 작성되었으며 생성자를 통해 다양한 형식의 문자열을 받아 내부적으로 자동 변환하므로 사용이 편하다.

다음은 CHAR, WCHAR, TCHAR 문자열을 각각 CString으로 변환하는 예이다.

/* Example */
#include <afxwin.h>

/* ... */

TCHAR tcs[] = TEXT("피자");
WCHAR wcs[] = L"햄버거";
CHAR mbs[] = "스파게티";

CString cst1 = CString(tcs);
CString cst2 = CString(wcs);
CString cst3 = CString(mbs);

/* ... */

 

CString에서 포인터 문자열로의 변환은 GetBuffer 함수로 수행한다. 이 때 반환형이 TCHAR임에 주의하기 바라며, 사용 후에는 반드시 ReleaseBuffer를 호출한다.

/* Example */
#include <afxwin.h>

/* ... */	

CString cst = CString(TEXT("안녕하세요."));
LPTSTR tcs = NULL;

tcs = cst.GetBuffer();

// ... 포인터 문자열에 대한 작업

cst.ReleaseBuffer();

/* ... */

 

3. 마무리

여기까지 해서 Windows API 및 ATL 문자열에 대해 설명하였다. 다음 포스트에서는 COM 문자열에 대해 설명하겠다.

 

 

카테고리 “Microsoft Windows/Win32 문자열 처리”
more...
[Win32 문자열 종류와 상호 변환 방법] Part 1 - C/C++ 기본 문자열
Win32 C/C++ 문자열 종류와 상호 변환 방법 Win32 C/C++에는 문자열을 나타내는 자료형이 다양하다. 그리고 그 자료형마다 용도와 역할이 있기 때문에 어느 하나만을 선택해서 사용할 수는 없고, 적절한 형태로 변환하는 과정이 일반적으로 쓰인다. 본 시리즈에서는 Win32 C/C++에서 사용하는 문자열의 종류에 대해 설명하고 상호 변환 방법에 대해 설명하겠다. 1. char, char *, const char * C/C++은 기본적으로 ASCII 코드로 인코딩된 ANSI 문자열을 지원한다. 가장 기본적인 문자와 문자열의 형태이다. charchar는 ASCII로 인코딩된 문자 하나를 표현하는 자료형으로서 1바이트의 크기를 갖는다. char *char *는 ASCII 문자로 구성되며 항상 끝이 1바..
Microsoft Windows/Win32 문자열 처리
2019. 3. 11. 10:52

[Win32 문자열 종류와 상호 변환 방법] Part 1 - C/C++ 기본 문자열

Microsoft Windows/Win32 문자열 처리
2019. 3. 11. 10:52

Win32 C/C++ 문자열 종류와 상호 변환 방법


Win32 C/C++에는 문자열을 나타내는 자료형이 다양하다. 그리고 그 자료형마다 용도와 역할이 있기 때문에 어느 하나만을 선택해서 사용할 수는 없고, 적절한 형태로 변환하는 과정이 일반적으로 쓰인다. 본 시리즈에서는 Win32 C/C++에서 사용하는 문자열의 종류에 대해 설명하고 상호 변환 방법에 대해 설명하겠다.

 

1. char, char *, const char *


C/C++은 기본적으로 ASCII 코드로 인코딩된 ANSI 문자열을 지원한다. 가장 기본적인 문자와 문자열의 형태이다.

char
char는 ASCII로 인코딩된 문자 하나를 표현하는 자료형으로서 1바이트의 크기를 갖는다.
char *
char *는 ASCII 문자로 구성되며 항상 끝이 1바이트의 NULL 문자로 끝나는 문자열을 나타내는 자료형이다.
const char *
const char *는 ASCII 문자로 구성되며 항상 끝이 1바이트의 NULL 문자로 끝나는 문자열 상수를 나타내는 자료형이다.

 

문자열과 문자열 상수에 대해 좀 더 설명하자면, 둘 다 끝이 NULL 문자로 끝나야 하는 특징이 있지만 문자열은 중간의 일부 문자를 변경할 수 있고 문자열 상수는 변경이 불가하다. 또한 문자열은 주로 버퍼에 복사된 문자열을 뜻하고, 문자열 상수는 주로 소스 코드를 작성할 때 처음부터 정해진 문자열을 뜻한다. 소스 코드에서부터 정해진 문자열은 실행파일 내에 내장되고, 프로그램이 적재될 때 함께 메모리에 로드되며 이는 프로그램이 진행되는 내내 변경될 수 없다.

 

1-1. Multibyte ANSI String


영어권 이외의 국가에서는 자국의 문자를 표현하기 위해 확장 ASCII 영역을 새롭게 정의해서 사용한다. 그러나 이것으로도 글자를 표현하기에 부족한 경우(예: 완성형 한글 및 한자)에는 확장 ASCII 문자 2개를 묶어서 자국의 문자를 할당하기도 하였다. 여기에서 영문자는 1바이트, 한글/한자는 2바이트 크기라는 규칙이 생겼다. 이러한 인코딩으로 된 문자열을 부르는 명칭에는 여러가지가 있겠으나 여기에서는 Multibyte ANSI String이라 하겠다.

Multibyte ANSI String도 컴퓨터의 입장에서는 ASCII 코드이므로 char *, const char * 형으로 표현가능하다. 단 자국 문자는 기본 2바이트이기 때문에 1 문자를 char 단독으로 저장할 수 없다. 예를 들어,

char a = 'A'; // 가능하다.
char b = '가'; // 불가능하다.

 

2. wchar_t, wchar_t *, const wchar_t *


영어권 이외의 국가를 고려하여 모든 문자가 n바이트의 크기를 갖는 Widechar 문자열을 지원하는 형식이다. Multibyte가 문자의 종류마다 1 문자당 크기(바이트)가 달라졌다면, Widechar는 모든 문자가 1 바이트 이상의 동일한 크기를 갖는 차이가 있다. 일반적으로 Windows 운영체제에서는 wchar_t의 크기가 2 바이트이며 UCS-2로 인코딩된다. Linux 운영체제에서는 wchar_t의 크기가 4 바이트이며 UCS-4로 인코딩되지만 컴파일러 설정에 따라 Windows 방식과 동일하게 변경 가능하다. (그러나 wchar_t를 쓸 경우 반드시 유니코드로 처리된다는 규칙은 없으므로 코딩에 참고하기 바란다.)

wchar_t
wchar_t는 Widechar로 표현된 1개 문자이다.
wchar_t *
wchar _t *는 Widechar로 표현된 문자열이며 1바이트 이상의 크기를 갖는 NULL 문자로 끝난다.
const wchar_t *
const wchar_t *wchar_t *와 동일하지만 상수 특성을 갖는다.

 

2-1. 문자열 리터럴 접두어


문자열 상수를 유니코드 문자열로 정의하기 위해서는 문자열 앞에 접두어를 붙이면 된다. C++11에서 정의된 문자열 리터럴literal 접두어의 종류로는 아무것도 안 붙임, L, u8, u, U의 5가지가 있다.

"문자열"
표준 ASCII 문자 및 Multibyte 문자로 구성된 ANSI 문자열이다.
L"문자열"
Widechar 문자로 구성된 문자열이다. 일반적으로 유니코드로 인코드된다.

 

이외의 문자열에 대해서는 다음 문단에서 이어진다.

 

3. 유니코드 문자로서의 char, char16_t, char32_t


char는 경우에 따라 ASCII 문자를 나타낼 때도 쓰이지만 유니코드(UTF-8) 문자를 나타낼 때도 쓰인다. 이는 일반적인 로마자에 대하여 ASCII와 Unicode가 호환되기 때문이다. 물론 로마자 이외의 문자는 유니코드로 표현된 char라고 해도 문자의 종류에 따라 Multibyte처럼 여러 바이트에 걸쳐져서 표현된다.

char16_tchar32_t는 C++11부터 도입된 자료형으로 uchar.h 또는 cuchar에 정의되어 있습니다. 각각 UTF-16과 UTF-32로 인코드된 문자 및 문자열을 표현할 때 사용된다.

 

2-1. 유니코드 문자열 리터럴의 접두어


문자열 상수를 유니코드 문자열로 인코드 하고자 할 때는 u8, u, U의 세가지 중 하나를 사용한다.

u8"문자열"
문자열 상수를 UTF-8로 저장한다. 이 때는 char 자료형으로 문자와 문자열을 표현한다.
u"문자열"
문자열 상수를 UTF-16으로 저장한다. 이 때는 char16_t 자료형으로 문자와 문자열을 표현한다.
U"문자열"
문자열 상수를 UTF-32로 저장한다. 이 때는 char32_t 자료형으로 문자와 문자열을 표현한다.

 

4. Multibyte - Widechar간 상호 변환


지금까지는 C/C++ 표준에 정의된 자료형에 대한 설명이었다. 위 세 종류의 자료형으로된 문자열 및 문자열 상수를 상호변환해 보겠다.

Multibyte(ANSI 문자의 char 형)와 Widechar(wchar_t 형)의 상호 변환은 wctomb, mbtowc, wcstombs 또는 mbstowcs를 사용한다. 전자는 1개 문자를 변환하고 후자는 문자열을 변환하며 stdlib.h 또는 cstdlib 헤더파일에 정의되어 있다.

int mbtowc (wchar_t * pwc, const char * pmb, size_t max); // Multibyte에서 Widechar로 1개 문자를 변환
size_t mbstowcs (wchar_t * dest, const char * src, size_t max); // Multibyte에서 Widechar로 문자열을 변환
int wctomb(char * pmb, wchar_t wc); // Multibyte에서 Widechar로 1개 문자를 변환
size_t wcstombs(char * dest, const wchar_t * src, size_t max); // Multibyte에서 Widechar로 문자열을 변환

 

4-1. Wide Character에서 Multibyte Character로 변환


다음은 1개의 문자를 Widechar에서 Multibyte로 변환하는 예이다.

/* C++ Source */
#include <cstdlib>
#include <cassert>
#include <clocale>

using namespace std;

/* ... */

wchar_t wc = L'가'; // 변환할 1개의 Wide Character
char mbc[8] = { 0, }; // 인코딩을 고려할 때 1개의 Wide Character에 대한 충분한 Multi Byte 공간을 제공합니다. 대체로 1개 문자당 8 바이트를 부여하면 충분하다.
int mbn = 0; // 해당 문자가 Multibyte Character로 변환시 실제로 몇 바이트를 차지하는지 확인한다.

setlocale(LC_ALL, ""); // 변환에 앞서 프로그램의 로케일을 시스템에서 기본으로 설정한 로케일로 리셋한다.

/* 1개의 Wide Character를 Multibyte Character로 변환한다. */
/* 이 때 변환된 Multibyte Character의 바이트 수를 반환받는다. */
/* 지정한 Wide Character가 현재의 로케일에서 표현할 수 없는 문자일 때, -1이 반환된다. */
assert((mbn = wctomb(mbc, wc)) != -1);

printf("Wide Character = %lc [%d byte(s)]\n", wc, sizeof(wc));
printf("Multibyte Character = %s [%d byte(s)]\n", mbc, mbn);

/* ... */

 

4-2. Wide String에서 Multibyte String으로 변환


다음은 Wide 문자열(wchar_t *)에서 Multibyte 문자열(char */ANSI)로 변환하는 예이다.

/* C++ Source */
#include <cstdio>
#include <cstdlib>
#include <cassert>
#include <clocale>

using namespace std;

/* ... */

wchar_t wcs[] = L"안녕하세요."; // 변환할 Wide String
char mbs[112] = { 0, }; // 인코딩을 고려할 때 1개의 Wide Character에 대한 충분한 Multi Byte 공간을 제공합니다. 대체로 1개 문자당 8 바이트를 부여하면 남아돕니다.
int mbn = 0; // 해당 문자가 Multibyte Character로 변환시 실제로 몇 바이트를 차지하는지 확인합니다.

setlocale(LC_ALL, ""); // 변환에 앞서 프로그램의 로케일을 시스템에서 기본으로 설정한 로케일로 리셋합니다.

/* Wide String을 Multibyte String으로 변환한다. */
/* 이 때 변환된 Multibyte String의 바이트 수를 반환받는다. */
/* 지정한 Wide Character가 현재의 로케일에서 표현할 수 없는 문자일 때, ((size_t)(-1))이 반환된다. */
/* ((size_t)(-1))은 컴파일러에 따라 0xFFFF, 0xFFFFFFFF, 0xFFFFFFFFFFFFFFFF 중 하나를 말한다. */
assert((mbn = wcstombs(mbs, wcs, sizeof(mbs))) != ((size_t)(-1)));

printf("Wide String = %ls [%d byte(s)]\n", wcs, sizeof(wcs));
printf("Multibyte Character = %s [%d byte(s)]\n", mbs, mbn);

/* ... */

 

4-3. Multibyte Character에서 Wide Character으로 변환


다음은 Multibyte Character를 Wide Character로 변환하는 예이다.

/* C++ Source */
#include <cstdio>
#include <cstdlib>
#include <cassert>
#include <clocale>

using namespace std;

/* ... */

char mbc[] = "가"; // 1개의 문자를 n바이트에 저장
size_t mbn = sizeof(mbc) - 1; // 끝의 NULL을 제외한 순수 1글자의 크기(바이트)
wchar_t wc[4] = { L'\0', }; // 1개의 문자를 1개의 Widechar에 저장, Surrogate로 변환될 것을 가정하여 1문자당 최대 4개의 wchar_t를 확보해 놓으면 넉넉하다.

setlocale(LC_ALL, ""); // 변환에 앞서 프로그램의 로케일을 시스템에서 기본으로 설정한 로케일로 리셋한다.

/* Multibyte Character를 Wide Character로 변환한다. */
/* 이 로케일에서 정의하는 문자가 Wide Character로 표현될 수 없을 경우 -1을 반환한다. */
assert(mbtowc(wc, mbc, mbn) != -1); 

printf("Multibyte Character = %s [%d byte(s)]\n", mbc, mbn);
printf("Wide Character = %ls [%d byte(s)]\n", wc, sizeof(wc));

/* ... */

 

4-4. Multibyte String에서 Wide String으로 변환


다음은 Multibyte 문자열을 Widechar 문자열로 변환하는 예이다.

/* C++ Source */
#include <cstdio>
#include <cstdlib>
#include <cassert>
#include <clocale>

/* ... */

char mbs[] = "안녕하세요."; // 변환할 Multibyte String
wchar_t wcs[28] = { L'\0', }; // 인코딩을 고려할 때 1개의 Multibyte Character에 대한 충분한 Wide String 공간을 제공한다. Surrogate로 변환될 것을 가정하여 1개 문자당 최대 4개의 wchar_t를 확보해 놓으면 넉넉하다. 
size_t wcn = 0; // 실제로 변환되어 생성된 문자 수를 받아온다.

setlocale(LC_ALL, ""); // 변환에 앞서 프로그램의 로케일을 시스템에서 기본으로 설정한 로케일로 리셋한다.

/* Multibyte String를 Wide String으로 변환한다. */
/* 이 로케일에서 정의하는 문자가 Wide String으로 표현될 수 없을 경우 -1을 반환한다. */	
assert((wcn = mbstowcs(wcs, mbs, sizeof(wcs) / sizeof(wchar_t))) != ((size_t)(-1)));

/* ... */

 

4-5. (덧) Multibyte String과 Wide String의 문자 개수 세는 방법


strlen 함수는 문자열을 구성하는 모든 문자가 표준 ASCII 코드로 표현된 ANSI 문자일 경우에 유효하다. 그러나 KS 완성형 코드나 JIS 코드 등 특정 인코딩을 사용하는 시스템일 경우 strlen 함수가 반환하는 문자의 수가 실제와 다르다. Multibyte String일 때 사용하는 함수는 mblen이다.

int mblen (const char* pmb, size_t max);
pmb
문자의 개수를 구하고자 하는 Multibyte String이다.
max
pmb 버퍼의 최대 크기이다.

 

Wide String의 문자수를 세는 함수는 wcslen이다. 사용법은 strlen과 같다.

 

5. Wide Character - Unicode간 상호 변환


Wide Character/String과 Unicode간 변환을 지원하는 표준 함수는 이 포스트가 작성된 현재 없다. 이 경우 다음에 설명되는 Windows API를 사용한다.

 

6. Multibyte Character - Unicode간 상호 변환


Multibyte Character와 UTF-16/UTF-32간 변환은 표준 함수로 제공된다. 그 외 UTF-7/UTF-8은 이 포스트가 작성된 현재 표준에 없다. 이 경우 다음에 설명되는 Windows API를 사용한다.

 

6-1. Multibyte Character에서 UTF-16으로 변환


Multibyte Character에서 UTF-16 Character로 변환하기 위해서는 mbrtoc16 함수를 사용합니다.

/* C++ Source */
#include <cstdio>
#include <cstdlib>
#include <cassert>
#include <clocale>
#include <cuchar>

using namespace std;

/* ... */

char mbc[8] = "가";
char16_t uc[8] = { '\0', };
mbstate_t mbstate = { 0 };

setlocale(LC_ALL, "");
assert((mbn = mbrtoc16(uc, mbc, sizeof(mbc), &mbstate)) != (size_t)(-1));

/* ... */

 

6-2. UTF-16에서 Multibyte Character으로 변환


UTF-16 Character에서 Multibyte Character로 변환하기 위해서는 c16rtomb 함수를 사용한다.

/* C++ Source */
#include <cstdio>
#include <cstdlib>
#include <cassert>
#include <clocale>
#include <cuchar>

using namespace std;

/* ... */

char16_t uc = u'가';
char mbc[8] = { '\0', };
size_t mbn = 0;
mbstate_t mbstate = { 0 };

setlocale(LC_ALL, "");

assert((mbn = c16rtomb(mbc, uc, &mbstate)) != (size_t)(-1));

/* ... */

 

6-3. Multibyte Character에서 UTF-32으로 변환


Multibyte Character에서 UTF-32 Character로 변환하기 위해서는 mbrtoc32 함수를 사용한다.

/* C++ Source */
#include <cstdio>
#include <cstdlib>
#include <cassert>
#include <clocale>
#include <cuchar>

using namespace std;

/* ... */

char mbc[8] = "가";
char32_t uc[8] = { U'\0', };
mbstate_t mbstate = { 0 };

setlocale(LC_ALL, "");
assert((mbn = mbrtoc32(uc, mbc, sizeof(mbc), &mbstate)) != (size_t)(-1));

/* ... */

 

6-4. UTF-32에서 Multibyte Character으로 변환

UTF-32 Character에서 Multibyte Character로 변환하기 위해서는 c32rtomb 함수를 사용한다.

/* C++ Source */
#include <cstdio>
#include <cstdlib>
#include <cassert>
#include <clocale>
#include <cuchar>

using namespace std;

/* ... */

char32_t uc = U'가';
char mbc[8] = { '\0', };
size_t mbn = 0;
mbstate_t mbstate = { 0 };

setlocale(LC_ALL, "");

assert((mbn = c32rtomb(mbc, uc, &mbstate)) != (size_t)(-1));

/* ... */

 

7. 마무리

여기까지 해서 Win32 C/C++ 문자열 중 C/C++ 표준 문자열 타입에 대해 알아보았다. 다음 포스트에서는 Windows API에서 정의된 기본 문자열 타입에 대해 알아보겠다.

 

 

카테고리 “Microsoft Windows/Win32 문자열 처리”
more...

“Microsoft Windows/Win32 문자열 처리” (3건)