Dev Talk - 한글 조사 처리

글 수 429

한글 조사 처리

Hide_D

기본적으로 맨 마지막 글자를 보고
받침이 붙느냐 안붙느냐를 처리하게 되는데,

일단 쓰여있는 방법은

http://winp.egloos.com/1917711
http://ttongfly.net/zbxe/?document_srl=45333

걍 맨 뒷글자를 일일히 확인하는 방법이다.

그런데 뒤에 있는 문서의 글자 목록을 뺀어서 다음과 같은 코드로 확인해보았더니..

#include <stdio.h>
#include <tchar.h>
#include <vector>
#include <algorithm>

using namespace std;

int wmain()
{
    FILE * fp=_wfopen(L"Table.txt",L"wt,ccs=UTF-16LE");
    wstring wstrList=L"가갸거겨고교구규그기개걔게계과괘궈궤괴귀긔까꺄꺼껴꼬꾜꾸뀨끄끼깨꺠께꼐꽈꽤꿔꿰꾀뀌끠나냐너녀노뇨누뉴느니내냬네녜놔놰눠눼뇌 뉘늬다댜더뎌도됴두듀드디대댸데뎨돠돼둬뒈되뒤듸따땨떠뗘또뚀뚜뜌뜨띠때떄떼뗴똬뙈뚸뛔뙤뛰띄라랴러려로료루류르리래럐레례롸뢔뤄뤠뢰뤼릐마먀머며모묘무 뮤므미매먜메몌뫄뫠뭐뭬뫼뮈믜바뱌버벼보뵤부뷰브비배뱨베볘봐봬붜붸뵈뷔븨빠뺘뻐뼈뽀뾰뿌쀼쁘삐빼뺴뻬뼤뽜뽸뿨쀄뾔쀠쁴사샤서셔소쇼수슈스시새섀세셰솨쇄 숴쉐쇠쉬싀싸쌰써쎠쏘쑈쑤쓔쓰씨쌔썌쎄쎼쏴쐐쒀쒜쐬쒸씌아야어여오요우유으이애얘에예와왜워웨외위의자쟈저져조죠주쥬즈지재쟤제졔좌좨줘줴죄쥐즤짜쨔쩌쪄 쪼쬬쭈쮸쯔찌째쨰쩨쪠쫘쫴쭤쮀쬐쮜쯰차챠처쳐초쵸추츄츠치채챼체쳬촤쵀춰췌최취츼카캬커켜코쿄쿠큐크키캐컈케켸콰쾌쿼퀘쾨퀴킈타탸터텨토툐투튜트티태턔테 톄톼퇘퉈퉤퇴튀틔파퍄퍼펴포표푸퓨프피패퍠페폐퐈퐤풔풰푀퓌픠하햐허혀호효후휴흐히해햬헤혜화홰훠훼회휘희";
    sort(wstrList.begin(),wstrList.end());
    wchar_t wcBase=wstrList[0];
    wstring::iterator iterList=wstrList.begin();
    while(iterList!=wstrList.end())
    {
        fwprintf(fp,L"%c 0x%04X %5d %3d\n",*iterList,*iterList,*iterList,(*iterList)-wcBase);
        wcBase=*iterList;
        iterList++;
    }
    fclose(fp);
    return 0;
}

UTF16-LE에서는 저 글자들이 모두 28씩 차이가 난다는 것을 발견했다 -_-;;

그래서 2번째 페이지에 나온 구분 함수를 개량한 버전이...

bool Has3rdCh(wstring * pstrText)
{
    if(pstrText->length()==0)
        return false;

    bool bRet=false;
    wchar_t wcLast=*(pstrText->end()-1);
    wchar_t wszLast[2]={wcLast,L'\0'};
    if(wcLast<=0x0080)
    {
        if(wcLast>=L'A'&&wcLast<=L'Z')
            wcLast=wcLast-'A'+'a';
        switch(wcLast)
        {
        case L'm':
        case L'n':
        case L'l':
        case L'c':
        case L'M':
        case L'N':
        case L'L':
        case L'C':
        case L'1':
        case L'3':
        case L'6':
        case L'7':
        case L'8':
        case L'0':
            bRet=true;
            break;
        default:
            if(pstrText->length()>=2)
            {
                wchar_t wc2nd = *(pstrText->end()-2);
                if(wc2nd>0x80)
                    break;

                if(wc2nd>=L'A'&&wc2nd<=L'Z')
                    wc2nd=wcLast-'A'+'a';
                if(wc2nd==L'n'&&wcLast==L'g')
                    bRet=true;
                else if(wc2nd==L'c'&&wcLast==L'k')
                    bRet=true;
                else if(wc2nd==L'r'&&wcLast==L'g')
                    bRet=true;
                else if(wc2nd==L'l'&&wcLast==L'e')
                    bRet=true;
                else if(wc2nd==L'n'&&wcLast==L'e')
                    bRet=true;
            }
            break;
        }
    }
    else if(wcLast>=0xAC00&&wcLast<0xD7B0)
    {
        if((wcLast-0xAC00)%28!=0)
            bRet=true;
    }

    return bRet;
}

대강 요렇다
(wstring 클래스를 사용하니 #include <string> 필수)
영어도 약간 처리가 되는 정도인데,
뭐 이 이상을 쓸일 없을듯 하니 걍 놔둘 생각

이 게시물을

분류 :: Talk

조회 수 :: 13811
등록일 :: 2009.05.23; 20:06:21

엮인글 :: https://arallab.hided.net/24003/d8d/trackback

게시글 주소 :: https://arallab.hided.net/board_devtalk/24003

2009.07.08

22:03:48

아랄 프로젝트는 아니지만 도움이 될 것 같아서 관련 파일을 하나 올립니다.

이건 예전에 나니카.. 라는 데스크탑 액세서리용으로 만들어진 조사 처리 모듈입니다.
한글 조사체크 부분만 보면 되니까 내용 이해에 크게 문제될 것은 없을겁니다.

particlemakoto-2.3.zip

첨부 :: particlemakoto-2.3.zip [File Size:92.9KB/Download189]

List of Articles

번호	제목	글쓴이	조회 수	날짜	최근 수정일
공지	Talk [필독] 테스트필터 사용시 주의사항	라파에	180820	2008-08-03	2008-12-16 00:03
269	Talk 0.3에서 전국란스의 경우 [1]	Hide_D	16228	2009-12-13	2009-12-14 02:10
269	ats파일을 만들어서 동작할경우 문제가 산넘어 산입니다. 1. 주소 문제 2. Rance7으로 바꾸었을때 AppLocale의 미묘한 작동 ㄹㅋ
268	Talk INNODB 테스트	Hide_D	17123	2009-12-09	2009-12-09 17:01
268	속도 향상을 위해 INNODB로 바꿔봅니다. 테스트 개시
267	Talk Windows7에서 0.3 현재시점으로 안돌아갑니다.ㅜ [6]	Hide_D	15708	2009-12-04	2009-12-09 23:27
267	이유가 뭘까요
266	Talk 고칠거? [10]	Hide_D	14697	2009-11-28	2009-12-17 18:13
266	아랄 처음 켰을때 프로세스 먼져 보이는거 아랄만 아랄로 프로세스에 안뜬다는거. by 피시 제 덧[..] 이지트랜스 경로 지정하면 앞으론 고정해봅시다 ㅇㅇ
265	Talk 튕기는 문제에 대해서 [6]	Hide_D	14295	2009-11-26	2009-12-15 02:55
265	뭐 다들 아시다시피(?) 대부분의 문제는 보안툴이나 백신에 대해선 충돌하기 때문인데, 여태까지는 소극적으로 대응해왔는데 이젠 좀 적극적으로 뭐가 문제인지를 찾아봐야겠습니다. 해서 다음을 조사해서 보고서를 작성하는 프로그램을 만들어볼 예정입니다~ ...
264	Talk [질문] Http POST전송에 대한 이것저것 [3]	호기	25809	2009-09-22	2009-09-23 08:00
264	에고 Hide_D님과 HaruKaze님덕에 어찌어찌 POST전송을 할수 있게 되었네요 . 다시한번 두분께 너무 감사드리고요.. 전송해서 결과는 받는것은 되지만... 내용에 궁금한것이 두가지 있어서요 이렇게 다시 질문 올립니다. 우선 POST로 Header를 전송할때 말이에...
263	OtherFiles 0.3 설정 xml 파일 예제 [4]	아랄	16102	2009-09-20	2009-09-21 00:12
263
262	OtherFiles [소스, 실행파일]MeCab을 독음 변환기로 사용한 예제	Hide_D	24874	2009-09-09	2011-06-28 01:25
262
261	Archive ATPluginFrame 프레임워크 20090901 테스트 버전..	whoami	13883	2009-09-01	2009-09-01 22:49
261
260	Talk QuickTrans2 자료 백업	Hide_D	14300	2009-08-26	2009-08-26 02:53
260
259	Talk [소스] ConsoleTrans + 질문 [1]	Hide_D	14087	2009-08-11	2009-08-12 23:34
259
258	Archive [플러그인,소스] KiriKiri 테스트 버전 20090729 [11]	whoami	22348	2009-07-29	2009-09-13 14:57
258
257	Talk FixLine v2 길이제한 '원문 길이' 버그	Hide_D	13871	2009-07-27	2009-07-27 23:05
257	긴경우는 잘 동작합니다만, 원문 보다 짧은경우에는 그냥 짧은 상태로 유지가 되어서 덮어쓰기 사용시 몇가지 문제가 발생했습니다. 이건은 조만간 빈칸을 채우던가 해서 해결해야겠습니다. + 이 기능은 CmdFilter의 '원문 덮어쓰기'와 같은 기능입니다.
256	Archive [플러그인, 소스] KiriKiri 테스트 버전 20090726 [10]	whoami	25636	2009-07-26	2009-07-28 23:52
256
255	Archive [플러그인, 소스] KiriKiri 테스트 버전 20090723 [1]	whoami	18843	2009-07-23	2009-07-23 23:38
255
254	Archive [플러그인, 소스] NonCached 테스트 버전 20090717 [1]	whoami	22353	2009-07-17	2009-07-23 23:37
254
253	Talk 정식 아랄 플러그인으로 요청하시고 싶다면	Hide_D	15263	2009-07-10	2009-07-10 18:29
253	원칙적으로는 관리자님께 요청하는 것이 맞지만 관리자님은 유니크 몹이시기 때문에[...] 절 부르시면 소환해 드립니다. 원클릭 서비스도 가능할지도[..]
252	Archive [플러그인, 소스] NonCached 테스트 버전 20090709 [3]	whoami	29004	2009-07-09	2009-07-11 01:51
252
251	Archive KDC(Korean Duplication Checker) 090702 테스트버전 [2]	Hide_D	18019	2009-07-07	2009-07-08 02:43
251
»	Talk 한글 조사 처리 [1]	Hide_D	13811	2009-05-23	2009-07-08 22:03
»	기본적으로 맨 마지막 글자를 보고 받침이 붙느냐 안붙느냐를 처리하게 되는데, 일단 쓰여있는 방법은 http://winp.egloos.com/1917711 http://ttongfly.net/zbxe/?document_srl=45333 걍 맨 뒷글자를 일일히 확인하는 방법이다. 그런데 뒤에 있는 문서의 글자...

쓰기

첫 페이지 4 5 6 7 8 9 10 11 12 13 끝 페이지

한글 조사 처리

whoami

검색

로그인