1. excel 파일로 되어있던것을 tab으로 구분지어서 변경하기

  2. 탭으로 구분된 파일의 형태의 인코딩변경하기

    $iconv -f cp949 -t utf-8 korean_dic.txt > korean_utf_dic.txt

    참고 : iconv -l 을 사용하면 인코딩에 지원하는 모든 언어를 볼수 있다.
    한글 파일들으 대부분 ECU_KR 또는 cp949 인것같지만, 인코딩이 어떤것으로 되어있는지 알수 있는 방법이 있을까???

  3. awk를 사용해서 필요한 데이터 파일 만들기

    $awk -F '\t' '{print $1"\t"$3"\t"$11"\t"$16"\t"$18}' korean_utf_dic.txt

천천히 다시 해보자

1번까지를 진행하고 난후 \t를 | 로 변경하게 되면 아래와 같다.

어휘|구성 단위|고유어 여부|원어|어원|주표제어|부표제어|발음|활용|검색용 이형태|품사|공통 문형|의미 문형|공통 문법|의미 문법|뜻풀이|용례|범주|전문 분
야|속담|관용구|대역어|생물 분류군 정보|멀티미디어|관련 어휘^M
가(01)|단어|고유어||<_<_<용가>|||[가ː]|||"「명사」
"||"「1」
「2」
「3」
「4」
"||"「1」
「2」
「3」
「4」((일부 명사 뒤에 붙어))
"|"「1」경계에 가까운 바깥쪽 부분.
「2」어떤 중심 되는 곳에서 가까운 부분.
「3」그릇 따위의 아가리의 주변.
「4」‘주변’의 뜻을 나타내는 말.
"|"「3」참기름을 따를 때 가에 흘리지 않도록 조심해라.
「4」강가.
「4」냇가.
「4」우물가.
"|"「1」일반어
「2」일반어
「3」일반어
「4」일반어
"|||||||^M
가(02)|단어|고유어|||||[가]|||"「명사」

그래서 탭을 |로 변경

:%s /\t/|/g

\n을 없애고 ^M 이라는 구부자를 \n으로 변경해주면되는데 ..음 ...

우선 \n을 없앤다.

휘|구성 단위|고유어 여부|원어|어원|주표제어|부표제어|발음|활용|검색용 이형태|품사|공통 문형|의미 문형|공통 문법|의미 문법|뜻풀이|용례|범주|전문 분
야|속담|관용구|대역어|생물 분류군 정보|멀티미디어|관련 어휘^M가(01)|단어|고유어||<_<_<용가>|||[가ː]|||"「명사」"||"「1」「2」「3」「4」"||"「1」
「2」「3」「4」((일부 명사 뒤에 붙어))"|"「1」경계에 가까운 바깥쪽 부분.「2」어떤 중심 되는 곳에서 가까운 부분.「3」그릇 따위의 아가리의 주변.「4」‘주변’의 뜻을 나타내는 말."|"「3」참기름을 따를 때 가에 흘리지 않도록 조심해라.「4」강가.「4」냇가.「4」우물가."|"「1」일반어「2」일반어「3」일반어「
4」일반어"|||||||^M가(02)|단어|고유어|||||[가]|||"「명사」"||""||""|"서양 음악의 칠음 체계에서, 여섯 번째 음이름. 계이름 ‘라’와 같다."|""|"일반어"|"『음악』"||||||"의미동의어(2) :  아08(A),  에이05(A / a)"^M가(03)|단어|한자어|加|||가-하다||||"「품사 없음」"||""||""|"‘가하다01’의 어근."||"일반어"|||||||^M가(04)|단어|한자어|加||||[가]|||"「명사」"||""||""|"부여와 고구려에서, 족장이나 고관을 이르던 말. 본디 씨족이나 부족의 우두머리를 뜻하는 말
이었으나 국가의 발달과 함께 직명(職名)이 된 것으로, 부여의 마가ㆍ우가ㆍ구가ㆍ저가, 고구려의 대가ㆍ상가 따위가 있다."||"일반어"|"『역사』"||||||^M가(05)|단어|한자어|可|||가-하다|[가ː]|||"「명사」"||"「1」「2」「3」「4」"||"「1」「2」「3」「4」"|"「1」옳거나 좋음.「2」회의 따위에서, 어떤 안건에 대
하여 표결을 할 때 찬성하는 의사 표시.「3」성적이나 등급을 ‘수, 우, 미, 양, 가’의 다섯 단계로 나눌 때 가장 낮은 단계.「4」어떤 행위가 허용되거나 가능
함 또는 좋음을 이르는 말."|"「1」이 사람 말도 가요, 저 사람 말도 가요 하면 도대체 어떤 사람 말을 따라야 합니까?「2」의원 여러분께서는 본 안건에 대해
 가인지 부인지를 결정해 주시기 바랍니다.「3」다른 과목들은 성적이 괜찮은 편인데, 체육만 가를 받았다.「4」연소자 관람 가.「4」분할 상환 가."|"「1」일
반어「2」일반어「3」일반어「4」일반어"|"「3」『교육』"||||||"의미반대말(2) : 「2」 부07「2」(否), 「4」 불가01「2」(不可)"^M가(06)|단어|한자어|枷||||[가]|||"「명사」"||""||""|"죄인에게 씌우던 형틀. 두껍고 긴 널빤지의 한끝에 구멍을 뚫어 죄인의 목을 끼우고 비녀장을 질렀다."||"일반어"|"『역사』"||||||"의미동의어(1) :  칼02"^M가(07)|단어|한자어|家||||[가]|||"「명사」"||""||""|"예전에, 같은 호적에 들어 있는 친족 집단을 이르던 말."|"성구는 그 대>목에서 묘하게 처절해지는 버릇이 있었다. 외할머니 교하댁의 집에 대한 소문난 집착을 가를 잇고자 하는 맹목적 집념과 동일시하려는 그 나름의 시각 때문이>었다."|"일반어"|"『사회 일반』"||||||^M

없애면 ^M만 이제 새로운 라인으로 변경해주면된다.

:%s/<Ctrl-V><Ctrl-M>/\r/g

을 사용해서 ^M을 변경해주었다

\n으로 행을 변경하는줄알았는데, \r 이 줄을 변경해주는것이다.

결과는 다음과 같다.

1 어휘|구성 단위|고유어 여부|원어|어원|주표제어|부표제어|발음|활용|검색용 이형태|품사|공통 문형|의미 문형|공통 문법|의미 문법|뜻풀이|용례|범주 >
      전문 분야|속담|관용구|대역어|생물 분류군 정보|멀티미디어|관련 어휘
    2 가(01)|단어|고유어||<_<_<용가>|||[가ː]|||"「명사」"||"「1」「2」「3」「4」"||"「1」「2」「3」「4」((일부 명사 뒤에 붙어))"|"「1」경계에 가      까운 바깥쪽 부분.「2」어떤 중심 되는 곳에서 가까운 부분.「3」그릇 따위의 아가리의 주변.「4」‘주변’의 뜻을 나타내는 말."|"「3」참기름을 따를 때       가에 흘리지 않도록 조심해라.「4」강가.「4」냇가.「4」우물가."|"「1」일반어「2」일반어「3」일반어「4」일반어"|||||||
    3 가(02)|단어|고유어|||||[가]|||"「명사」"||""||""|"서양 음악의 칠음 체계에서, 여섯 번째 음이름. 계이름 ‘라’와 같다."|""|"일반어"|"『음악』"||||      ||"의미동의어(2) :  아08(A),  에이05(A / a)"
    4 가(03)|단어|한자어|加|||가-하다||||"「품사 없음」"||""||""|"‘가하다01’의 어근."||"일반어"|||||||
    5 가(04)|단어|한자어|加||||[가]|||"「명사」"||""||""|"부여와 고구려에서, 족장이나 고관을 이르던 말. 본디 씨족이나 부족의 우두머리를 뜻하는 말이>      었으나 국가의 발달과 함께 직명(職名)이 된 것으로, 부여의 마가ㆍ우가ㆍ구가ㆍ저가, 고구려의 대가ㆍ상가 따위가 있다."||"일반어"|"『역사』"||||||
    6 가(05)|단어|한자어|可|||가-하다|[가ː]|||"「명사」"||"「1」「2」「3」「4」"||"「1」「2」「3」「4」"|"「1」옳거나 좋음.「2」회의 따위에서, 어떤        안건에 대하여 표결을 할 때 찬성하는 의사 표시.「3」성적이나 등급을 ‘수, 우, 미, 양, 가’의 다섯 단계로 나눌 때 가장 낮은 단계.「4」어떤 행위가       허용되거나 가능함 또는 좋음을 이르는 말."|"「1」이 사람 말도 가요, 저 사람 말도 가요 하면 도대체 어떤 사람 말을 따라야 합니까?「2」의원 여러분      께서는 본 안건에 대해 가인지 부인지를 결정해 주시기 바랍니다.「3」다른 과목들은 성적이 괜찮은 편인데, 체육만 가를 받았다.「4」연소자 관람 가.>      「4」분할 상환 가."|"「1」일반어「2」일반어「3」일반어「4」일반어"|"「3」『교육』"||||||"의미반대말(2) : 「2」 부07「2」(否), 「4」 불가01「2>
      」(不可)"

이제 구분자 | 를 사용하여 필요한 정보만 가지고 와보자

$ awk -F '|' '{print $1"|"$3"|"$11"|"$16"|"$18}' korean4.txt > filter_korean5.txt

마지막 전처리한 결과는 다음과 같다.

1 어휘|고유어 여부|품사|뜻풀이|범주
    2 가(01)|고유어|"「명사」"|"「1」경계에 가까운 바깥쪽 부분.「2」어떤 중심 되는 곳에서 가까운 부분.「3」그릇 따위의 아가리의 주변.「4」‘주변’의 >
      뜻을 나타내는 말."|"「1」일반어「2」일반어「3」일반어「4」일반어"
    3 가(02)|고유어|"「명사」"|"서양 음악의 칠음 체계에서, 여섯 번째 음이름. 계이름 ‘라’와 같다."|"일반어"
    4 가(03)|한자어|"「품사 없음」"|"‘가하다01’의 어근."|"일반어"
    5 가(04)|한자어|"「명사」"|"부여와 고구려에서, 족장이나 고관을 이르던 말. 본디 씨족이나 부족의 우두머리를 뜻하는 말이었으나 국가의 발달과 함께 >
      직명(職名)이 된 것으로, 부여의 마가ㆍ우가ㆍ구가ㆍ저가, 고구려의 대가ㆍ상가 따위가 있다."|"일반어"
    6 가(05)|한자어|"「명사」"|"「1」옳거나 좋음.「2」회의 따위에서, 어떤 안건에 대하여 표결을 할 때 찬성하는 의사 표시.「3」성적이나 등급을 ‘수, 우      , 미, 양, 가’의 다섯 단계로 나눌 때 가장 낮은 단계.「4」어떤 행위가 허용되거나 가능함 또는 좋음을 이르는 말."|"「1」일반어「2」일반어「3」일반      어「4」일반어"
    7 가(06)|한자어|"「명사」"|"죄인에게 씌우던 형틀. 두껍고 긴 널빤지의 한끝에 구멍을 뚫어 죄인의 목을 끼우고 비녀장을 질렀다."|"일반어"
    8 가(07)|한자어|"「명사」"|"예전에, 같은 호적에 들어 있는 친족 집단을 이르던 말."|"일반어"

+ Recent posts