언어학 46

세종코퍼스 연어(collocation) 분석하기 - '곧이곧대로'

'곧이곧대로'의 연어(collocation)에 대해 대략 아래와 같은 예상을 했었다. (결과의 윤곽을 보고서 약간 입맛에 좋게 수정했지만 골자는 비슷하다)- 문장에 '곧이곧대로'가 쓰였을 때, 그 뒤에 '믿다'가 출현하는 빈도는 우연에 의한 것보다 유의미하게 높을 것이다. - 문장에 '곧이곧대로'가 쓰였을 때, 그 뒤에 부정의 의미가 나타나는 빈도는 우연에 의한 것보다 유의미하게 높을 것이다. 총 9,942,848어절의 세종코퍼스 현대문어 데이터를 통해 확인한 결과,일단은 이 생각이 대강 맞는 것 같다.아직 통계분석을 해 보지는 못했으나,당장 내가 할 수 있는 범위 안에서는 잠정적으로 확인을 했다. 결과는 대략 아래 표와 같다.  '곧이곧대로'의 출현 빈도30 (/ 9,942,848)'곧이곧대로 믿(다)..

언어학 2022.07.30

세종코퍼스에서 특정 단어를 포함하는 문장 추출하기 - 연어 분석 (4)

'곧이곧대로'를 포함하는 문장을 세종코퍼스 txt 파일에서 추출하는 코드를 짜 보았다.1편에서 구상했던 두 가지 기능 중 두 번째이다. 코드는 밑에 첨부한다.​코딩이 제대로 된 거라면,내가 가진 9,966,708어절의 코퍼스 안에서'곧이곧대로'는 오로지 31번밖에 출현하지 않는다.​'곧이 곧대로'를 포함하지 않은 결과이긴 하다.포함해서 세는 게 맞겠지만, 그래 봤자일지도​결과물은 이런 모습이다. 9백만 어절 중에 31례밖에 없으니 당연한 거겠지만 '곧이곧대로'가 아예 없는 txt 파일이 '곧이곧대로'를 하나라도 포함하는 파일보다 훨씬 많았다.​그 와중에 재미있게도, '곧이곧대로'가 2번 나타나는 파일이 2개 있었고,무려 3번이나 나타나는 파일도 한 개 있었다.작가나 장르나 내용 배경의 영향이 있지 않을까..

언어학 2022.07.30

세종코퍼스 txt 파일에서 어절 수 찾아내기

이렇게 생긴 세종코퍼스 txt 파일로부터 코퍼스의 어절 수를 추출해 내는 기능을 만들어 보려다가 헤맸었다. 약간의 혼란 끝에 드디어 어떻게든 성공했다. 생각해 보니까 그냥 txt 파일의 맨 밑 줄부터 탐색해서 여는꺾쇠(' 최종 코드는 이렇게 만들어졌다.잘하는 분들이 보기엔 엉망이겠지만 일단 돌아가니까 만족이다.1234567891011121314151617181920212223242526272829303132333435363738394041import reimport syssys.stdout = open('stdout.txt', 'w')def counter(x):    f = open(x, "r", encoding="utf-16-le")    data = f.readlines()    for i in ra..

언어학 2022.07.24

사용 기반 언어학 (Usage-Based Linguistics)

1. 서론2. 사용기반 언어학 관련 자료 소개3. 다른 반-촘스키 언어학과의 관계 (기능주의, 인지언어학)만약 글이 거칠어서 잘 읽히지 않거나 이해가 어려운 부분을 지적해 주시려거든 편하게 말씀해 주세요. 그리고 제 잘못으로 잘못된 정보가 실린 것에 대해 가르침을 주실 분 또한 거리낌 없이 지도해 주시기를 부탁 드립니다. 그 밖의 의견도, 제 기분은 개의치 마시고, 솔직하게 말씀해 주세요. 감사합니다. 1. 서론 Usage-Based Linguistics의 정의를 내가 이해하는 대로 내려 보자면: '화청자들의 언어 사용이 언어 체계에 지속적인 피드백~압력으로 늘상 작용하고 있다는 점을 중요하게 인식하는 언어학 사조'처럼 말할 수 있지 않을까 한다. (아마도 약간 순한맛 버전이다.)  이 사조에 속하는 ..

언어학 2022.06.28

수화는 만국공통어일까요? (1) - '엄마', '아빠'

농인들이 사용하는 수화가 나라마다 다르다는 것을 알고 계셨나요?통념과 달리 수화(수어, sign language)는 만국공통어가 아닙니다.  나라마다 많은 차이가 있습니다.  심지어 서로 같은 음성언어를 사용하는 나라들끼리 서로 다른 수화를 사용하기도 합니다. 영국, 미국, 호주, 뉴질랜드, 캐나다는 모두 영어를 사용하고 문화가 비슷한 나라들입니다. 하지만 수화에서는 서로 큰 차이가 있습니다. 영국-호주-뉴질랜드 수어는 서로 매우 비슷하지만, 미국수어는 그와 전혀 다르게 프랑스수어로부터 영향을 받은 별개 계통의 언어입니다. 음성언어가 같은 나라들끼리도 이런 상황이니,한국수어, 미국수어, 스페인수어 등은 말할 것도 없이 모두 각각의 어휘와 문법을 지니고 있는 별개의 언어입니다.    그러면 한국수어와 다른..

언어학 2022.06.20

의미를 비교하기 - 의미 지도와 개념 공간

(1)수분이 없는 상태, (2)살이 없음, (3)종이같음(?), (4)길이가 길고 둘레가 작음 (1)~(4)의 의미를 한 단어짜리 형용사(또는 동사)로 표현한다면 뭐라고 하시겠습니까? (한국어)제가 생각한 답은 이렇습니다. (1)과 (2): '마르다~말랐다'   /    (3)과 (4): '얇다~가늘다' ('얇다'와 '가늘다'의 의미를 구분하지 않는 사람이 늘어나고 있는 것 같습니다.)한국어에서는 이렇게 (1) 의미와 (2) 의미를 묶어서 하나의 단어로 표현하고, (3) 의미와 (4) 의미에 대해서는 각각 별도의 단어를 부여하고 있습니다. 물론 (1)에 대해서 '건조하다' 등 또 별도의 표현이 가능하지만, 여기서 중요한 것은 '마르다'의 의미 범위가 (1)에서 (2)에까지 미친다는 것입니다.(1)수분이 ..

언어학 2022.06.20