NotebookLM으로 내 글 팟캐스트 만들기 (동음이의어는 왜 사라지지 않을까?) ...+ 한글날이면 언어덕후는 속이 터진다
갑자기 왜 이런 일을 했는고 하니,
발단은 이렇다.
독일의 언어학자 Martin Haspelmath가 페이스북에 재미있는 글을 하나 올렸다.
요약하자면,
굴절과 파생에 대한 자기 논문을 Google NotebookLM에 넣어서 팟캐스트로 만들었다는 내용이다.
(직접 해 보니, 하스펠마트가 말하듯 전혀 어렵지 않다.)
사진 밑에 달아 둔 링크에 들어가서 하스펠마트가 올린 dropbox 링크를 눌러 보면 실제로 들어 볼 수 있다.
일단은 실제 팟캐스트처럼 들리는 퀄리티에 놀랐고,
한 쌍의 남녀가 정말 팟캐스트 진행자같은 말투로, 사뭇 진지한 태도로
언어덕후나 이야기할 것 같은 주제를 열심히 다루는 걸 보니 웃음이 나왔다.
"굴절과 파생은 실제로는 둘로 딱 나뉘는 이분법적인 개념이 아니라 경계가 모호한 개념이라는 거군요!"
막 이런...
대부분의 사람들은 들어 보지도 못 했을 만한 언어 이름이 막 등장하는 것도 재미있었다.
듣다 보니 문득,
만약 내 블로그 글을 넣으면 어떻게 될까 하는 궁금증이 생겼다.
그래서 적당히 결과가 잘 나올 것 같은 걸로 골라서
주어-동사 일치에 관한 글을 각각 넣어 봤더니
각각 11분, 8분짜리 팟캐스트 대화가 생성되었다.
처음 한 5~6분 정도는 꽤 정확하고 들을 만한 내용이었다.
어떤 음성에서는 '오늘은 언어학에 대한 한국 블로그의 글을 다룰 텐데, 한국어를 몰라도 이해할 수 있습니다!' 뭐 이런 이야기가 도입부에 나오기도 해서 재미있었고,
아무튼 내 글의 골자를 상당히 잘 이해하고 요약하는 느낌이었다.
그런데 팟캐스트 길이를 막 늘려야 하는 제약이라도 있는 건지, 후반부로 갈수록 좀 이상했다.
후반부 5~6분은 내가 글에 쓴 적도 없는 헛소리가 막 생성되어 있었다.
또 tts 변환 과정에서 뭔가가 잘못 되었는지 좀 웃긴 것도 있었는데 극성 강조(polarity emphasis)의 'DO'를 '디 오우'라고 읽는 부분이 있었다. 아마 대문자로 쓰여서 그런가 보다.
그리고 한국어의 요소를 그대로 옮기는 과정이 뭔가 이상하다.
주어-동사 일치에 관한 글에서 서법이나 증거성이 인칭과 통계적으로 상관관계가 있을 것 같다는 언급을 했었는데,
('먹었어'-주로 1인칭?
'먹었어?' - 주로 2인칭?
'먹었대'- 주로 3인칭?)
'증거성'이라는 개념에 대해서는 (내 글에 정의가 들어 있지도 않았던 것 같은데)
상당히 정확하게 설명해서 놀랐지만,
'먹었어' '먹었어?' '먹었대' 등의 한국어 예문은 무슨 이상한 '아' '어' '우' 같은 소리로 변환되어 등장했다.
그래서 이건 못 써먹겠다 싶었는데,
그러다... 아마 마지막으로 이것만 해 보자는 생각이었나?
동음이의어 글을 넣어 봤더니, 딱 5분짜리로 간결하면서 내용도 그럭저럭 쓸만한 결과물이 만들어졌다.
(솔직히 이런 글을 이렇게까지 잘 이해하고 요약하는 건 정말 신기하다.)
그래서 자막도 달고 유튜브에 올려 봤다.
아무튼 재미있는 경험이었다.
+ 한 가지 언어학적으로 흥미로운 사실이 있다.
Left dislocation ('좌측 전위') 구문이 요 5분짜리 짧은 음성에 무려 4번이나 등장한다는 것이다.
-> 좌측 전위에 대한 자세한 내용은 이 글 참조. https://languagelog.ldc.upenn.edu/nll/?p=629
(dislocation, 전위라는 용어가 헷갈려서 검색해 보고서야 제대로 생각났다.)
a bunch of those storage units, they're empty!
so, this linguist, they were talking about 'ease of pronunciation'.
all those empty rooms in the 'sound warehouse,' those are just the tongue twisters, ...
those gaps, those unused sounds, they actually help us decode language.
뭔가 낯선 것을 설명할 때 이런 종류의 정보 포장(information packaging, 또는 정보 구조 information structure)이 얼마나 유용한지 보여주는 실례가 아닐까 하는 생각이 든다.
아무튼 재미있는 경험이었다.
영상의 원문:
https://blog.naver.com/ks1127zzang/223044732321
2.
한글날에서 자정이 지나 버려서 지금 말하기에 타이밍이 좀 아쉽긴 하지만,
10월 9일 한글날이면 언어학도나 언어덕후는 약간 답답한 경험을 더러 하게 된다.
말하자면 끝이 없지만 간단히 줄이자면 일단
'한글'과 '한국어'를 구분하지 않는/못하는 사람이 많기 때문이다.
'한글'과 '한국어'를 구분해서 말하자는 건 어떻게 보면 언어학도가 드물게도 언어 사용에 있어 규범주의적인 태도를 갖게 되는 지점일지도 모른다.
일종의 타협점으로서 '한글'의 의항에 이를테면 '한국어를 달리 이르는 말'이라는 내용을 추가하면 그만이라는 기술주의적 태도에 나는 동의하지만,
어떻게 보든지 '세종대왕이 우리말을 만들었다'라는 말은 그냥 실드칠 수가 없는 틀린 말에 지나지 않는다. (물론 기술주의적으로 '그런 현상이 있다'라는 것은 당연히 참이다.)
(나이를 먹으면서 남들이 이런 오해를 하는 데 대해서 좀 초연해졌었다가, 요새 스트레스가 많아서 그런지 다시금 살짝 집착하게 된다.)
한글날에는 유독 대중의 그런 오해가 표면에 떠올라 눈에 자주 띄게 된다.
예를 들어 이런 것이 있다.
대학을 졸업한 지도 시간이 많이 지났지만, 문득 생각이 나서 한번 '에브리타임' 앱을 열어 봤다.
그랬더니 이런 것이 눈에 띄었다.
맞춤법이나 외래어 표기법을 암기하는 것과 한글날과의 관련성에 대해서도 말할 수 있겠지만 그런 것은 다 미뤄 두고,
그냥 저 '우리말이 생긴'이라는 말에 답답함을 느끼지 않을 길 없다.
이 블로그를 구독해 주시는 분들은 대부분 나와 입장을 같이 하실 거라 생각하기 때문에 굳이 자세한 말을 더 할 필요는 없을 것 같고,
티스토리의 sleepy_wug 님이 운영하시는 '언어학하고 있네' 블로그의 '한글날 기념' 글 링크를 달아 두며 마치겠다.
아주 짧은 글이니 한번쯤 읽어 보시길!
https://linguisting.tistory.com/205
https://www.youtube.com/watch?v=FsXmxqBCqug
전에도 사용했던 영상 편집 프로그램 Vrew로 만든 영상이다.
영어 자막은 자동 받아쓰기로 만들었고 줄바꿈이나 일부 오기만 직접 수정했으며
(NotebookLM에서 아마 tts로 자동합성되었을 음성을 Vrew에서는 반대로 stt로 자동받아쓰기 함)
대소문자가 좀 이상하게 된 것도 있는데 그건 귀찮아서 그냥 놔뒀다.
한국어 자막은 전부 직접 썼고, 중간중간 등장하는 한국어 음성은 Vrew의 무료 tts 기능을 사용해서 넣었다.
근데 그 작업이 생각보다 너무 오래 걸려서 어제오늘의 계획에 좀 차질이 생겼다...
지금 이럴 때가 아니었다는 후회 섞인 생각이 들면서도 동시에 뭔가 재미있는 일을 한 것 같아서 철없이도 뿌듯하다.