DeepSeek R1 (딥시크 최신 엔진) 사용 후기, 챗GTP와의 비교

최근 중국에서 개발한 DeepSeek R1 엔진이 화제라고 하더라고요. 남편이 주식 시장에서 큰 파장이 일 것 같다고… 업무에서 AI, 특히 챗GPT를 활발히 활용하고 있는 상황이라, 딥시크가 얼마나 좋을지 궁금했습니다. 과연 소문 대로 chatGPT-o1 수준으로 훌륭할까요? 간단히 활용해본 후기를 전합니다.

전제

저는 챗GTP Plus 사용자입니다. 대부분 GPT-4o나 canvas 엔진으로 사용합니다.

평소에 활용하는 대로 정보 조사 및 문서 작성 용으로, 정말 간단하게 테스트했습니다.

DeepSeek 시작하기

처음 deepseek라고 검색해서 들어간 웹사이트 (https://www.deepseek.com/) 화면의 채팅창에서 시작했어요.

저는 DeepSeek를 소개하는 블로그 포스트를 작성하라는 프롬프트로 테스트를 해보기로 했습니다. 제가 자주 사용하는 종류의 작업이니만큼 어느 정도 수준을 파악하기에 좋아서요. 프롬프트는 조금 정교한 수준으로 넣었습니다. 한글로 질문하고 영어로 다시 질문했습니다.
그런데 결과가 영 시원치않은 거에요.

굉장히 유치한 수준의 답변이 나와서, 이게 AI 주식계의 지각변동을 일으킬 만한 것인가, 의문이 들었죠.
그래서 한번 물어봤습니다.

deepseek와의 대화 중 일부

그럼 그렇지… 그런데, 다시 작성해달라고 해서 받은 새로운 답변도 별 다를 게 없더라고요. 저의 의심은 점점 커졌습니다.
그래서 챗GPT를 켜고 같은 프롬프트를 넣었어요.
이런, DeepSeek R1에 대해서 DeepSeek 본인 보다 더 잘 알고 있고, 더 좋은 결과를 뽑아내더라고요.

DeepSeek R1은 제가 쓰는 chatGPT 플러스 요금제의 GPT-o4 보다 뛰어다나는데, 정말 이상하다는 생각이 들었죠.
그래서 이리저리 프롬프트를 추가해보다가 결국 자백을 받아냈습니다.

deepseek과의 대화 중 일부. 자백의 현장입니다.

결과적으로 저의 테스트는 DeepSeek-V3로 진행한 것이며, 얘는 DeepSeek R1에 대해 아는 것이 하나도 없으면서 마음대로 답변을 해왔다는 사실을 알 수 있었습니다.

채팅창에서 아래 버튼이 활성화되어있는 상태에서 질문을 했지만, DeepSeek-R1 엔진을 사용한 것이 아니라는…

어쩐지… 결과물이 많이 허접하다 싶었어요.

결국, 의도치 않게 DeepSeek-V3를 테스트했는데요, 결과는 chatGPT 1년 반 전 정도의 수준도 안된다는 것이었습니다.

제가 주관적으로 느낀 몇 가지 특징을 정리해보면,

답변의 질은 chatGPT 3.5 살짝 아래

같은 프롬프트를 넣었을 경우 같은 결과를 도출 (영어, 한글 같음): 이게 어떻게 가능한지 모르겠어요. chatGPT나 DeepSeek 같은 대규모 언어 모델(LLM)의 경우 같은 답변이 나오지 않도록 훈련받는다고 알고 있었거든요. 그런데, 프롬프트를 수정할 때 마다 거의 같은 답이 나온다는 건 미스터리하네요. (한글 먼저 하고 영어 했는데, 거의 번역 수준의 답변이 나왔습니다.)
거짓말을 잘 함 (할루시네이션 강함)
DeepSeek에 대한 것을 물어서인지, 중국어에 대한 자부심이 강함

DeepSeek R1 사용 방법

그렇다면, 과연 DeepSeek R1은 어떻게 사용할 수 있을까요?

저의 경우 이렇게 들어갔습니다.

DeepSeek 웹사이트 접속 (https://www.deepseek.com/)

위의 공지 글 클릭: DeepSeek-R1모델에 대한 내용들이 나옵니다. 제가 봤던 통계자로 등은 모두 여기서 나온 것이었네요.
중간에 보면 DeepSeek-R1을 사용할 수 있는 링크가 나옵니다.
문서에 포함된 링크 클릭 https://chat.deepseek.com/

새로운 채팅이 열렸습니다.

아까와 같은 헛발질을 하지 않기 위해, 정체부터 물어보고 시작했습니다.

여러분도 의심된다면 정체를 확인하고 시작해보세요.

다행히 맞다고 하네요.

같은 프롬프트를 영어로 먼저 넣어주었습니다.

DeepSeek R1 결과물

결과를 보니, DeepSeek-V3 모델과는 전혀 다른 결과를 산출해줍니다.

특히, 프롬프트 작성자의 의도를 정확히 파악하고 그에 맞는 내용을 뽑아내는 데에 최선을 다한다는 생각이 들더라고요.

DeepSeek-R1의 결과물은 꽤 만족스러운 수준이었습니다.

같은 프롬프트로 작성한 chatGPT-4o 모델보다 나은 것 같기도 했습니다.

(chatGPT-4o의 경우 한글로만 진행했습니다. 최근 챗GPT는 제가 사용하는 수준 정도에서는 한글로 사용해도 영어와 거의 비슷한 결과물을 뽑아내더라고요. 하지만, 이 부분에서 답변 수준에 차이가 생겼을 수도 있어서 말씀드립니다.)

답변을 산출하는 과정에서 생각의 진행 과정을 보여주는 것도 신선하고 재미있었어요.

이건 v3에서도 deepThink(R1) 버튼을 누르면 활성화되었던 기능입니다. 그런데, v3과 r1의 생각의 레벨이 엄청나게 다르더라고요. v3이 제 프롬프트를 반복하고 약간의 기술적인 해법을 덧붙이는 수준이라면, DeepSeek-R1은 더 깊이있는(?) 고민을 한다는 게 보입니다.

아래 링크를 통해 같은 프롬프트로 DeepSeek-R1과 chatGPT-4o으로 작성한 블로그 포스트 원고의 결과물을 함께 보여드릴께요.

두 게시물을 비교해보시고 알아서 판단해보시면 좋을 것 같습니다.

DeepSeek R1 사용 총평

무료인데 이 정도라니, 럭키비키잖아!

DeepSeek-R1은 불편하지도 않고, 결과물도 잘 뽑아내는 좋은 AI 엔진인 것 같습니다.

앞으로 조금씩 병행해서 사용해보려고 합니다.

무엇보다 무료로 사용할 수 있는데도, 한 달에 20불을 지출하는 chatGPT와 같거나 더 좋은 수준의 결과물을 뽑아준다면, 마다할 이유가 없겠죠.

한글 사용도 큰 문제 없는 것 같은데…

한글로 사용하면 어색하다는 이야기도 들었는데, 엄청 거슬리는 정도는 아니었습니다.

한글로 프롬프트를 넣었을 때의 결과물 수준은, 저도 확실하진 않지만요… 저는 처음 영어로 작성한 후 한글로 번역을 시키고, 이후 수정 명령을 할 때는 한글로 했거든요. 그래서인가 한글로 나온 결과물이 나쁘지 않았습니다.

챗GPT도 4 이전까지는 영어로 프롬프트를 입력했을 때 확실히 더 좋은 결과가 나오곤 했습니다. 현재는 프롬프트 언어에 따른 차이가 크게 느껴지지는 않는것 같습니다. 딥시크에서 언어에 따른 차이가 있다고 해도, 금방 극복될 것으로 보입니다.

(중국어로 사용했을 때에는 압도적으로 좋을 것 같습니다. 스스로도 그렇게 자랑하더군요.)

사족으로, DeepSeek-V3의 경우 한글 프롬프트를 입력했을 때와 이 내용을 영어로 번역한 프롬프트를 입력했을 때, 거의 같은 결과가 나왔습니다. 이걸 보면, 어떤 언어가 들어오던 무조건 중국어로 번역한 다음 진행하는 것이 아닌가, 하는 것이 저의 뇌피셜입니다…

딥시크에 대한 단상-데이터는 어디에서 오고 어디로 가는가

DeepSeek 학습 자료 45% 이상이 중국어 데이터라고 합니다. 이와 관련하여 로데이터 자체의 편향(?)에 대해서도 고려해야한다는 생각이 들었습니다.

chatGPT 등의 서구 LLM 모델들이 영어 중심의 학습을 했고, 이에 따른 편향성도 분명히 있었다고 생각합니다. 그러나 이들은 이런 한계를 인식하고 스스로 편향되지 않기 위해 노력하는 지점이 분명히 있습니다. 기타 AI 윤리에 대해서도 마찬가지지요. 오랜 세월 기술자들과 사용자들이 상호작용하며 만들어온 역동성과, 그에 따른 시스템화가 되어있다고 생각됩니다.

그런데, 중국에서 이런 부분이 얼마나 잘 될 것인지, AI 윤리와 관련된 감수성이 얼마나 있을지 잘 모르겠습니다. 저는 AI나 IT 전문가가 아니기 때문에 사실 잘 모릅니다. 다만, 몇몇 사례들을 통해 개인정보나 데이터 보안에 대한 우려가 느껴졌기 때문입니다.

DeepSeek가 스스로 중국어 부분을 강조하고 이를 강점으로 내세우는 걸 보다가 든 단상입니다.

여러분은 어떻게 생각하시나요?