AI는 식당이나 헤어 예약을 예약 할 수 있지만 완전한 대화를 기대하지는 않습니다. AI 보조원이 약속을 예약 할 수는 있지만 의미있는 대화는 어떻습니까? Shutterstock / Bas Nastassia

최근 구글 공개 Duplex라고 불리는 최신 AI 이중은 실제 사람처럼 들리며 일시 중지, "umm"및 "ahhs"가 있습니다.

기술 대기업은 전화로 사람들과 대화하여 약속을 정하고 영업 시간을 확인할 수 있다고 밝혔다.

헤어 살롱 약속을 예약 이중. 구글445 KB (다운로드)

구글 공개에서 녹음 된 대화에서, 그것은 상대방과 대화를 나 seamless 다.

식당을 부르는 이중. 구글399 KB (다운로드)

이 전화는 Google 쇼의 기술 지향적 인 잠재 고객은 헐떡 거리고 응원합니다. 일례로, 인공 지능 (AI)은 대화를 나눈 사람이 혼란스러워 졌을 때를 이해했으며, 대화를 계속하고 예약 할 필요가 없다고 들었을 때 적절하게 대응할 수있었습니다.


내면의 구독 그래픽


AI 어시스턴트의 부상

현재 사용 가능한 음성 길잡이 (예 : 구글 홈, 애플 시리 또는 아마존 에코이 유연성은 당신을 놀라게 할 것입니다. 이 조수들은 악명 높게 어려운 연락처 전화, 노래 재생, 간단한 웹 검색 또는 알림 설정과 같은 표준 요청 이외의 용도로 사용합니다.

우리가 현재 세대의 조수들과 이야기 할 때, 우리는 항상 AI와 대화하고 있다는 것을 알고 있으며, 그것이 작동 할 가능성을 극대화하기 위해 우리가 말하는 것을 종종 조정합니다.

그러나 듀플렉스와 대화하는 사람들은 전혀 몰랐습니다. 그들은 주저하고, 역 추적하고, 단어를 건너 뛰었으며 심지어 문장의 일부를 통해 사실을 변경했습니다. 듀플렉스는 비트를 놓치지 않았다. 실제로 무슨 일이 일어나고 있는지 이해하는 것 같았습니다.


더 읽기 : 스마트 스피커는 홈 오토메이션의 전환점이 될 수 있습니다


미래는 누구보다 일찍 도착 했습니까? 세계가 온라인 (및 전화) AI 보조원으로 가득 차서 행복하게 채팅하고 우리를 위해 모든 것을하고 있습니까? 아니면 더 나쁜 것은 우리가 인간을 포함하거나 포함하지 않을 수있는 자신의 생각과 아이디어로 지능적인 인공 지능으로 갑자기 둘러싸 일 것인가?

정답은“아니오”입니다. 이유를 이해하려면 AI와 같은 AI를 구동시키는 요소를 간단히 살펴 보는 것이 도움이됩니다.

듀플렉스 : 작동 방식

이것은 이중 AI 시스템 보이는 군.

들어오는 소리는 ASR 시스템을 통해 처리됩니다. 이는 TTS (text-to-speech) 시스템을 통해 소리내어 읽은 응답 텍스트를 생성하기 위해 컨텍스트 데이터 및 기타 입력으로 분석 된 텍스트를 생성합니다. 구글

시스템은 전화 통화하는 사람의 음성 인 "입력"(왼쪽에 표시)을 사용합니다. 음성은 자동 음성 인식 (ASR)을 거쳐 텍스트 (쓰기 단어)로 변환됩니다. ASR 자체는 고급 AI 시스템이지만 기존 음성 지원에서 이미 일반적으로 사용되는 유형입니다.

그런 다음 텍스트를 스캔하여 문장의 유형 (인사말, 진술, 질문 또는 지시)을 결정하고 중요한 정보를 추출합니다. 그런 다음 주요 정보는 컨텍스트의 일부가되며, 이는 대화에서 지금까지 말한 내용으로 시스템을 최신 상태로 유지하는 추가 입력입니다.

ASR과 컨텍스트의 텍스트는 인공 신경 네트워크 (ANN)라고하는 이중의 심장으로 전송됩니다.

위의 다이어그램에서 ANN은 원과 선을 연결하여 표시됩니다. ANN은 우리의 두뇌에서 느슨하게 모델링됩니다.수십억 개의 뉴런이 거대한 네트워크에 연결되어 있습니다.

아직 뇌는 아니지만

ANN은 우리의 뇌보다 훨씬 간단합니다. 이것이 시도하는 유일한 것은 입력 단어를 적절한 응답과 일치시키는 것입니다. ANN은 식당 예약을하는 사람들의 수천 대화 내용을 보여줌으로써 학습합니다.

충분한 예를 통해, 대화하는 사람으로부터 어떤 종류의 입력 문장을 기대하고 각 문장에 어떤 종류의 응답을 줄지 배웁니다.

ANN이 생성 한 텍스트 응답은 TTS (text-to-speech) 신시사이저로 전송되어이를 음성으로 변환 한 다음 전화로 상대방에게 재생됩니다.

다시 한 번,이 TTS 신시사이저는 고급 AI입니다.이 경우 일반 음성과 거의 구별되지 않는 소리를 내기 때문에 휴대 전화보다 고급 AI입니다.

그것이 전부입니다. 최신 기술 임에도 불구하고 시스템의 핵심은 텍스트 일치 프로세스 일뿐입니다. 그러나 당신은 물어볼 수 있습니다 – 그것이 너무 단순하다면, 왜 우리가 전에 그것을 할 수 없었습니까?

배운 응답

사실 인간의 언어와 실제 세계의 대부분의 다른 것들이 너무 다양하고 무질서하여 일반 컴퓨터에서 잘 처리 할 수는 없지만 이런 종류의 문제는 AI에 완벽합니다.

AI에 의해 생성 된 결과는 전적으로 학습하는 동안 보여지는 대화에 달려 있습니다.

즉, 다른 유형의 예약을하려면 다른 AI를 교육해야합니다. 예를 들어 한 AI는 식당을 예약하고 다른 AI는 머리 약속을 예약 할 수 있습니다.

질문 유형과 응답은 예약 유형에 따라 매우 다양 할 수 있기 때문에 필요합니다. 이것은 또한 여러 유형의 요청을 처리해야하는 일반 음성 지원보다 Duplex가 훨씬 더 나은 방법입니다.

이제 AI 조수와 조만간 대화하지 않을 것임이 분명합니다. 실제로 현재의 모든 AI는 패턴 매칭 기 (이 경우 텍스트 패턴 일치)에 지나지 않습니다. 그들은 자신이 듣는 것, 보는 것 또는 말하는 것을 이해하지 못합니다.

패턴 매칭은 우리의 두뇌가하는 일이지만 훨씬 더 많은 일을합니다. 보다 강력한 AI를 만드는 열쇠는 뇌의 더 많은 비밀을 여는 것입니다. 우리는 원합니까? 글쎄, 그건 다른 질문.대화

저자에 관하여

Peter Stratton 박사후 연구원 퀸즐랜드 대학교

이 기사는에서 다시 게시됩니다. 대화 크리에이티브 커먼즈 라이센스하에 읽기 원래 기사.