芥末堆芥末堆

專(zhuān)訪(fǎng)聲網(wǎng)教育行業(yè)負責人錢(qián)奮:實(shí)時(shí)音視頻與AI結合如何賦能教育創(chuàng )新

作者:阿宅 發(fā)布時(shí)間:

專(zhuān)訪(fǎng)聲網(wǎng)教育行業(yè)負責人錢(qián)奮:實(shí)時(shí)音視頻與AI結合如何賦能教育創(chuàng )新

作者:阿宅 發(fā)布時(shí)間:

摘要:一直深耕音視頻互動(dòng)領(lǐng)域的聲網(wǎng)為什么要將RTC和大熱的AI相結合?

錢(qián)奮.jpg聲網(wǎng)教育行業(yè)負責人錢(qián)奮

大模型的角逐越來(lái)越激烈,縱觀(guān)大模型競技場(chǎng)上的選手,基本都是大廠(chǎng)。原因不難理解,大廠(chǎng)有充足的研發(fā)人才和資源,“彈藥”更充足。

在教育領(lǐng)域也是如此,在芥末堆主辦的GET2024·春大會(huì )上,學(xué)而思技術(shù)總監、MathGPT負責人白錦峰分享道,學(xué)而思做數學(xué)大模型的原因之一是,公司的技術(shù)研發(fā)和教研人員超3000人,研發(fā)經(jīng)費也很高?!爸挥匈Y源的大規模投入,才能保證將來(lái)的產(chǎn)出?!?/p>

這是否意味著(zhù)沒(méi)有那么多研發(fā)資源的中小企業(yè)要在大模型的賽道上掉隊?作為底層實(shí)時(shí)音視頻技術(shù)服務(wù)商,聲網(wǎng)已經(jīng)著(zhù)手解決這個(gè)難題。

同時(shí),近期多家教育企業(yè)相繼更新升級自家的學(xué)習機,智能教育硬件漸入AI時(shí)代,全面覆蓋啟蒙益智、自主輔學(xué)、學(xué)業(yè)提升等教學(xué)需求。一來(lái)一回對話(huà)、與家長(cháng)進(jìn)行音視頻溝通,都是學(xué)生與學(xué)習機的互動(dòng)場(chǎng)景,這也是聲網(wǎng)能夠充分發(fā)揮自己優(yōu)勢的領(lǐng)域。

緊跟教育行業(yè)的這些熱點(diǎn)與趨勢,聲網(wǎng)在GET大會(huì )·聲網(wǎng)教育沙龍專(zhuān)場(chǎng),發(fā)布「RTC+AI教育超級雙擎解決方案」。據介紹,該解決方案旨在幫助開(kāi)發(fā)者,通過(guò)這兩個(gè)引擎驅動(dòng)在線(xiàn)教育模式、場(chǎng)景、體驗的創(chuàng )新與升級。

一直深耕音視頻互動(dòng)領(lǐng)域的聲網(wǎng)為什么要將RTC和大熱的AI相結合?雙擎都帶來(lái)哪些新功能?將如何幫助教育客戶(hù)?

帶著(zhù)這些疑問(wèn),芥末堆向聲網(wǎng)教育行業(yè)負責人錢(qián)奮尋求答案。

為什么將RTC與AI相結合?

RTC(Real-Time Communication)是實(shí)時(shí)音視頻,是線(xiàn)上教學(xué)不可或缺的基礎設施;AI是近幾年大火的人工智能技術(shù),正在越來(lái)越廣泛地應用于教育領(lǐng)域。聲網(wǎng)為什么要將兩種技術(shù)結合起來(lái)?

有需求,才有解決方案。一方面隨著(zhù)GPT-4o、Astra等大模型的發(fā)布,RTC已慢慢成為大模型的關(guān)鍵能力,另一方面,在與教育客戶(hù)的直接且深度的溝通過(guò)程中,聲網(wǎng)感知到了最新的變化。

在實(shí)時(shí)音視頻領(lǐng)域,聲網(wǎng)當之無(wú)愧是佼佼者。數據顯示,在全球集成RTC能力的App中,50%以上都使用了聲網(wǎng)的技術(shù),其中不僅有教育領(lǐng)域,還包括娛樂(lè )等領(lǐng)域。聲網(wǎng)的教育客戶(hù)中不乏國內外知名企業(yè)。

近兩年,聲網(wǎng)發(fā)現,新老客戶(hù)開(kāi)始慢慢回歸線(xiàn)上大班課。究其原因,大班課是教學(xué)經(jīng)濟效益和體驗效益最好的模型,處在辦學(xué)效益和學(xué)習效果綜合的平衡點(diǎn)上。然而,雖然客戶(hù)的預算變少了,但對效果的要求并沒(méi)有降低。他們既要大班課模式,又要小班課甚至1對1的教學(xué)體驗,簡(jiǎn)而言之,既要花錢(qián)少,又要效果好,這無(wú)疑對聲網(wǎng)提出了更高的要求。

聲網(wǎng)觀(guān)察到的另一個(gè)趨勢是,智能教育硬件正在快速興起。根據IDC的數據,教育硬件以每年30%的增長(cháng)率保持增長(cháng),學(xué)習機和辭典筆幾乎成為現在學(xué)生的標配。

另外,聲網(wǎng)發(fā)現,客戶(hù)對教育工具的要求和關(guān)注重點(diǎn)正在回到課堂上,課堂互動(dòng)效果更受重視,比如老師的聲音能不能很輕松地傳遞到后排,噪音能否有效去除。

與此同時(shí),生成式AI在教育領(lǐng)域的應用越來(lái)越普遍,很多廠(chǎng)商已經(jīng)推出了AI概念的相關(guān)教學(xué)工具,包括AI教學(xué)陪練、教學(xué)和學(xué)情分析、備課等等。聲網(wǎng)相信自己在這個(gè)方向也可以有所作為。

站在當下這個(gè)節點(diǎn),聲網(wǎng)在思考:從2014年創(chuàng )業(yè)以來(lái),聲網(wǎng)已經(jīng)為50%以上線(xiàn)上互動(dòng)的教育機構提供音視頻服務(wù)。未來(lái)5至10年,聲網(wǎng)還應該為教育行業(yè)做些什么?

聲網(wǎng)思考的結果是繼續為線(xiàn)上線(xiàn)下教學(xué)客戶(hù)提供更優(yōu)質(zhì)的音視頻體驗,在追求體驗提升的基礎上,還要兼顧服務(wù)成本、辦學(xué)效益。這也是為什么聲網(wǎng)推出RTC+AI的教育雙引擎的概念。聲網(wǎng)希望,在雙擎的驅動(dòng)下,教育創(chuàng )新的這輛汽車(chē)將行駛得更快。

雙引擎如何拉動(dòng)教育創(chuàng )新?

RTC:支持多維直播,與主流學(xué)習機適配

據介紹,聲網(wǎng)在RTC方面主要升級了在線(xiàn)課堂教學(xué)體驗,包括超強互動(dòng)、多維直播、絲滑流暢、教育硬件適配等新功能。

聲1.png

「絲滑流暢」自不必說(shuō),聲網(wǎng)的實(shí)時(shí)音視頻技術(shù)一直在追求實(shí)現超低延遲秒接入,此次的升級使體驗更優(yōu)化,能確保每一堂課 0干擾、無(wú)卡頓?!?/p>

「超強互動(dòng)」體現在技術(shù)和場(chǎng)景工具兩個(gè)方面。技術(shù)層面,新解決方案讓師生互動(dòng)的延遲變得更加無(wú)感知;場(chǎng)景工具層面,僅僅是面對面的溝通還不夠,還需要一些工具來(lái)促進(jìn)實(shí)時(shí)課堂的參與度,學(xué)生可隨時(shí)通過(guò)上麥、彈幕、文字消息與老師問(wèn)答溝通,還能使用互動(dòng)教學(xué)組件,包括搶紅包、搶答、投票等。

「多維直播」這個(gè)功能引發(fā)了芥末堆的好奇。聲網(wǎng)在介紹中提到,“「多維直播」支持實(shí)時(shí)直播和錄像直播兩種教學(xué)模式,錄像直播(偽直播)也能達到實(shí)時(shí)直播的教學(xué)效果;支持超級小班課模式,分組學(xué)習與線(xiàn)上雙師,打造‘大班課堂,小班體驗’”。

為什么錄播還要追求實(shí)時(shí)直播的效果?這種效果又是如何實(shí)現的?

錢(qián)奮解釋道,“雙減”后,教育公司為了節約成本,會(huì )錄制好課程再上傳到線(xiàn)上給學(xué)員觀(guān)看,這種情況在職教領(lǐng)域比較常見(jiàn),因為成人可以自由把控自己的學(xué)習時(shí)間。具體功能上,「多維直播」支持客戶(hù)定制服務(wù),比如學(xué)生看錄播課的時(shí)候,中間會(huì )跳出一道題目,答完題才能進(jìn)入下面的環(huán)節。

在K12領(lǐng)域同樣有這樣的情況。比如,直播課的時(shí)間與學(xué)生的時(shí)間相沖突,通過(guò)「多維直播」,學(xué)生和家長(cháng)可以選擇自己合適的時(shí)間來(lái)上錄播課,但能有直播的體驗。雖然是錄播課,但在聲網(wǎng)技術(shù)的加持下,老師也會(huì )提問(wèn),還有積分和發(fā)紅包環(huán)節。而且“偽直播”課并不是隨時(shí)都可以上,可以規定學(xué)生必須在某個(gè)時(shí)間段完成,比如這堂課是7:00-9:00,可以設置9點(diǎn)以后就不能打開(kāi)。所以,對孩子來(lái)說(shuō),這就是在直播。聲網(wǎng)的技術(shù)也支持讓學(xué)生進(jìn)入課堂之后自動(dòng)分組,雖然對機構來(lái)說(shuō)是大班課,但是學(xué)生的感受卻是小班課。

針對教育企業(yè)紛紛推出的學(xué)習機,聲網(wǎng)基于自己的優(yōu)勢,也對學(xué)習機做了適配。因為學(xué)生除了可以通過(guò)學(xué)習機學(xué)習內容,還能觀(guān)看直播課、進(jìn)行家校溝通、家長(cháng)伴學(xué),這些場(chǎng)景都需要實(shí)時(shí)音視頻技術(shù)的支持。

目前,聲網(wǎng)的解決方案全面適配市面上主流的學(xué)習機品牌,其優(yōu)勢在于低端機型性能優(yōu)化,低內存占用,極小包體、超低功耗,還支持全平臺入口加入課堂,行業(yè)內率先適配鴻蒙HarmonyOS NEXT。

乍一看,聲網(wǎng)與學(xué)習機似乎沒(méi)有關(guān)聯(lián),其實(shí)不然?!拔覀円咔榍熬烷_(kāi)始做了,之前字節跳動(dòng)的大力臺燈也采用了聲網(wǎng)整體的方案,所以聲網(wǎng)對學(xué)習機的適配能力已經(jīng)非常成熟了?!?/p>

關(guān)于如何將聲網(wǎng)的解決方案與學(xué)習機集成,錢(qián)奮介紹,硬件出廠(chǎng)的時(shí)候聲網(wǎng)就會(huì )把SDK嵌入進(jìn)去,非常方便。

AI:讓課堂更沉浸,用大模型提升教學(xué)成效

AI這個(gè)引擎帶動(dòng)的是AI沉浸課堂的打造和大模型輔助教學(xué)。

在處理音頻方面,聲網(wǎng)的智慧教室音頻(3A)解決方案具備AI降噪、AI去混響、AI回聲消除等能力,能讓課堂變得更加沉浸,深度還原線(xiàn)下教室的上課體驗。

錢(qián)奮提到,聲網(wǎng)的技術(shù)路線(xiàn)是從“連線(xiàn)”到“在線(xiàn)”再到“在場(chǎng)”,目前處于“在線(xiàn)”的階段,會(huì )繼續朝著(zhù)“在場(chǎng)”前進(jìn)。

2024年大模型應用大爆發(fā),教育領(lǐng)域更是不斷被重塑,AI大模型與教育的結合已是大勢所趨。聲網(wǎng)了解到,很多客戶(hù)想嘗試大模型,比如說(shuō)AI Tutor,這些場(chǎng)景與音視頻強相關(guān),是聲網(wǎng)擅長(cháng)的方向。

目前,市面上的一些語(yǔ)音助手的技術(shù)邏輯是把聽(tīng)到的語(yǔ)音轉換成文字,使用文字回答后再轉換成語(yǔ)音回復給用戶(hù),因此這類(lèi)語(yǔ)音助手無(wú)法聽(tīng)出語(yǔ)音中包含的情緒,存在延遲較高的問(wèn)題。

GPT.png
OpenAI發(fā)布會(huì )上,用戶(hù)演示與GPT-4o的實(shí)時(shí)語(yǔ)音對話(huà)

OpenAI最新發(fā)布的GPT-4o讓語(yǔ)音視頻的交互能力再上一個(gè)臺階,用大模型進(jìn)行更具真實(shí)感與沉浸感的實(shí)時(shí)語(yǔ)音正在成為現實(shí),平均延時(shí)低至幾百毫秒,這無(wú)疑為包括聲網(wǎng)在內的RTC行業(yè)帶來(lái)很大的市場(chǎng)機遇,未來(lái)借助低延時(shí)、高音質(zhì)的RTC技術(shù),有望打造更極致的人與AI交互體驗。據了解,聲網(wǎng)也在利用新技術(shù),研發(fā)更像真人的AI口語(yǔ)老師,不久將面世。

同時(shí),聲網(wǎng)的技術(shù)還支持數字人AI助教,能實(shí)現7*24 小時(shí)的全天候陪伴輔導,隨時(shí)隨地答疑學(xué)生的課后難題。

頭部廠(chǎng)商都在用,對中小企業(yè)更友好

聲網(wǎng)發(fā)布「RTC+AI教育超級雙擎解決方案」并不是一時(shí)興起,從一年前就已經(jīng)開(kāi)始布局。

錢(qián)奮表示:“實(shí)時(shí)音視頻與AI結合,我們一直在做,但需要一些客戶(hù)來(lái)驗證,經(jīng)過(guò)驗證后,我們認為這個(gè)方案是成熟的,所以現在才發(fā)布?!?/p>

作為底層技術(shù)服務(wù)商,聲網(wǎng)的解決方案通常適用于各種規模的教育客戶(hù),目前該解決方案的客戶(hù)包括多家頭部廠(chǎng)商,也有不少的中小企業(yè)。聲網(wǎng)觀(guān)察到,大企業(yè)和中小企業(yè)的需求有所不同。

錢(qián)奮解釋道,“考慮到自己的品牌和業(yè)務(wù),大企業(yè)的需求會(huì )更定制化;中小企業(yè)可以直接用我們的解決方案,他們可以在跑通之后再做更多的定制化,投入更多資源?!?/p>

“我覺(jué)得這套解決方案對中小客戶(hù)更友好,因為不需要投很多的研發(fā)資源,也不需要那么長(cháng)的研發(fā)周期。研發(fā)資源就是成本,研發(fā)周期是決定一家企業(yè)有沒(méi)有可能活下來(lái)的一個(gè)很重要的因素?!彼f(shuō)。

聲網(wǎng)主要為客戶(hù)提供完整的技術(shù)能力,聚焦穩定性、定制性和簡(jiǎn)易性幾大原則。錢(qián)奮表示,聲網(wǎng)既為客戶(hù)提供聲網(wǎng)研發(fā)的模型,也提供市面上的通用大模型,由客戶(hù)自主選擇?!叭绻蛻?hù)認為通用大模型夠用,就不用再多加訓練;如果客戶(hù)希望做得更好,更垂直,還是需要用自己的數據進(jìn)行訓練?!?/p>

“我們未來(lái)也可能會(huì )推出聚焦教育的小模型,小模型的體積包更小,更方便教育客戶(hù)接入?!卞X(qián)奮透露。

今年是聲網(wǎng)成立十周年。截至目前,聲網(wǎng)在全球的活躍應用數已經(jīng)超過(guò)74萬(wàn),全球數據中心超過(guò)250,單月通話(huà)分鐘數超過(guò)600億。這些數字還在持續增長(cháng)。

能有如此成就,得益于聲網(wǎng)一直以來(lái)對市場(chǎng)動(dòng)向的洞察,以及在技術(shù)能力上的深耕。此次發(fā)布的「RTC+AI教育超級雙擎解決方案」標志著(zhù),聲網(wǎng)在助力教育創(chuàng )新的道路上,往前又邁了一步。

1、本文是 芥末堆網(wǎng)原創(chuàng )文章,轉載可點(diǎn)擊 芥末堆內容合作 了解詳情,未經(jīng)授權拒絕一切形式轉載,違者必究;
2、芥末堆不接受通過(guò)公關(guān)費、車(chē)馬費等任何形式發(fā)布失實(shí)文章,只呈現有價(jià)值的內容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫(xiě)信息告訴我們。
來(lái)源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • 專(zhuān)訪(fǎng)聲網(wǎng)教育行業(yè)負責人錢(qián)奮:實(shí)時(shí)音視頻與AI結合如何賦能教育創(chuàng  )新分享二維碼