多模態(tài)會(huì)議與AI協(xié)作工具定制開(kāi)發(fā)
大家好,我是成都小火科技的人員,今天是2025年11月13日,星期四。前些周參加一次線上評(píng)審會(huì),十二個(gè)專家開(kāi)了四個(gè)小時(shí),紀(jì)要寫了三千字,哪曉得第二天發(fā)現(xiàn)最關(guān)鍵的決策點(diǎn)記錯(cuò)了,又得重新把會(huì)組織起來(lái)。當(dāng)時(shí)我便思量,這會(huì)議效率的狀況,已經(jīng)不是人的狀況,而是工具的狀況。遠(yuǎn)程辦公常態(tài)化之后,會(huì)議軟件已經(jīng)成為剛需,但大多還僅僅處于音視頻通話的層面,真正的協(xié)作效率根本沒(méi)有得到提升。所以我打算自行開(kāi)發(fā)一套,是一套帶有AI頭腦、能夠看懂PPT、能夠聽(tīng)明白語(yǔ)氣、能夠自動(dòng)安排任務(wù)的多模態(tài)會(huì)議系統(tǒng)。
做咨詢的客戶的痛點(diǎn)是會(huì)議信息流失嚴(yán)重。一個(gè)項(xiàng)目啟動(dòng)會(huì),討論的內(nèi)容分散于聊天記錄、共享文檔、口頭承諾之中,執(zhí)行的時(shí)候就各持己見(jiàn)。當(dāng)他找到我的時(shí)候,提出了一個(gè)很具體的需求:能否讓人工智能自動(dòng)識(shí)別會(huì)議里的決策項(xiàng)、責(zé)任人、截止時(shí)間等,之后會(huì)后直接生成工單派送到客戶關(guān)系管理系統(tǒng)當(dāng)中去。我產(chǎn)品經(jīng)理聽(tīng)罷,興奮地搓手,這兒得用Whisper來(lái)進(jìn)行語(yǔ)音識(shí)別,兒要用視覺(jué)模型來(lái)做PPT內(nèi)容解析,再接用LLM來(lái)做語(yǔ)義理解以及任務(wù)抽取,多模態(tài)融合是真正的難點(diǎn)。技術(shù)主管確定好了方案,前端使用React,后端使用Java,AI服務(wù)單獨(dú)用Python來(lái)做微服務(wù),音視頻使用WebRTC,PPT解析使用OCR加上LayoutLM。
在四個(gè)半月時(shí)長(zhǎng)的開(kāi)發(fā)周期方面,總會(huì)有人詢問(wèn)開(kāi)發(fā)周期需要花費(fèi)多長(zhǎng)時(shí)間?實(shí)際上得看復(fù)雜程度的會(huì)議場(chǎng)景了??蛻暨€有支持同聲傳譯且中英日韓四語(yǔ)的要求,需要接入專門的翻譯API,同時(shí)還得去處理存在的延遲問(wèn)題。到了第三個(gè)月的時(shí)候,中間需求存在改動(dòng)的情況還確實(shí)不少,客戶提出要在會(huì)議當(dāng)中添加實(shí)時(shí)投票功能,我便去進(jìn)行評(píng)估,這次改動(dòng)涉及前端界面以及后端數(shù)據(jù)存儲(chǔ)方面,屬于中等程度的改動(dòng),于是就壓縮了一下測(cè)試時(shí)間,把它添加進(jìn)去了。在我公司所做的許多項(xiàng)目里,像賽事報(bào)名系統(tǒng)之類,也存在實(shí)時(shí)互動(dòng)情況,不過(guò)會(huì)議系統(tǒng)的實(shí)時(shí)性要求相對(duì)更高些,如果延遲超過(guò)500毫秒,體驗(yàn)就會(huì)呈斷崖式下跌。交付質(zhì)量如何?上線之后客戶稱會(huì)議決策執(zhí)行率從以往的60%攀升到87%,因?yàn)槊恳粋€(gè)決策都有蹤跡可尋。
我投入了十二位技術(shù)人員,其中四個(gè)是從事AI算法的,三個(gè)是Java后端的,兩個(gè)是前端的,一個(gè)是UI的,兩個(gè)是測(cè)試的。研發(fā)人員的占比超過(guò)了80%,其中30%以上來(lái)自互聯(lián)網(wǎng)大廠,有來(lái)自騰訊會(huì)議團(tuán)隊(duì)的,有來(lái)自字節(jié)跳動(dòng)飛書團(tuán)隊(duì)的,帶原廠的經(jīng)驗(yàn)以及坑的。成都小火科技公司專門從事AI軟件、政企軟件、智慧管理類型的軟件、智慧實(shí)施類型的軟件、海外軟件、APP、小程序、公眾號(hào)、企業(yè)官網(wǎng)以及其他行業(yè)軟件的定制開(kāi)發(fā)。我官網(wǎng)的網(wǎng)址是www.rfwlkj.com,ICP備案號(hào)是蜀ICP備14021890號(hào)-1,網(wǎng)安備案號(hào)是川公網(wǎng)安備51010802031911號(hào),是正規(guī)的公司,資質(zhì)是齊全的。APP是否能夠同時(shí)適配iOS以及安卓?這次做的是網(wǎng)頁(yè)版,因?yàn)榭蛻糁饕赑C端開(kāi)會(huì),不過(guò)我也做了移動(dòng)端小程序,方便在外參會(huì)的人員接入。
測(cè)試階段里頗為尷尬的狀況被我發(fā)現(xiàn),當(dāng)會(huì)議室光線不佳的時(shí)候,人臉識(shí)別常常失敗導(dǎo)致發(fā)言人標(biāo)簽出現(xiàn)錯(cuò)亂。最后我添加了一個(gè)聲紋識(shí)別來(lái)做輔助,雙重校驗(yàn)才得以解決。關(guān)于小程序是否存在手機(jī)兼容性問(wèn)題?是會(huì)存在的特別是很多內(nèi)存小的老款iPhone,在進(jìn)行視頻會(huì)議的時(shí)候就容易出現(xiàn)閃退的情況。我已經(jīng)進(jìn)行了內(nèi)存優(yōu)化,視頻分辨率也被動(dòng)態(tài)調(diào)整了,并且添加了崩潰日志自動(dòng)上報(bào)功能。上線之后如果出現(xiàn)bug,我會(huì)負(fù)責(zé)修復(fù)?肯定是負(fù)責(zé)的,合同里有寫明,緊急bug會(huì)在四小時(shí)內(nèi)響應(yīng)。維護(hù)費(fèi)是如何收取的?首年是免費(fèi)的,之后每年按照合同額的15%進(jìn)行收取,其中包含API升級(jí)以及服務(wù)器擴(kuò)容。后期要是想要添加功能是否需要額外花錢?是需要的舉個(gè)例子來(lái)說(shuō),客戶要是想要添加會(huì)議氣氛分析,看看大家是贊同還是反對(duì),需要添加情感計(jì)算模塊,屬于新增的需求。
UI能夠設(shè)計(jì)多少個(gè)版本?我這邊做了有三個(gè)版本,客戶挑中了最為專業(yè)的一版,帶有深色背景,凸顯視頻窗口。至于使用云服務(wù)器還是線下自主服務(wù)器?采用的是云服務(wù)器,有阿里云跟AWS雙活,因?yàn)榭蛻舸嬖诤M鈭F(tuán)隊(duì),得要全球來(lái)接入。代碼的版權(quán)屬于誰(shuí)?屬于客戶不過(guò)對(duì)于有AI模型基座的我的技術(shù)積累而言,這一塊是有單獨(dú)的知識(shí)產(chǎn)權(quán)約定。開(kāi)發(fā)完畢之后會(huì)對(duì)客戶開(kāi)展使用培訓(xùn)?是會(huì)的我制作了五段時(shí)長(zhǎng)不超過(guò)三分鐘的視頻教程,并且還配備了操作手冊(cè),因?yàn)闀?huì)議軟件需要快速上手,沒(méi)有人愿意去看長(zhǎng)篇的文檔。
本公司到底有多少個(gè)技術(shù)人員?總計(jì)是五十三個(gè)人。除了行政財(cái)務(wù)一塊之外,剩下的全都是與技術(shù)相關(guān)的人員。有人就問(wèn)是否有JAVA開(kāi)發(fā)語(yǔ)言?有,有十四個(gè)JAVA后端的人員,這是本公司的主力軍。有人疑惑為何不同公司的報(bào)價(jià)差距許多?由于會(huì)議系統(tǒng)關(guān)聯(lián)音視頻、AI、協(xié)作這三方面,每一方面都是難攻克之地,小公司只能夠開(kāi)展表層的業(yè)務(wù),而我能夠進(jìn)行全鏈路的操作,成本構(gòu)造是不一樣的。我所開(kāi)展過(guò)的項(xiàng)目情況,比如有AI智慧文旅小程序這類的,也存在多模態(tài)方面的需求,不過(guò)會(huì)議系統(tǒng)的實(shí)時(shí)交互要求則更為高些。我擁有ISO900認(rèn)證(證書編號(hào):29325Q410631R0S),質(zhì)量管理流程相當(dāng)嚴(yán)格。
復(fù)盤該項(xiàng)目之中,最大的障礙是個(gè)AI幻覺(jué)。有一次會(huì)議商討預(yù)算的時(shí)候,PPT上寫“控制在10%以內(nèi)”,AI在抽取任務(wù)的時(shí)候,被理解成了“增加10%”,差一點(diǎn)就派錯(cuò)工單。此刻在LLM后處理中已添加規(guī)則校驗(yàn),經(jīng)過(guò)數(shù)字、人名、時(shí)間的三重核對(duì)之后,幻覺(jué)才算是被穩(wěn)穩(wěn)地壓制住了。經(jīng)驗(yàn)需要補(bǔ)充一些,多模態(tài)融合并非單純堆砌模型,需要開(kāi)展特征對(duì)齊以及時(shí)間同步的相關(guān)事項(xiàng),我的音視頻和PPT解析的時(shí)間戳對(duì)齊,就花費(fèi)了足足兩周的時(shí)間。重提醒很多想要去做多模態(tài)會(huì)議工具的企業(yè),可不要貪大求全,先把核心場(chǎng)景做透徹,比如說(shuō)先確保決策抽取準(zhǔn)確率能達(dá)到95%,之后再去做屬于錦上添花的氣氛分析這類功能。說(shuō)到底會(huì)議工具的價(jià)值在于讓信息不流失且決策可追蹤,即便花哨功能有很多,也比不上一次準(zhǔn)確的會(huì)議紀(jì)要。我做這件事是期望能幫企業(yè)把開(kāi)會(huì)的成本切實(shí)轉(zhuǎn)化為執(zhí)行力的提升,而不是增添數(shù)字的負(fù)擔(dān)。
文章來(lái)源網(wǎng)址:http://www.rfwlkj.com/archives/xitongkaifa01/2408,轉(zhuǎn)載請(qǐng)注明出處!
精選案例
推薦文章
Core competence
高質(zhì)量軟件開(kāi)發(fā)公司-成都小火科技
多一套方案,多一份選擇
聯(lián)系小火科技項(xiàng)目經(jīng)理,及時(shí)獲取專屬《項(xiàng)目方案》及開(kāi)發(fā)報(bào)價(jià)
咨詢相關(guān)問(wèn)題或預(yù)約面談,可以通過(guò)以下方式與我們聯(lián)系
業(yè)務(wù)熱線 19113551853
19113551853