“大概五萬條對話對。”
“五萬條如果是開源資料集首接拉的,噪音會很大。你有沒有做過人工篩選和標註?”
姜樹的抿了一下,搖了搖頭,“沒有,一個人標不過來,想找同學幫忙,但大家這學期都在忙自己的畢設。”
“那你在模型評估的時候用的什麼指標?”
“BLEU和ROUGE,導師要求的。”
“這兩個指標評價對話生不太夠。對話的連貫和上下文一致用自指標很難捕捉,你可以加一個人工評估維度,設計一個三到五分的打分量表,找十個不瞭解專案背景的人來盲評,結果會更有說服力。”
他說這些話的口吻不是一個商業大佬在做戰略分析,更像是一個在行業裡泡了很久的師兄,把自己踩過的坑以一種不帶任何優越的方式分出來。
姜樹的眼睛越來越亮。
他掏出手機,開啟備忘錄,手指飛速地在螢幕上敲字,記錄速度快到拇指都快打出殘影。
薑茶茶坐在旁邊,筷子橫擱在空碗上,看著弟弟那副被名師開的虔誠模樣,太的管跳了又跳。
【這是早茶還是顧氏集團的技研討會?】
【這個男人到底什麼都懂還是什麼都裝懂?他怎麼連AI模型都能聊?他的知識庫是開了外掛還是在肚子裡裝了一整個維基百科?】
【最可恨的是他講得確實有道理,條理清晰,邏輯自洽,連我一個文科出的社畜聽了都覺得茅塞頓開!】
【這就是資本家的可怕之!他不是用錢砸你,他是用專業度碾你,讓你跪下來的時候還覺得自己是自願的!】
【小樹你清醒一點!他在PUA你!這是標準的職場控制!先用專業知識把你打得服服帖帖然後再用人脈和資源把你綁死!】
顧修的耳朵敏銳地捕捉到了那個字眼。
他的筷子在碟子上方懸停了不到半秒。
然後他夾起那碟無骨爪裡最後一隻,越過茶壺和蒸籠,穩穩放進了薑茶茶麵前的碗裡。
薑茶茶咬後槽牙,用一種賭氣般的力道把那隻爪整個塞進了裡。
顧修的視線在鼓起的腮幫子上停留了不到一秒就移開了,重新轉向姜樹,接上了剛才的話題。
“資料標註的事,如果人手不夠,可以試試半自的方案。先用現有模型做一篩,再人工校正,效率能提高三倍左右。”
姜樹的拇指在備忘錄上敲得更快了,頭都沒抬,連連點頭,“這個方法我之前看過一篇論文提到過,但沒想好怎麼落地。”
“落地的話,核心是篩模型的選擇。你可以用一個相對的開源模型做基線,不需要太大,7B引數量級的就夠用,重點是在你的垂首領域上做一簡單的prompt engineering來控制篩選標準。”
“7B的話,我的筆記本跑不。”
“學校沒有伺服可以申請嗎?”
“有,但排隊要排到下學期。”
顧修點了一下頭,那個作裡包含著一種瞭然於的從容,像是這個問題在他的預料之中,並且己經準備好了解決方案。
“顧氏的雲計算平臺有一個高校合作計劃,可以免費申請GPU算力。你回頭發一封郵件到這個地址。”
。苟不一得寫都號符@連,力有俊清跡字,址地箱郵個一下寫地整工,上紙巾餐的過用沒還張那上桌在就,紙到找沒,筆支一出掏裡袋口裝西從他
。前面樹姜到推紙巾餐張那把他
”。過能就日作工個三,薦推修顧上寫欄註備“








