數(shù)說技術(shù) | 讓算法“教導(dǎo)”數(shù)據(jù),以數(shù)字化內(nèi)容洞察消費(fèi)者
大數(shù)據(jù)在企業(yè)中的分析與應(yīng)用離不開背后的算法平臺(tái)支撐,獲取數(shù)據(jù)僅僅是大數(shù)據(jù)應(yīng)用的第一步。企業(yè)如何按照不同的需求篩選、分類數(shù)據(jù),提取最有效的部分進(jìn)行分析?只有經(jīng)年積累的算法和機(jī)器學(xué)習(xí)技術(shù),才能讓數(shù)據(jù)真正“活”起來。
其中,文本類型數(shù)據(jù)的內(nèi)容、意圖和情感分析是文本數(shù)據(jù)挖掘中的重點(diǎn)分析對(duì)象。DataStory依托持續(xù)更新的機(jī)器學(xué)習(xí)能力和文本挖掘引擎,在海量互聯(lián)網(wǎng)數(shù)據(jù)的支撐下,結(jié)合不同行業(yè)的大數(shù)據(jù)實(shí)踐,不斷完善自有的機(jī)器學(xué)習(xí)與文本處理算法。
本文將展開介紹DataStory算法平臺(tái) - 數(shù)說羅盤,一個(gè)集“算法測(cè)試演示 - 標(biāo)注 - 模型訓(xùn)練上線”三位一體的智能持續(xù)優(yōu)化系統(tǒng)平臺(tái)。
算法展示與測(cè)試
DataStory提供業(yè)界領(lǐng)先的基礎(chǔ)文本分析算法:中文分詞、中文句法分析、關(guān)鍵詞提取、實(shí)體識(shí)別、通用內(nèi)容分類、內(nèi)容摘要、垃圾廣告判斷、情感判斷。
DataStory擁有專利技術(shù)的觀點(diǎn)提取算法 - 三元組提取技術(shù),提供細(xì)粒度的維度情感判斷。通過多領(lǐng)域的專業(yè)三元組模型建立,能夠支持不同領(lǐng)域定制化的觀點(diǎn)提取分析。除此之外,DataStory還提供通用的智能提取模塊,達(dá)到快速的分析模塊構(gòu)建。
互聯(lián)網(wǎng)的數(shù)據(jù)的一個(gè)常見特征是數(shù)據(jù)類型紛雜無序,通過關(guān)鍵詞進(jìn)行數(shù)據(jù)搜索,會(huì)帶來大量的噪音。DataStory針對(duì)性的開發(fā)了歧義詞識(shí)別算法,以達(dá)到有效的噪音消除。
社交網(wǎng)絡(luò)營銷的主陣地 - 微博,存在大量的水軍以及僵尸賬號(hào),這對(duì)企業(yè)的數(shù)據(jù)分析會(huì)造成非常的大的影響。DataStory通過60+維度的水軍特征,通過機(jī)器學(xué)習(xí)的算法判斷微博用戶的水軍可能性。
出于商業(yè)分析的需要,DataStory會(huì)大量的根據(jù)爬蟲協(xié)議對(duì)全網(wǎng)新聞數(shù)據(jù)進(jìn)行采集。面對(duì)海量的站點(diǎn),開發(fā)專用爬蟲模板的成本會(huì)非常大,DataStory通過研發(fā)通用新聞提取算法,能夠到達(dá)多核心字段>95%的準(zhǔn)確率。
除此之外,聚類分析、人臉檢測(cè)與識(shí)別、知識(shí)圖譜的相關(guān)模塊也是不可或缺的。
數(shù)據(jù)標(biāo)注
DataStory研發(fā)了一套基于active-learning算法的數(shù)據(jù)標(biāo)注工具。數(shù)據(jù)標(biāo)注不再是一次性大量數(shù)據(jù)標(biāo)注,變成了迭代式的、打怪升級(jí)式的標(biāo)注。每一個(gè)迭代,算法自動(dòng)判斷收斂,和篩選最有價(jià)值的數(shù)據(jù)進(jìn)行下一次標(biāo)注。
為了進(jìn)一步的加快數(shù)據(jù)標(biāo)注的速度,DataStory深度優(yōu)化標(biāo)注的過程,使得用戶可以通過簡(jiǎn)單的快捷鍵、清晰明顯的數(shù)據(jù)展示,進(jìn)行快速的標(biāo)注。
當(dāng)模型標(biāo)注達(dá)到收斂時(shí),可以一鍵點(diǎn)擊模型訓(xùn)練,后臺(tái)會(huì)自動(dòng)訓(xùn)練模型并且發(fā)布上線。
互聯(lián)網(wǎng)信息爆炸的狀況讓快速、便捷的信息呈現(xiàn)顯得愈發(fā)重要,而這一點(diǎn)有賴于智能機(jī)器算法的不斷升級(jí)。作為人工智能領(lǐng)域的探索者,DataStory對(duì)算法不斷開發(fā)和迭代,目前已經(jīng)完成大部分算法自動(dòng)化訓(xùn)練部署。配合智能化的標(biāo)注,DataStory最終將實(shí)現(xiàn)算法全鏈條的打通,讓數(shù)據(jù)學(xué)會(huì)思考,助力人工智能技術(shù)在不同商業(yè)場(chǎng)景下的應(yīng)用實(shí)踐。
評(píng)論
評(píng)論
推薦評(píng)論
暫無評(píng)論哦,快來評(píng)論一下吧!
全部評(píng)論(0條)