智慧應用 影音
財團法人工業技術研究院
台灣微軟股份有限公司

資料自動轉換成知識 微軟團隊用機器學習辦到了

微軟Alexandria團隊利用機器學習技術組織企業資訊,可縮短資料查找時間並提高生產力。法新社

微軟(Microsoft)在2014年啟動Project Alexandria,致力發掘資訊的主題及相關屬性。這項計畫建立於劍橋研究院的的知識採礦,目標是使用機率規劃(probabilistic programming)自動從文件中建構一個完整的知識庫。

根據VentureBeat報導,微軟近期發布的Viva Topics便是利用Alexandria將資訊組織成主題,透過自動識別、處理和整理內容,並以情境感知卡片顯示所擷取的計畫、事件、組織的相關人士、內容、縮寫詞、定義和對話元資料,讓員工可以輕鬆找到資訊並有效運用知識。

企業擁有的資訊查找起來可能很困難,許多研究顯示這種低效率會影響生產力。Alexandria透過主題挖掘和主題連接的方式解決這個問題。主題挖掘是發現文件中的主題,並隨著文件更改維護這些主題。主題連接則是將各種來源的知識整合到一個統一的知識庫中。

Alexandra是透過機率規劃的機器學習方法來完成主題挖掘和連接這兩項任務。機率規劃是使用一種特殊程式描述文件中提及的主題及其屬性的流程。優點是該機率規劃本身含有關於任務的資訊,而非標記資料,因此整個流程可以在非監督的情況下執行,不需人工介入就可自動執行這些任務。

為縮小需要處理的資訊範圍,Alexandria會先執行一個查詢引擎,從高機率含有知識的文件中擷取片段。然後進行語法分析,在此流程中,Alexandria會執行非監督式學習,從結構化和非結構化的文字中建立樣本,透過樣本與文字的匹配,識別文字片段的哪些部分與某些屬性值相對應。

下一步則是連接,找出重複或重疊的單元,並使用分群流程將其合併。Alexandria通常會合併數百甚至數千個項目以建立條目及所擷取單元的詳細描述。

Alexandria的機率程式還可以幫助解決人為錯誤,例如錯置了計畫所有者的文件。連接程序可以分析來自其他來源的知識,即使這些知識並非挖角自文件內容。這些資訊都會連接在一起以提供一個統一的知識庫。

Alexandria團隊的短期目標是建立一個可以根據每個組織需求訂製的機制。除此之外,團隊還希望開發一個知識庫,透過對使用者目標的理解,自動提供相關資訊來協助達成目標,從被動地記錄知識切換為主動支援完成工作。


  •     按讚加入DIGITIMES智慧應用粉絲團
更多關鍵字報導: 微軟 機器學習