无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

深度學習文本分類科研小班

2023-07-26 18:02 作者:bili_34604920956  | 我要投稿

一、中文分詞

針對中文文本分類時,很關鍵的一個技術就是中文分詞。特征粒度為詞粒度遠遠好于字粒度,其大部分分類算法不考慮詞序信息,基于字粒度的損失了過多的n-gram信息。下面簡單總結一下中文分詞技術:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法 [1]。

1,基于字符串匹配的分詞方法:
過程:這是一種基于詞典的中文分詞,核心是首先建立統(tǒng)一的詞典表,當需要對一個句子進行分詞時,首先將句子拆分成多個部分,將每一個部分與字典一一對應,如果該詞語在詞典中,分詞成功,否則繼續(xù)拆分匹配直到成功。
核心: 字典,切分規(guī)則和匹配順序是核心。
分析:優(yōu)點是速度快,時間復雜度可以保持在O(n),實現(xiàn)簡單,效果尚可;但對歧義和未登錄詞處理效果不佳。

2,基于理解的分詞方法:基于理解的分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由于漢語語言知識的籠統(tǒng)、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗階段。


深度學習文本分類科研小班的評論 (共 條)

分享到微博請遵守國家法律
兖州市| 三明市| 沅陵县| 毕节市| 建瓯市| 修文县| 贞丰县| 札达县| 咸阳市| 泾源县| 镇坪县| 巩留县| 晋宁县| 澄迈县| 丰顺县| 桓台县| 义马市| 临城县| 呼图壁县| 宜章县| 扎鲁特旗| 松原市| 龙岩市| 阿城市| 沁水县| 策勒县| 久治县| 平舆县| 二连浩特市| 三亚市| 顺义区| 白玉县| 额济纳旗| 合阳县| 福州市| 平湖市| 富源县| 石河子市| 乐陵市| 宁蒗| 台前县|