佳木斯湛栽影视文化发展公司

主頁 > 知識(shí)庫 > Python預(yù)測分詞的實(shí)現(xiàn)

Python預(yù)測分詞的實(shí)現(xiàn)

熱門標(biāo)簽:服務(wù)器配置 美圖手機(jī) 呼叫中心市場需求 銀行業(yè)務(wù) 智能手機(jī) 鐵路電話系統(tǒng) 檢查注冊(cè)表項(xiàng) 網(wǎng)站文章發(fā)布

前言

在機(jī)器學(xué)習(xí)中,我們有了訓(xùn)練集的話,就開始預(yù)測。預(yù)測是指利用模型對(duì)句子進(jìn)行推斷的過程。在中文分詞任務(wù)中也就是利用模型推斷分詞序列,同時(shí)也叫解碼。

在HanLP庫中,二元語法的解碼由ViterbiSegment分詞器提供。本篇將詳細(xì)介紹ViterbiSegment的使用方式

加載模型

在前篇博文中,我們已經(jīng)得到了訓(xùn)練的一元,二元語法模型。后續(xù)的處理肯定會(huì)基于這幾個(gè)文件來處理。所以,我們首先要做的就是加載這些模型到程序中:

if __name__ == "__main__":
    MODEL_PATH = "123"
    HanLP.Config.CoreDictionaryPath = MODEL_PATH + ".txt"
    HanLP.Config.BiGramDictionaryPath = MODEL_PATH + ".ngram.txt"
    CoreDictionary = SafeJClass("com.hankcs.hanlp.dictionary.CoreDictionary")
    CoreBiGramTableDictionary = SafeJClass('com.hankcs.hanlp.dictionary.CoreBiGramTableDictionary')
    print(CoreDictionary.getTermFrequency("秦機(jī)"))
    print(CoreBiGramTableDictionary.getBiFrequency("秦機(jī)","的"))

運(yùn)行之后,效果如下:

這里我們使用CoreDictionary.getTermFrequency()方法獲取”秦機(jī)“的頻次。使用CoreBiGramTableDictionary.getBiFrequency()方法獲取“秦機(jī) 的”的二元語法頻次。

構(gòu)建詞網(wǎng)

在前文中我們介紹了符號(hào)“末##末“,代表句子結(jié)尾,”始##始“代表句子開頭。而詞網(wǎng)指的是句子中所有一元語法構(gòu)成的網(wǎng)狀結(jié)構(gòu)。比如MSR詞典中的“秦機(jī)和科技”這個(gè)句子,是給定的一元詞典。我們將句子中所有單詞找出來。得到如下詞網(wǎng):

[始##始]
[秦機(jī)]
[]
[和,和科]
[科技]
[技]
[末##末]

對(duì)應(yīng)的此圖如下所示:

當(dāng)然,這里博主只是舉例說明詞網(wǎng)的概念,“和科”并不是一個(gè)單詞。

下面,我們來通過方法構(gòu)建詞網(wǎng)。具體代碼如下:

def build_wordnet(sent, trie):
    JString = JClass('java.lang.String')
    Vertex = JClass('com.hankcs.hanlp.seg.common.Vertex')
    WordNet = JClass('com.hankcs.hanlp.seg.common.WordNet')
    searcher = trie.getSearcher(JString(sent), 0)
    wordnet = WordNet(sent)
    while searcher.next():
        wordnet.add(searcher.begin + 1,
                    Vertex(sent[searcher.begin:searcher.begin + searcher.length], searcher.value, searcher.index))
    # 原子分詞,保證圖連通
    vertexes = wordnet.getVertexes()
    i = 0
    while i  len(vertexes):
        if len(vertexes[i]) == 0:  # 空白行
            j = i + 1
            for j in range(i + 1, len(vertexes) - 1):  # 尋找第一個(gè)非空行 j
                if len(vertexes[j]):
                    break
            wordnet.add(i, Vertex.newPunctuationInstance(sent[i - 1: j - 1]))  # 填充[i, j)之間的空白行
            i = j
        else:
            i += len(vertexes[i][-1].realWord)

    return wordnet


if __name__ == "__main__":
    MODEL_PATH = "123"
    HanLP.Config.CoreDictionaryPath = MODEL_PATH + ".txt"
    HanLP.Config.BiGramDictionaryPath = MODEL_PATH + ".ngram.txt"
    CoreDictionary = SafeJClass("com.hankcs.hanlp.dictionary.CoreDictionary")
    CoreBiGramTableDictionary = SafeJClass('com.hankcs.hanlp.dictionary.CoreBiGramTableDictionary')
    print(build_wordnet("秦機(jī)和科技", CoreDictionary.trie))

運(yùn)行之后,我們會(huì)得到與上圖歸納差不多的內(nèi)容:

維特比算法

如果現(xiàn)在我們賦予上述詞圖每條邊以二元語法的概率作為距離,那么如何求解詞圖上的最短路徑就是一個(gè)關(guān)鍵問題。

假設(shè)文本長度為n,則一共有2(n-1次方)種切分方式,因?yàn)槊?個(gè)字符間都有2種選擇:切或者不切,時(shí)間復(fù)雜度就為O(2(n-1次方))。顯然不切實(shí)際,這里我們考慮使用維特比算法。

維特比算法原理:它分為前向和后向兩個(gè)步驟。

  • 前向:由起點(diǎn)出發(fā)從前往后遍歷節(jié)點(diǎn),更新從起點(diǎn)到該節(jié)點(diǎn)的最下花費(fèi)以及前驅(qū)指針
  • 后向:由終點(diǎn)出發(fā)從后往前回溯前驅(qū)指針,取得最短路徑

維特比算法用python代碼的實(shí)現(xiàn)如下:

def viterbi(wordnet):
    nodes = wordnet.getVertexes()
    # 前向遍歷
    for i in range(0, len(nodes) - 1):
        for node in nodes[i]:
            for to in nodes[i + len(node.realWord)]:
                # 根據(jù)距離公式計(jì)算節(jié)點(diǎn)距離,并維護(hù)最短路徑上的前驅(qū)指針from
                to.updateFrom(node)
    # 后向回溯
    # 最短路徑
    path = []
    # 從終點(diǎn)回溯
    f = nodes[len(nodes) - 1].getFirst()
    while f:
        path.insert(0, f)
        # 按前驅(qū)指針from回溯
        f = f.getFrom()
    return [v.realWord for v in path]

實(shí)戰(zhàn)

現(xiàn)在我們來做個(gè)測試,我們?cè)趍sr_test_gold.utf8上訓(xùn)練模型,為秦機(jī)和科技常見詞圖,最后運(yùn)行維特比算法。詳細(xì)代碼如下所示:

if __name__ == "__main__":
    MODEL_PATH = "123"
    corpus_path = r"E:\ProgramData\Anaconda3\Lib\site-packages\pyhanlp\static\data\test\icwb2-data\gold\msr_test_gold.utf8"
    train_model(corpus_path, MODEL_PATH)
    HanLP.Config.CoreDictionaryPath = MODEL_PATH + ".txt"
    HanLP.Config.BiGramDictionaryPath = MODEL_PATH + ".ngram.txt"
    CoreDictionary = SafeJClass("com.hankcs.hanlp.dictionary.CoreDictionary")
    CoreBiGramTableDictionary = SafeJClass('com.hankcs.hanlp.dictionary.CoreBiGramTableDictionary')
    ViterbiSegment = JClass('com.hankcs.hanlp.seg.Viterbi.ViterbiSegment')
    MODEL_PATH = "123"
    HanLP.Config.CoreDictionaryPath = MODEL_PATH + ".txt"
    HanLP.Config.BiGramDictionaryPath = MODEL_PATH + ".ngram.txt"
    sent = "秦機(jī)和科技"
    wordnet = build_wordnet(sent, CoreDictionary.trie)
    print(viterbi(wordnet))

有的人可能有疑問,因?yàn)槎P屠铮旧砭痛嬖谇貦C(jī) 和
科技這個(gè)樣本。這么做不是多此一舉嗎?那好,我們替換sent的文本內(nèi)容為“北京和廣州”,這個(gè)樣本可不在模型中。運(yùn)行之后,效果如下:

我們發(fā)現(xiàn)依然能正確的分詞為[北京 和 廣州],這就是二元語法模型的泛化能力。至此我們走通了語料標(biāo)注,訓(xùn)練模型,預(yù)測分詞結(jié)果的完整步驟。

到此這篇關(guān)于Python預(yù)測分詞的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Python預(yù)測分詞內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python jieba分詞并統(tǒng)計(jì)詞頻后輸出結(jié)果到Excel和txt文檔方法
  • Python基于jieba庫進(jìn)行簡單分詞及詞云功能實(shí)現(xiàn)方法
  • python中文分詞庫jieba使用方法詳解
  • python中文分詞,使用結(jié)巴分詞對(duì)python進(jìn)行分詞(實(shí)例講解)
  • python實(shí)現(xiàn)中文分詞FMM算法實(shí)例
  • Python中文分詞庫jieba,pkusegwg性能準(zhǔn)確度比較
  • python實(shí)現(xiàn)機(jī)械分詞之逆向最大匹配算法代碼示例

標(biāo)簽:滄州 樂山 上海 長治 河南 新疆 紅河 沈陽

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Python預(yù)測分詞的實(shí)現(xiàn)》,本文關(guān)鍵詞  ;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 收縮
    • 微信客服
    • 微信二維碼
    • 電話咨詢

    • 400-1100-266
    偏关县| 神池县| 奉节县| 曲周县| 邯郸县| 昌吉市| 深泽县| 县级市| 滦平县| 平武县| 盐亭县| 二连浩特市| 麦盖提县| 平果县| 台北市| 津市市| 通河县| 杨浦区| 铜鼓县| 白河县| 阳高县| 淅川县| 彭州市| 钟祥市| 平罗县| 仙居县| 台东市| 宜兰县| 天全县| 石河子市| 康定县| 饶河县| 裕民县| 新乡县| 突泉县| 西畴县| 双牌县| 新密市| 申扎县| 扶风县| 托克托县|