<i id="yupd0"></i>
  • <i id="yupd0"></i>
  • <thead id="yupd0"></thead>
    <blockquote id="yupd0"></blockquote>
    <i id="yupd0"></i>
  • 碼迷,www.greeshyz.com
    首頁 > 其他好文 > 詳細

    NLP——天池新聞文本分類 Task1

    時間:2020-07-21 23:13:12      閱讀:45      評論:0      收藏:0      [點我收藏+]

    標簽:mit   python語句   解壓   矩陣   regress   label   模型   選擇   nts   

    NLP——新聞文本處理:TASK1 賽題理解與nlp初識

    1.數據讀取

    在競賽主頁下載好數據集利用pandas打開:

    #coding=utf-8
    import pandas as pd
    #my_font = font_manager.FontProperties(fname="C:\Windows\Fonts\msyh.ttc")
    
    #設置顯示范圍
    pd.set_option(‘display.max_columns‘, 1000)
    pd.set_option(‘display.width‘, 1000)
    pd.set_option(‘display.max_colwidth‘, 1000)
    
    csvframe = pd.read_csv(‘data_list_0715.csv‘,encoding=‘gbk‘,header=0)
    print(csvframe)
    

    注:在數據集命名時盡量不要使用n為開頭字母,會導致python語句識別錯誤.

    讀取完成后可看到給出的三個數據集的鏈接:

    0         train_set.csv.zip    訓練集數據(選手需要自行解壓)  236.11MB         https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip
    1            test_a.csv.zip  測試集A榜數據(選手需要自行解壓)   59.12MB            https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip
    2  test_a_sample_submit.csv          測試集A榜提交樣例   97.66KB  https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv
    

    下載后即可得到題目所給數據集,分別為訓練集,測試集與樣例。
    以下是部分數據集:

    0       2\t2967 6758 339 2021 1854 3731 4109 3792 4149...
    1       11\t4464 486 6352 5619 2465 4802 1452 3137 577...
    2       3\t7346 4068 5074 3747 5681 6093 1777 2226 735...
    3       2\t7159 948 4866 2109 5520 2490 211 3956 5520 ...
    4       3\t3646 3055 3055 2490 4659 6065 3370 5814 246...
    

    2.評價標準:F1-score

    多分類問題的機器學習競賽常常將F1-score作為最終的測評方法。

    公式表達

    \[F_{1}=2 \cdot \frac{\text {precision} \cdot \text {recall}}{\text {precision}+\text {recall}} \]

    其中P(Precision)為精確率,R(recall)為召回率。F1-score認為精確率與召回率同等重要。另外還有其他類似的評價標準:

    \[F_{\beta}=\left(1+\beta^{2}\right) \cdot \frac{\text { precision } \cdot \text { recall }}{\left(\beta^{2} \cdot \text { precision }\right)+\text { recall }} \]


    ### 計算過程 下面介紹幾個符號: TP:預測答案正確; FP:將其他類標簽錯誤預測為本類別 FN:將本類別標簽錯誤預測為其他類別 則P表示被分類器判定為正例中,正樣本的比重: $$\text {precision}_{k}=\frac{T P}{T P+F P}$$ R表示被預測為正例的樣本占總正例的比重: $$\text { recall}_{k}=\frac{T P}{T P+F N}$$ 再計算每一類別的f1值: $$f 1_{k}=\frac{2 \cdot \text { precision }_{k} \cdot \text { recall }_{k}}{\text { precision }_{k}+\text { recall }_{k}}$$ 最終將結果進行加權就可得到f1-score: $$\text {score}=\left(\frac{1}{n} \sum f 1_{k}\right)^{2}$$ ### 代碼實現 可利用sklearn包進行F1-score的計算,具體代碼如下:
    #coding=utf-8
    from sklearn.metrics import f1_score
    #分類器預測得到的類別
    y_pred = [0, 1, 1, 1, 2, 2]
    #目標的真實類別
    y_true = [0, 1, 0, 2, 1, 1]
    
    print(f1_score(y_true, y_pred, average=‘macro‘))#如果不考慮類別的不平衡性,計算宏平均,則使用‘macro’
    print(f1_score(y_true, y_pred, average=‘weighted‘))#考慮類別的不平衡性,需要計算類別的加權平均 
    

    得到結果:

    0.3333333333333333
    0.38888888888888884
    

    3.解題思路

    TF-IDF+機器學習分類器

    特征提取包括特征選擇與特征權重運算,其中,特征選擇是,根據某個評價指標獨立地對原始特征項(詞項)進行評分排序,從中選擇得分最高的一些特征項(詞項)進行評分排序,從中選擇得分最高的一些特征項,過濾掉其余特征項。
    TF-IDF主要用于特征權重計算,它表示一個詞的重要度與在類別內的詞頻成正比,與所有類別出現的次數成反比。

    \[t f_{i j}=\frac{n_{i, j}}{\sum_{k} n_{k, j}} \]

    \[T F_{w}=\frac{\text { 在某一類中詞條中 } w \text { 出現的次數 }}{\text { 該類中所有的詞條數目 }} \]

    \[i d f_{i}=\log \frac{|D|}{\left|\left\{j: t_{i} \in d_{j}\right\}\right|} \]

    \[I D F=\log \left(\frac{\text { 語料庫的文檔總教 }}{\text { 包含詞條 } w \text { 的文檔教 }+1}\right) \]

    代碼實現:

    from sklearn.feature_extraction.text import CountVectorizer
    from sklearn.feature_extraction.text import TfidfTransformer
    
    x_train = [‘TF-IDF 主要 思想 是‘, ‘算法 一個 重要 特點 可以 脫離 語料庫 背景‘,
               ‘如果 一個 網頁 被 很多 其他 網頁 鏈接 說明 網頁 重要‘]
    x_test = [‘原始 文本 進行 標記‘, ‘主要 思想‘]
    
    # 該類會將文本中的詞語轉換為詞頻矩陣,矩陣元素a[i][j] 表示j詞在i類文本下的詞頻
    vectorizer = CountVectorizer(max_features=10)
    # 該類會統計每個詞語的tf-idf權值
    tf_idf_transformer = TfidfTransformer()
    # 將文本轉為詞頻矩陣并計算tf-idf
    tf_idf = tf_idf_transformer.fit_transform(vectorizer.fit_transform(x_train))
    # 將tf-idf矩陣抽取出來,元素a[i][j]表示j詞在i類文本中的tf-idf權重
    x_train_weight = tf_idf.toarray()
    
    # 對測試集進行tf-idf權重計算
    tf_idf = tf_idf_transformer.transform(vectorizer.transform(x_test))
    x_test_weight = tf_idf.toarray()  # 測試集TF-IDF權重矩陣
    
    print(‘輸出x_train文本向量:‘)
    print(x_train_weight)
    print(‘輸出x_test文本向量:‘)
    print(x_test_weight)
    

    可得到結果:

    [[0.70710678 0.         0.70710678 0.         0.         0.
      0.         0.         0.         0.        ]
     [0.         0.3349067  0.         0.44036207 0.         0.44036207
      0.44036207 0.44036207 0.         0.3349067 ]
     [0.         0.22769009 0.         0.         0.89815533 0.
      0.         0.         0.29938511 0.22769009]]
    輸出x_test文本向量:
    [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
     [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]]
    

    FastText文本分類器

    FastText是Facebook AI Research在16年開源的一種文本分類器。 其特點就是fast。相對于其它文本分類模型,如SVM,Logistic Regression等模型,fastText能夠在保持分類效果的同時,大大縮短了訓練時間。

    NLP——天池新聞文本分類 Task1

    標簽:mit   python語句   解壓   矩陣   regress   label   模型   選擇   nts   

    原文地址:https://www.cnblogs.com/dingdingdongs/p/13357066.html

    (0)
    (0)
       
    舉報
    評論 一句話評論(0
    登錄后才能評論!
    迷上了代碼!
    91色国产论坛,久草99福利资源,青青草在线华人,99热在线视频观看免费,青青草a片免费看,青青草av视频导航,香蕉网站伊人大香蕉 青青碰人青青草免费 国产自拍偷拍在线播放 青青草华人在线av 伊人影院在线大香 无码大香蕉网伊人色 久久大香蕉视频网 青草精品资源在线 伊人大香蕉在线精品 97资源总站久久爱视频 自拍中文字幕 青青草手机在线视频 青青草久久爱大香蕉 国产青青草自拍 伊人大香蕉在线精品 97资源总站久久爱视频 自拍中文字幕 av图片在线看 久草视频福利免费资源站 自拍国产视频在线 www.琪琪色 爱色影爱色搞搞 97资源库 大香萑a久草视频 久草在线福利资站 青青草成人在线免费视频 久久精品国can视频在热 99热国产情侣偷拍 国产自拍 在线 凹凸分类视频97免费 av啪啪中文网站 青青草91自拍视频 奇米影视第四色 国产无限制自拍 大香蕉伊人精品在线 久久手机看片国产免费 无码大香蕉网伊人色 亚洲激情色 久草99福利资源 狼人色终合网站 91色国产色去色 2019奇米777奇米网 久久草妹妹色 米奇影院888奇米色 青青青草成人免费现看 超碰自拍 在线99热这里精品 色琪琪永久无码 伊人大香蕉成人视频综合 国产自拍视频在线 大香蕉伊人久操在线 青青草久草热久久草 偷拍自拍第四色 奇米网电影网 超碰99久久天天拍日日操 天天拍天天拍久草片 激情图片,激情小说 超碰碰av大香蕉伊人 久草97大香蕉伊人 美女伊人色情香蕉网站 青青草华人免费视频在线 大香蕉伊人久草视频 奇米网在线手机在线 青草七次郞视频观看 青青草公开在线观看 狠狠夜夜干大香蕉伊人 777奇米网 日逼视频网站 欧美人和动物XXX 大香蕉色 欧美 国产 奇米影院首页 大香蕉伊人久久爱在线 青青青草免费手机播放 国产青青草 欧美一级黑寡妇夜夜干 啪啪 国产精品 东方aⅴ在线看 手机看A片 777米奇色狠狠俺去啦 香蕉网站伊人中文字幕 久操在线新免费视频 伊人影院在线大香 大香蕉成人伊人在线视频 青青草成人在线视频观看 91国产自拍偷拍视频 青青草色爱久久 精品国产自拍 小色狗 琪琪热热色无码 影音先锋大香蕉久草资源 小明视频看看成人免费 俺去了色网婷婷色 久久色情片 超碰在线青青草 超碰视频起碰视频 国产偷拍自拍影音先锋 小明视频看看成人免费 俺去了色网婷婷色 久久色情片 超碰在线青青草 超碰视频起碰视频 国产偷拍自拍影音先锋 老鸭窝在线视频 www.奇米在线四色 老版本日本怡春院 强奸乱伦在线观看 青青草在观视频 色琪琪在线视频原网 欧美色色大香焦 欧美色热图 亚洲香蕉手机在线观看视频 偷拍偷窥自拍网站 超91在线观看 最新奇米奇色777在线 婷婷网站 微拍秒拍福利视频 自拍在线 精品视频 欧美情色无码在线 久草激情视频 午夜高清影院在线观看 第四色青娱乐奇米影视 青青草在线综合 99热这里有精品 自拍偷拍影音先锋 国产自拍 先锋影音 成人在线视频97 久草在线免费观看大香蕉 99er久久国产精品在线 精品国产在线偷拍 啪啪青青草视频 国内偷拍 亚洲 大香蕉成人手机在线 在线伊人大香蕉手机版 久草伊人久草视频 伊人久久青青草综合网 青青草手机在线视频 青青草久久爱大香蕉 国产青青草自拍 伊人大香蕉在线精品 97资源总站久久爱视频 自拍中文字幕 av图片在线看 久草视频福利免费资源站 自拍国产视频在线 www.琪琪色 爱色影爱色搞搞 97资源库 大香蕉在线视频免费观看 a片直播妹子在线视频 a.v在线视频 开心五月色婷婷免费 香蕉福利视频在线观 青青草成人+激情偷拍 青青草视频大香蕉伊人网 av啪啪中文网站 青青草91自拍视频 奇米影视第四色 国产无限制自拍 大香蕉伊人精品在线 久久手机看片国产免费 无码大香蕉网伊人色 亚洲激情色 久草99福利资源 狼人色终合网站 91色国产色去色 2019奇米777奇米网 久久草妹妹色 米奇影院888奇米色 青青青草成人免费现看 超碰自拍 在线99热这里精品 色琪琪永久无码 伊人大香蕉成人视频综合 国产自拍视频在线 大香蕉伊人久操在线 青青草久草热久久草 偷拍自拍第四色 奇米网电影网 超碰99久久天天拍日日操 天天拍天天拍久草片 激情图片,激情小说 青青草久草热久久草 偷拍自拍第四色 奇米网电影网 超碰99久久天天拍日日操 天天拍天天拍久草片 操好屌色 米奇先锋 久草 偷拍 亚洲,偷拍,自拍,精品 伊人大香蕉综合色 大香蕉久久久 成人色啪啪 大香蕉色看片 欧美自拍在线 久久色综合网站xoxo 久热草大香蕉在线视频 久久大香蕉视频网 肏逼免费视频在线 网友自拍偷拍 欧美 国产 奇米影院首页 大香蕉伊人久久爱在线 青青青草免费手机播放 国产青青草 欧美一级黑寡妇夜夜干 啪啪 国产精品 东方aⅴ在线看 手机看A片 777米奇色狠狠俺去啦 香蕉网站伊人中文字幕 久操在线新免费视频 伊人影院在线大香 大香蕉成人伊人在线视频 青青草成人在线视频观看 91国产自拍偷拍视频 青青草色爱久久 精品国产自拍 小色狗 琪琪热热色无码 影音先锋大香蕉久草资源 小明视频看看成人免费 俺去了色网婷婷色 久久色情片 超碰在线青青草 欧美激情图片 自拍超碰 久草视频在线 天天 综合色伊人网 大香蕉视频成人中文网 大香蕉伊人欧美色 久热在线播放中文字幕 青青草久草福利 欧美色色大香焦 欧美色热图 亚洲香蕉手机在线观看视频 偷拍偷窥自拍网站 超91在线观看 最新奇米奇色777在线 婷婷网站 微拍秒拍福利视频 自拍在线 精品视频 欧美情色无码在线 久草激情视频 午夜高清影院在线观看 第四色青娱乐奇米影视 青青草在线综合 99热这里有精品 自拍偷拍影音先锋 国产自拍 先锋影音 成人在线视频97 久草在线免费观看大香蕉 99er久久国产精品在线
    久久草2019在线观看 99这里有精品 大香蕉免费公开青青草 狠狠色丁香婷婷综合 国产久草福利手机在线 青青草黄色三级网站 大香蕉他也啪 青青草视频大香蕉伊人网 久久爱大香焦在线视频 日本有码视频 成人视屏 国产精品91在线 91国产自拍小视频 伊人狼人香蕉网小说 青青草香蕉草久在线 av青青操 亚洲自拍欧美 91 国产 在线 97超碰资源共享 青青草伊人大香蕉 奇米四色网 国産偷拍91 精品国产在线自拍 伊人大香蕉色琪琪影院 caoprom超碰 青青视频在线视频 开心五月婷婷色婷在线 第四色色 Caoprom超碰视频 亚洲图片欧美图色姐 天天干情色网 操妹妹干妹妹 丁香五月婷婷伊人大香蕉 国产精品自拍偷拍在线 青青青成人社区 成人av在线 碰碰视频在线免费播放 影音先锋 小说色 久久草大香蕉 亚洲情色狼人网 思思久久re热线播放 久久草超碰 播播影院私人影院 大香蕉他也啪 米奇影视 成人国产老鸭窝 伊人大香蕉久久天天啪 男人的天堂 国产精品自偷拍 很很鲁在线97