<th id="5nh9l"></th><strike id="5nh9l"></strike><th id="5nh9l"><noframes id="5nh9l"><th id="5nh9l"></th><strike id="5nh9l"></strike>
<progress id="5nh9l"><noframes id="5nh9l"><th id="5nh9l"><noframes id="5nh9l">
<th id="5nh9l"></th> <strike id="5nh9l"><noframes id="5nh9l"><span id="5nh9l"></span>
<progress id="5nh9l"><noframes id="5nh9l"><span id="5nh9l"><noframes id="5nh9l"><span id="5nh9l"></span><strike id="5nh9l"><noframes id="5nh9l"><strike id="5nh9l"></strike>
<span id="5nh9l"><noframes id="5nh9l">
<span id="5nh9l"><noframes id="5nh9l">
<span id="5nh9l"></span><span id="5nh9l"><video id="5nh9l"></video></span>
<th id="5nh9l"><noframes id="5nh9l"><th id="5nh9l"></th>
<progress id="5nh9l"><noframes id="5nh9l">
  • 《工程索引》(EI)刊源期刊
  • 中文核心期刊
  • 中國科技論文統計源期刊
  • 中國科學引文數據庫來源期刊

留言板

尊敬的讀者、作者、審稿人, 關于本刊的投稿、審稿、編輯和出版的任何問題, 您可以本頁添加留言。我們將盡快給您答復。謝謝您的支持!

姓名
郵箱
手機號碼
標題
留言內容
驗證碼

基于文本語料的涉恐事件實體屬性抽取

曹文斌 武卓峰 楊濤 凡友榮

曹文斌, 武卓峰, 楊濤, 凡友榮. 基于文本語料的涉恐事件實體屬性抽取[J]. 工程科學學報, 2020, 42(4): 500-508. doi: 10.13374/j.issn2095-9389.2019.09.13.003
引用本文: 曹文斌, 武卓峰, 楊濤, 凡友榮. 基于文本語料的涉恐事件實體屬性抽取[J]. 工程科學學報, 2020, 42(4): 500-508. doi: 10.13374/j.issn2095-9389.2019.09.13.003
CAO Wen-bin, WU Zhuo-feng, YANG Tao, FAN You-rong. Entity and attribute extraction of terrorism event based on text corpus[J]. Chinese Journal of Engineering, 2020, 42(4): 500-508. doi: 10.13374/j.issn2095-9389.2019.09.13.003
Citation: CAO Wen-bin, WU Zhuo-feng, YANG Tao, FAN You-rong. Entity and attribute extraction of terrorism event based on text corpus[J]. Chinese Journal of Engineering, 2020, 42(4): 500-508. doi: 10.13374/j.issn2095-9389.2019.09.13.003

基于文本語料的涉恐事件實體屬性抽取

doi: 10.13374/j.issn2095-9389.2019.09.13.003
基金項目: 國家重點研發計劃資助項目(2018YFC0830401,2018YFC0806903);公安部第三研究所2019年基本科研業務費專項資金資助項目(C19354)
詳細信息
    通訊作者:

    E-mail: 490838330@qq.com

  • 中圖分類號: TP301.6

Entity and attribute extraction of terrorism event based on text corpus

More Information
  • 摘要: 基于語義角色分析,提出了一種三元組涉恐事件實體屬性抽取方法,為網絡空間涉恐活動的監測及預警提供技術支持。首先,基于西北政法大學“反恐怖主義信息網”文本語料數據進行數據采集和清洗等預處理工作,采用樸素貝葉斯文本分類算法識別涉恐事件文本,并采用關鍵詞提取算法TF-IDF(Term frequency-inverse document frequency,詞頻-逆文檔頻率)構建涉恐專有詞庫,結合自然語言處理技術構建帶詞性的涉恐專有詞庫。然后通過語義角色分析、句法依存分析,提取了主語謂語賓語關系、定語后置動賓關系、人名//地名//機構和介賓關系主謂動補4類涉恐三元組結構。最后,利用正則表達式及帶詞性的涉恐專有名詞分析,在4類三元組短文本中提取出恐怖事件發生時間、發生地點、傷亡情況、攻擊方式、武器類型和恐怖組織6類實體屬性。對采集的4221篇文章數據進行實驗分析,6類實體屬性抽取的測評結果F1值均超過80%,對網絡空間的涉恐事件監測及預警,維護社會公共安全具有重要現實意義。

     

  • 圖  1  技術路線

    Figure  1.  Technical route

    圖  2  依存句法分析

    Figure  2.  Dependency parsing analysis

    圖  3  事件實體屬性抽取示例

    Figure  3.  Event entity attribute extraction example

    表  1  語義角色分析實例

    Table  1.   Semantic role analysis example

    Techniques012345678
    WS阿富汗首都爆炸襲擊造成至少4死亡
    POSnsnvvvdmnv
    DP2:ATT4:ATT4:ATT5:SBV0:HED8:ATT8:ATT9:SBV5:VOB
    SRL4 A0:(0,3)A1:(5,8)
    8 A1:(5,7)
    下載: 導出CSV

    表  2  訓練測試數據概覽

    Table  2.   Training test data overview

    AreaUS and EuropeAsia-PacificMiddle EastCentral and South AsiaWest Asia and Africa
    Number of texts in corpus14110351311169317810251
    下載: 導出CSV

    表  3  事件發生基準時間樣例

    Table  3.   Sample time base for event occurrence

    TypeSample
    Post time“作者:來源:新華社 發布時間:2019年02月14日 點擊數:1”;
    Report time“新華社內羅畢2月13日$ {\simfont\text{電}}\cdots\cdots $司令部13日下午證${\simfont\text{實}}\cdots\cdots $
    美軍11日${\simfont\text{在}}\cdots\cdots $”
    下載: 導出CSV

    表  4  主語謂語賓語關系三元組提取示例

    Table  4.   Example of subject predicate object relation triplet extraction

    No.SentenceTriples
    1巴基斯坦卡拉奇南部發生一起恐怖襲擊巴基斯坦卡拉奇南部,發生,一起恐怖襲擊
    2美國駐塔吉克斯坦領事館遭多名武裝分子襲擊美國駐塔吉克斯坦領事館,遭,襲擊
    3也門胡塞武裝分子當天凌晨向沙特吉贊省發射炮彈也門胡塞武裝分子,發射,炮彈
    4巴加索拉鎮一個市場當天遭極端組織“博科圣地”爆炸襲擊巴加索拉鎮一個市場,遭,極端組織博科圣地
    5北約車隊當天在阿東部遭遇自殺式爆炸襲擊北約車隊,遭遇,自殺式爆炸
    6埃及西奈半島北部城市阿里什一酒店24日遭自殺式炸彈襲擊埃及西奈半島北部城市阿里什一酒店,遭,自殺式炸彈襲擊
    7塔利班6日晚在阿富汗西部巴德吉斯省再次發動襲擊塔利班,發動,襲擊
    8也門南部一警察基地15日發生自殺式恐怖襲擊事件也門南部一警察基地,發生,自殺式恐怖襲擊事件
    9兩名女性自殺式襲擊者客在尼日利亞東北部一處擁擠的巿集引爆炸彈兩名女性自殺式襲擊者客,引爆,炸彈
    10黎巴嫩首都貝魯特南郊的一處繁華區域發生自殺式炸彈襲擊黎巴嫩首都貝魯特南郊一處繁華區域,發生,自殺式炸彈襲擊
    下載: 導出CSV

    表  5  定語后置動賓關系三元組提取示例

    Table  5.   Example of attributive post-action binary triad extraction

    No.SentenceTriples
    1靠近土耳其邊境的一個難民營進行了空襲一個難民營,靠近,土耳其邊境
    2位于埃及北部城市坦塔的一所教堂9日發生爆炸一所教堂,位于,埃及北部城市坦塔
    3恐怖分子在敘利亞古城阿勒頗發射了裝有有毒物質的炸彈炸彈,裝有,有毒物質
    4來自浙江的游客陳云華在泰國警察總醫院里見到新華社記者時仍驚魂未定游客,來自,浙江
    5警方稱此次事件為“嚴重的恐怖主義”事件事件,為,嚴重恐怖主義
    6德國北部城市呂貝克一輛公交車上發生持刀行兇案件行兇案件,持,刀
    7自2015年11月來自比利時布魯塞爾莫倫貝克區的恐怖分子在法國巴黎制造血腥恐襲恐怖分子,來自,比利時布魯塞爾莫倫貝克區
    8在馬里東北部遭遇“伊斯蘭支持者”組織的埋伏埋伏,遭遇,伊斯蘭支持者組織
    9襲擊目標是駐阿外國軍隊車輛外國軍隊車輛,駐,阿
    10造成包括6名美軍士兵在內的13人喪生13人,包括,6名美軍士兵
    下載: 導出CSV

    表  6  人名//地名//機構三元組提取示例

    Table  6.   Name / / place name / / organization triplet extraction example

    No.SentenceTriples
    1伊北部薩拉赫丁省首府提克里特市一街區4日晚遭武裝分子襲擊薩拉赫丁省,首府,提克里特市
    2伊拉克首都巴格達24日發生一起自殺式爆炸襲擊事件伊拉克,首都,巴格達
    3伊中部費盧杰市17日晚發生自殺式爆炸襲擊伊,中部費,盧杰市
    4敘利亞城市哈德爾發生自殺式爆炸襲擊敘利亞,城市,哈德爾
    5敘利亞沿海城市塔爾圖斯和杰卜萊23日遭到多起爆炸襲擊敘利亞,沿海城市,塔爾圖斯
    6喀布爾機場附近在阿富汗副總統杜斯塔姆抵達后不久發生爆炸阿富汗,副總統,杜斯塔姆
    7聯合國秘書長潘基文發表聲明嚴辭譴責聯合國,秘書長,潘基文
    8尼日利亞國家緊急事務管理局官員薩托米·艾哈邁德10日對媒體說尼日利亞國家緊急事務管理局,官員,薩托米·艾哈邁德
    9土耳其舍爾納克省國會議員費薩爾·薩雷伊德斯發表聲明稱土耳其舍爾納克省國會,議員,費薩爾·薩雷伊德斯
    10俾路支省內政部長薩爾夫拉茲·布格蒂告訴記者俾路支省,內政部長,薩爾夫拉茲·布格蒂
    下載: 導出CSV

    表  7  介賓關系主謂動補三元組提取示例

    Table  7.   Example of the introduction of the mediation of the mediators

    No.SentenceTriples
    1目前爆炸死亡人數已經由45人升至52人爆炸人數,升至,52人
    2爆炸發生在巴格達西部一個什葉派聚居區爆炸,發生在,巴格達西部一個什葉派聚居區
    3這些伊拉克戰斗人員死于IS的襲擊這些伊拉克戰斗人員,死于,IS
    4總部設在英國倫敦的敘利亞人權觀察組織8月1日晚發布聲明稱總部,設在,英國倫敦
    5在俄羅斯和敘利亞的官員證實停火已擴大到阿勒頗市僅幾小時后停火,擴大到,阿勒頗市
    6從敘利亞境內極端組織“伊斯蘭國”控制地區發射的5枚火箭彈
    當天上午落在基利斯市
    組織伊斯蘭國控制地區發射5枚火箭彈,
    落在,基利斯市
    7爆炸發生于該醫院急診部的入口處爆炸,發生于,該醫院急診部入口處
    8對峙持續至當地時間29號早晨對峙,持續至,當地時間29號早晨
    9莫斯科就發生一起汽車撞向行人的事故汽車,撞向,行人
    10兩起襲擊,發生在,極北大區靠近尼日利亞邊境科拉瓦鎮兩起襲擊,發生在,極北大區靠近尼日利亞邊境科拉瓦鎮
    下載: 導出CSV

    表  8  實體屬性抽取評測結果

    Table  8.   Entityraction evaluation result %

    Entity attribute Precision Recall F1
    Occurrence time 100 93.3 96.5
    Occurrence location 86.3 89.5 87.9
    Attack method 84.3 84.9 84.6
    Weapon type 81.2 81.3 81.4
    Terrorist organization 79.7 82.8 81.2
    Casualties 100 91.2 95.4
    下載: 導出CSV
    <th id="5nh9l"></th><strike id="5nh9l"></strike><th id="5nh9l"><noframes id="5nh9l"><th id="5nh9l"></th><strike id="5nh9l"></strike>
    <progress id="5nh9l"><noframes id="5nh9l"><th id="5nh9l"><noframes id="5nh9l">
    <th id="5nh9l"></th> <strike id="5nh9l"><noframes id="5nh9l"><span id="5nh9l"></span>
    <progress id="5nh9l"><noframes id="5nh9l"><span id="5nh9l"><noframes id="5nh9l"><span id="5nh9l"></span><strike id="5nh9l"><noframes id="5nh9l"><strike id="5nh9l"></strike>
    <span id="5nh9l"><noframes id="5nh9l">
    <span id="5nh9l"><noframes id="5nh9l">
    <span id="5nh9l"></span><span id="5nh9l"><video id="5nh9l"></video></span>
    <th id="5nh9l"><noframes id="5nh9l"><th id="5nh9l"></th>
    <progress id="5nh9l"><noframes id="5nh9l">
    259luxu-164
  • [1] Li P F, Zhou G D, Zhu Q M. Semantics-based joint model of Chinese event trigger extraction. J Softw, 2016, 27(2): 280

    李培峰, 周國棟, 朱巧明. 基于語義的中文事件觸發詞抽取聯合模型. 軟件學報, 2016, 27(2):280
    [2] He R F, Duan S Y. Joint Chinese event extraction based multi-task learning. J Softw, 2019, 30(4): 1015

    賀瑞芳, 段紹楊. 基于多任務學習的中文事件抽取聯合模型. 軟件學報, 2019, 30(4):1015
    [3] Tian S W, Zhou X F, Yu L, et al. Causal relation extraction of Uyghur events based on bidirectional long short-term memory model. J Electron Inf Technol, 2018, 40(1): 200 doi: 10.11999/JEIT170402

    田生偉, 周興發, 禹龍, 等. 基于雙向LSTM的維吾爾語事件因果關系抽取. 電子與信息學報, 2018, 40(1):200 doi: 10.11999/JEIT170402
    [4] Zhang S R, Luo C. Event extraction technology by semantic role analysis. J Terahertz Sci Electron Inf Technol, 2017, 15(2): 279 doi: 10.11805/TKYDA201702.0279

    章順瑞, 駱陳. 基于語義角色分析的事件抽取技術. 太赫茲科學與電子信息學報, 2017, 15(2):279 doi: 10.11805/TKYDA201702.0279
    [5] Chen X X, Liu B. Extracting open domain events in microblogs. Comput Appl Softw, 2016, 33(8): 18 doi: 10.3969/j.issn.1000-386x.2016.08.004

    陳簫簫, 劉波. 微博中的開放域事件抽取. 計算機應用與軟件, 2016, 33(8):18 doi: 10.3969/j.issn.1000-386x.2016.08.004
    [6] Qin B, Liu A A, Liu T. Unsupervised Chinese open entity relation extraction. J Comput Res Dev, 2015, 52(5): 1029 doi: 10.7544/issn1000-1239.2015.20131550

    秦兵, 劉安安, 劉挺. 無指導的中文開放式實體關系抽取. 計算機研究與發展, 2015, 52(5):1029 doi: 10.7544/issn1000-1239.2015.20131550
    [7] Hou W T, Ji D H. Research on clinic event recognition based Bi-LSTM. Appl Res Comput, 2018, 35(7): 1974 doi: 10.3969/j.issn.1001-3695.2018.07.011

    侯偉濤, 姬東鴻. 基于Bi-LSTM的醫療事件識別研究. 計算機應用研究, 2018, 35(7):1974 doi: 10.3969/j.issn.1001-3695.2018.07.011
    [8] Li W J, Li T, Xi F. Chinese entity relation extraction based on multi-features self-attention Bi-LSTM. J Chin Inf Process, 2019, 33(10): 47 doi: 10.3969/j.issn.1003-0077.2019.10.006

    李衛疆, 李濤, 漆芳. 基于多特征自注意力BLSTM的中文實體關系抽取. 中文信息學報, 2019, 33(10):47 doi: 10.3969/j.issn.1003-0077.2019.10.006
    [9] Zhang J F. Sentiment analysis of teaching evaluation based on improved naive Bayes algorithm. Mod Comput, 2018(11): 3

    張俊飛. 基于改進樸素貝葉斯算法實現評教評語情感分析. 現代計算機: 中旬刊, 2018(11):3
    [10] Yu T, Wang H Y. Text information extraction based on TF-IDF algorithm. Sci Technol Vision, 2018(16): 117

    于韜, 王洪巖. 基于TF-IDF算法的文本信息提取. 科技視界, 2018(16):117
    [11] Wu Z Q, Huang X J, Wu L D. Question-focused summarization based on semantic relational triple. Comput Eng, 2008, 34(6): 194 doi: 10.3969/j.issn.1000-3428.2008.06.070

    吳中勤, 黃萱菁, 吳立德. 基于語義關系三元組的問答式文摘. 計算機工程, 2008, 34(6):194 doi: 10.3969/j.issn.1000-3428.2008.06.070
    [12] Pu W Y. Research on user-specific theme web crawler technology for private information acquisition. Software dev appl, 2019(1): 33 doi: 10.3969/j.issn.1006-4052.2019.01.010

    蒲文瑩. 面向專用信息獲取的用戶定制主題網絡爬蟲技術探究. 電腦編程技巧與維護, 2019(1):33 doi: 10.3969/j.issn.1006-4052.2019.01.010
    [13] Xiong Y Q, Yan B B. Web crawler technology based on jsoup to crawl information of book web pages. Comput Inf Technol, 2019, 27(4): 61 doi: 10.3969/j.issn.1005-1228.2019.04.018

    熊艷秋, 嚴碧波. 基于jsoup爬取圖書網頁信息的網絡爬蟲技術. 電腦與信息技術, 2019, 27(4):61 doi: 10.3969/j.issn.1005-1228.2019.04.018
    [14] Wang D W, Zhou Z W, Cao H G. Research on sentiment analysis of hotel review text based on PCA-SVM algorithm. Mod Comput, 2019(7): 13

    王大偉, 周志瑋, 曹紅根. 基于PCA-SVM算法的酒店評論文本情感分析研究. 現代計算機, 2019(7):13
    [15] Tang R Z, Duan H C, Sun H T. Research on normalization of SVM training data. J Shandong Normal University Nat Sci, 2016, 31(4): 60

    湯榮志, 段會川, 孫海濤. SVM訓練數據歸一化研究. 山東師范大學學報: 自然科學版, 2016, 31(4):60
    [16] Yang L W. Linguistic features of emergency news headlines: a corpus-driven empirical study. Shidai Wenxue, 2012(6): 132

    楊林偉. 突發事件新聞標題的語言學特點——一項語料庫驅動的實證研究. 時代文學(下半月), 2012(6):132
    [17] Xiong Z B, Zhu J F, Yin C G. Application of regular expressions in the extraction of tourism emergency information. Comput Eng Software, 2015, 36(11): 15 doi: 10.3969/j.issn.1003-6970.2015.11.005

    熊志斌, 朱劍鋒, 尹成國. 正則表達式在旅游突發事件信息抽取中的應用. 軟件, 2015, 36(11):15 doi: 10.3969/j.issn.1003-6970.2015.11.005
    [18] Zheng Z H, Wu W B, Chen X, et al. A traffic sensing and analyzing system using social media data. Acta Automatica Sinica, 2018, 44(4): 656

    鄭治豪, 吳文兵, 陳鑫, 等. 基于社交媒體大數據的交通感知分析系統. 自動化學報, 2018, 44(4):656
    [19] Feng X. Triple-based document representation for text classification. Comput Eng Des, 2019, 40(2): 101

    馮雪. 基于三元組文檔表示的文本分類. 計算機工程與設計, 2019, 40(2):101
    [20] Luo Y L, Zhao C Y. Extracting method of emergency news headline and text from webpages. J Comput Appl, 2014, 34(10): 2865 doi: 10.11772/j.issn.1001-9081.2014.10.2865

    羅永蓮, 趙昌垣. 突發事件新聞標題與正文提取方法. 計算機應用, 2014, 34(10):2865 doi: 10.11772/j.issn.1001-9081.2014.10.2865
    [21] Liu J W, Li H E, Luo X L. Probabilistic graph model representation theory. Comput Sci, 2014, 41(9): 1 doi: 10.11896/j.issn.1002-137X.2014.09.001

    劉建偉, 黎海恩, 羅雄麟. 概率圖模型表示理論. 計算機科學, 2014, 41(9):1 doi: 10.11896/j.issn.1002-137X.2014.09.001
    [22] Qu Q T, Liu Q C, Mu C X. A parallel adaptive news topic tracking algorithm based on N-Gram language model. J Shandong Univ Eng Sci, 2018, 48(6): 37

    屈慶濤, 劉其成, 牟春曉. 基于N-Gram語言模型的并行自適應新聞話題追蹤算法. 山東大學學報: 工學版, 2018, 48(6):37
    [23] Yin C, Wu M. Survey on N-gram model. Comput Syst Appl, 2018, 27(10): 33

    尹陳, 吳敏. N-gram模型綜述. 計算機系統應用, 2018, 27(10):33
    [24] Shi J, Han J, Zhao X K, et al. Research on core word extraction algorithm based on contextual concept. J China Soc Sci Tech Inf, 2019, 38(11): 1177 doi: 10.3772/j.issn.1000-0135.2019.11.006

    石進, 韓進, 趙小柯, 等. 基于語境概念核心詞提取算法研究. 情報學報, 2019, 38(11):1177 doi: 10.3772/j.issn.1000-0135.2019.11.006
    [25] Li X, Jie H, Li L J. Research on sentence semantic similarity calculation based on Word2vec. Comput Sci, 2017, 44(9): 256 doi: 10.11896/j.issn.1002-137X.2017.09.048

    李曉, 解輝, 李立杰. 基于Word2vec的句子語義相似度計算研究. 計算機科學, 2017, 44(9):256 doi: 10.11896/j.issn.1002-137X.2017.09.048
  • 加載中
圖(3) / 表(8)
計量
  • 文章訪問數:  2285
  • HTML全文瀏覽量:  2026
  • PDF下載量:  98
  • 被引次數: 0
出版歷程
  • 收稿日期:  2019-09-13
  • 刊出日期:  2020-04-01

目錄

    /

    返回文章
    返回