php 去除常見中文停用詞(過濾敏感詞)

在用sphinx通過文章標題匹配相關文章時,去除停用詞後調出的文章相關性更好。

<?php
header("Content-type:text/html;charset=utf-8");
$str = file_get_contents(‘stop.txt‘);//將常見中文停用詞表內容讀入到一個字串中
$badword = explode("\r\n", $str);//轉換成陣列//print_r($arr);
$badword1 =array_combine($badword,array_fill(0,count($badword),‘*‘)); //過濾敏感詞時替換成*
$bb = ‘確定安裝的PowerShell版本https://www.itread01.com/‘;
$str = strtr($bb,$badword1);
echo $str;
?>

来源:https://www.itread01.com/content/1543829108.html

原文地址:https://www.cnblogs.com/codenong/p/10059738.html

时间: 2024-10-14 19:02:02

php 去除常見中文停用詞(過濾敏感詞)的相关文章

學習筆記:Linux常見題目解析分享

學習題目分享解答 --此篇博客感謝老男孩老師教學,才得以學習完成此篇博客-- 描述linux系統的啟動過程?     (企業面試題) (1)簡單描述(口頭) 1.開機BIOS自檢    --->檢查硬件是否正常   自檢完後 根據啟動順序,教給下一個設備處理 2.MBR引導    ---->(硬盤) 硬盤0柱面0磁道1扇區的前446byte      (1扇區 512字節)   剩下的(512-446 =66)    其中64用來分區表(4個--->意思是4個主分區或4個擴展分區)  最

[亂數] &lt;細說&gt; C/C++ 亂數基本使用與常見問題

陸陸續續寫了 EA  一.二年,以前亂數引導文回頭看時才發現,怎麼有這麼多細節的錯誤.沒系統. 這篇文章主要引導初學者使用亂數,同時附上常被翻出來討論的議題,C/C++適用,唯以 C 語言撰之. 也由於是引導初學者,所以在某些用詞上會較不正確, 像 compiler.IDE 會故意混為一談. 另外亂數原理也全都跳過 < 重點是亂數的產生原理也不只一種 >. 另本文附程式碼,不附執行結果,有興趣自己跑一遍. 最後請注意本文在區間表達裡,開區間與閉區間 括號的使用,也就是, [a, b]  ,  

BT觀念分享和常見問題彙整

一. TCP/IP基本觀念 1. IP : 每台在TCP/IP網路上的電腦必須具備的一個代表號或一個地址.IP又分為private IP(192.168.x.x /10.x.x.x /172.16.x.x~172.31.x.x)和public IP(除了少數特殊IP,只要不是private IP就是public IP). 2. port : port可視為TCP/IP網路中電腦提供的某種服務的門牌號碼,號碼(port的數值)是多少不重要,號碼代表的服務才重要.例如: port80代表web的服務

整理幾種常見PCB表面處理的優缺點

這只是一篇整理文,而且我個人僅從事過後段的電路板組裝,而未從事過電路板製程,所以有些見解純粹只是個人看法,如果有些不一樣的聲音或錯誤也歡迎留言討論. 隨著時代的演進,科技的進步,環保的要求,電子業也隨著時代的巨輪主動或被迫的前進,電路板的科技何嘗不是如此.這裡幾種電路板的表面處理是目前較常見的製程,我只能說目前沒有最完美的表面處理,所以才會有這麼多種選擇,每一種表面處理都各有其優缺點,下面試著列舉:   裸銅板: 優點:成本低.表面平整,焊接性良好(在還沒有氧化的情況下). 缺定:容易受到酸及濕

網站優化遇到最常見的其中一個問題

就是遲遲都未有排名阿! 到底是什麼原因導致的呢? #1 robots.txt文件 Robots .txt文件對網站優化前期至關重要,設置得好網站優化排名周期縮短,弄得不好,連網站收錄都成問題.例如許多網站上線或者改版之後,常常會在百度快照上看到這樣的一句話“由於該網站的robots.txt文件存在限制指令,系統無法提供該頁面的內容描述”一般都不懂的新手們,都會以為搜索引擎抓取出問題了吧,怎麼搞的.其實,這明顯就是因為網站robots文件屏蔽操作導致的,對於這種情況,網站不收錄完全就是正常情況.

中文停用词

! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; < = > >> ? @ A Lex [ ] ^ _ ` exp sub sup | } ~ ~~~~ · × ××× Δ Ψ γ μ φ φ. В — —— ——— ‘ ’ ’‘ “ ” ”, … …… ………………………………………………

中文 停用词 词典

转自:http://www.lxway.com/868042504.htm! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; < = > >> ? @ A Lex [ ] ^ _ ` exp sub sup | } ~ ~~~~ · × ××× Δ Ψ γ μ φ φ. В — —— ———

最全中文停用词表整理(4545个)

$ 0 1 2 3 4 5 6 7 8 9 ? _ " " . . < > 一 一些 一何 一切 一则 一方面 一旦 一来 一样 一般 一转眼 万一 上 上下 下 不 不仅 不但 不光 不单 不只 不外乎 不如 不妨 不尽 不尽然 不得 不怕 不惟 不成 不拘 不料 不是 不比 不然 不特 不独 不管 不至于 不若 不论 不过 不问 与 与其 与其说 与否 与此同时 且 且不说 且说 两者 个 个别 临 为 为了 为什么 为何 为止 为此 为着 乃 乃至 乃至于 么 之 之

最全中文停用词表整理(1893个)

! " # $ % & ' ( ) * + , - -- . .. ... ...... ................... ./ .一 .数 .日 / // 0 1 2 3 4 5 6 7 8 9 : :// :: ; < = > >> ? @ A Lex [ ] ^ _ ` exp sub sup | } ~ ~~~~ · × ××× Δ Ψ γ μ φ φ. В - -- --- ' ' '' " " ". - -- ---