让 Nutch 支援中文分词 方法教学 Nutch 1.0 + IK-Analyzer 3.1.6 中文分词库

时间:2019-05-12 02:47:40下载本文作者:会员上传
简介:写写帮文库小编为你整理了多篇相关的《让 Nutch 支援中文分词 方法教学 Nutch 1.0 + IK-Analyzer 3.1.6 中文分词库》,但愿对你工作学习有帮助,当然你在写写帮文库还可以找到更多《让 Nutch 支援中文分词 方法教学 Nutch 1.0 + IK-Analyzer 3.1.6 中文分词库》。

第一篇:让 Nutch 支援中文分词 方法教学 Nutch 1.0 + IK-Analyzer 3.1.6 中文分词库

讓 Nutch 支援中文分詞 方法教學Nutch 1.0 + IK-Analyzer 3.1.6 中文分詞庫

1.前言

2.何謂中文分詞

3.方法

1.修改程式碼

2.重編 nutch

3.開始使用

4.完成1.選項:加入字典檔

2.資訊不正確或麻煩

前言

Nutch 1.0 + IK-Analyzer 3.1.6 中文分詞庫 的詳細方法 本篇參考,並且修正與補充 何謂中文分詞

中文自動分詞指的是使用計算機自動對中文文本進行詞語的切分,即像英文那樣使得中文句子中的詞之間有空格以標識。中文自動分詞被認為是中文自然語言處理中的一個最基本的環節。

簡單來說,以“今天天氣真好”這段字而言,若搜尋“氣真”沒有中文分詞的結果為:1筆 => 今天天氣真好

 有中文分詞:0筆(因為詞庫為今天、天天、天氣、真、真好、好) 下面的例子即為,透過完成括充中文分詞(ik-analyzer)之後的nutch搜尋引擎,對“國家高速網路中心”的首頁(http://www.xiexiebang.com.tw/tw/)作資料爬取,並以此為搜尋資料庫。

搜尋“中心”兩字 有74筆資料,但搜尋單一一個“心”字只有 4筆資料;反觀若是沒有經過中文分詞,則單搜尋“心”必定比搜尋“中心”的資料更多

1.搜尋 中心 這個字串

2.單搜尋 心 這個字

3.搜尋 “冀此” 或單獨 “冀” 都沒有資料

ps : 搜尋“希冀”才會有資料

方法

你下載nutch-1.0 並解壓縮的資料如:$nutch-1.0/夾目錄位址,也是用來重編nutch的/home/user/nutch-1.0/資料夾原有的nutch資料夾,接著會被擴充$my_nutch_dir/opt/nutchez/nutch/ika中文詞庫

原本被用來放nutch網頁(在tomcat$my_tomcat_dir/opt/nutchez/tomcat內)的資料夾

修改程式碼

 安裝必要工具(java 已經安裝)

sudo apt-get install javacc unrar ant

 修改NutchAnalysis.jj 約130行左右的程式碼(原本為:|

>)

cd $nutch-1.0/

vim src/java/org/apache/nutch/analysis/NutchAnalysis.jj

| )+ >

用編譯器 javacc 編譯出七個java檔

 CharStream.javaNutchAnalysisTokenManager.java

TokenMgrError.java

 NutchAnalysisConstants.javaParseException.java  NutchAnalysis.javaToken.java

cd $nutch-1.0/src/java/org/apache/nutch/analysis 

javacc-OUTPUT_DIRECTORY=./ika/ NutchAnalysis.jj

mv./ika/*./;rm-rf./ika/

 編譯剛編出來的.java

vim $nutch-1.0/src/java/org/apache/nutch/analysis/NutchAnalysis.java  在第48行加入ParseException:

public static Query parseQuery(String queryString, Configuration conf)throws IOException,ParseException

在第54行加入ParseException:

throws IOException,ParseException { 

 下載 IKAnalyzer3.1.6GA.jar 解壓縮

o nutch 1.0 用的是 lucene 2.4.0 hadoop 0.19

o 因此ik分詞器最新僅能用 3.1.6ga(3.2.0GA 以上版本只支援

lucene 2.9以上版本)

cd $nutch-1.0/

wget http://ik-analyzer.googlecode.com/files/IKAnalyzer3.1.6GA_AllInOne.rar mkdir ika

unrar x./IKAnalyzer3.1.6GA_AllInOne.rar ika/

 分別放到以下三個資料夾

用來重新編譯nutch

用來給 nutch 進行 crawl時所匯

入函式庫$nutch-1.0/lib/$my_nutch_dir/lib/

用來給網頁的搜尋介面使用的函$my_tomcat_dir/webapps/ROOT/WEB-INF/lib式庫

cp ika/IKAnalyzer3.1.6GA.jar lib/

cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar $my_nutch_dir/lib/ cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar

$my_tomcat_dir/webapps/ROOT/WEB-INF/lib  修改 NutchDocumentAnalyzer.java 程式碼

cd $nutch-1.0/

vim src/java/org/apache/nutch/analysis/NutchDocumentAnalyzer.java 將

public TokenStream tokenStream(String fieldName, Reader reader){Analyzer analyzer;

if(“anchor”.equals(fieldName))

analyzer = ANCHOR_ANALYZER;

else

analyzer = CONTENT_ANALYZER;

return analyzer.tokenStream(fieldName, reader);

}

修改成public TokenStream tokenStream(String fieldName, Reader reader){Analyzer analyzer = new org.wltea.analyzer.lucene.IKAnalyzer();return analyzer.tokenStream(fieldName, reader);

}

 修改 build.xml,在 下(約195行),加入

cd $nutch-1.0/

vim build.xml

重編 nutch

 重新編譯 nutch-1.0

ant

 完成則多一個資料夾 build,o build/ 目錄裡面的 nutch-job-1.0.job 就是重編後的核心

ant jar;ant war

 分別產生 build/nutch-xxx.jar 與 build/nutch-xxx.war

開始使用

 最後,將nutch-job-1.0.jar複製到我的nutchez資料夾內取代使用

o(下面的步驟小心的把原本的job作備份,也可以不用,改用新編

出來的直接取代)

cd $nutch-1.0/

mv $my_nutch_dir/nutch-1.0.job $my_nutch_dir/nutch-1.0-ori.job

cp build/nutch-1.0.job $my_nutch_dir/nutch-1.0-ika-waue-100715.job ln-sf $my_nutch_dir/nutch-1.0-ika-waue-100715.job

$my_nutch_dir/nutch-1.0.job

 把nutch-1.0.war(原本nutch附的即可),解壓縮後放在你的tomcat

目錄內(以下用 $my_tomcat_dir 代表我tomcat的實際目錄)的/webapps/ROOT/中,並且再把“IKAnalyzer3.1.6GA.jar”、新編的“nutch-1.0.jar” 放進 $my_tomcat_dir/webapps/ROOT/WEB-INF/lib 還有 $my_nutch_dir/lib/ 內

cd $nutch-1.0/

cp $nutch-1.0/build/ $my_nutch_dir/lib/

cd $my_tomcat_dir/webapps/ROOT/WEB-INF/lib

cp $nutch-1.0/build/nutch-1.0.jar./

cp $nutch-1.0/lib/IKAnalyzer3.1.6GA.jar./  最後用nutch 的 crawl 抓取網頁,搜索的結果就是按ik分過的中文詞完成

 爬取後的資料就會依照中文分詞來分。中文分詞之後的結果並不會比較多,反而更少。但是精簡過後的搜尋結果

才能提供更準確的搜尋內容。

選項:加入字典檔

將 nutch-*.job 的檔案,用zip 工具解開,並將以下兩個檔案放入nutch-*.job 中即可

 IKAnalyzer.cfg.xml

IK Analyzer/mydic.dic mydic.doc

 國家高速

 國家高速網路

 國家高速網路與計算中心

資訊不正確或麻煩

接著將 build/classes 內的程式碼打包起來,建立nutch-1.0-ika.jar 函式庫(麻煩,根本不需要)

 cd $nutch-1.0/build/classes

 jar cvf nutch-1.0-ika.jar. cp nutch-1.0-ika.jar /opt/nutchez/nutch/lib/   即使用原始的nutch所crawl下來的資料,將 重編後的nutch-1.0.jar nutch-1.0.job IKAnalyzer3.1.6 正確放到你原本的nutch搜尋網頁中,重新啟動tomcat後,也可直接享用有分詞的結果(不正確)

將 IKAnalyzer3.1.6GA.jar 的 /org/wltea/analyzer/dic/ 資料夾內,放入你要得字典檔,可以參考同資料夾內的 main.dic(不正確,沒用) Attachments

(162.6 kB)added by waueago.(13.7 kB)added by waueago. Download in other formats:

第二篇:中文分词 - 同义词、近义词词库2

同义词库

天昏地暗=暗无天日 窃笑=暗笑 阴影=暗影 切口=暗语 黑暗=暗中 邋遢=肮脏 抬头=昂首 傲睨一世=昂首望天 高昂=昂扬 洼地=凹地 高低=凹凸 折磨=熬煎 锻炼=熬炼 飞翔=翱翔 高傲=傲岸 狂妄=傲慢 渺视=傲睨 傲世轻物=傲睨万物 傲睨万物=傲睨一世 傲睨万物=傲世轻物 睥睨=傲视 坚贞不屈=傲雪欺霜 骄兵必败=傲卒多败 骄兵必败=傲卒多降 秘密=奥秘 秘密=奥密 玄妙=奥妙 悔恨=懊悔 烦恼=懊恼 悔恨=懊丧 四行孤军=八百壮士 才高八斗=八斗之才 四面楚歌=八方受敌 八棍子撂不着=八竿子打不着 陈腔滥调=八股 稀奇古怪=八怪七喇 八竿子打不着=八棍子撂不着 不相上下=八两半斤 五花八门=八门五花 八面玲珑=八面见光 八面见光=八面玲珑 四面楚歌=八面受敌 气势汹汹=八面威风 发草帖=八字帖 逢迎=巴结 渴望=巴望 翦绺=扒手 废除=拔除 起锚=拔锚 适得其反=拔苗助长 选取=拔取 扶植=拔擢 猖=跋扈

进退失据=跋前疐后 动辄得咎=跋前踬后 后记=跋文 促膝谈心=把臂而谈 痛处=把柄 操纵=把持 切脉=把脉 看管=把守 戏弄=把玩簸弄 当心=把稳 驾驭=把握 花招=把戏 歇工=罢工 而已=罢了 撤职=罢免 歇手=罢手 放手=罢休 蛮横=霸道 机谋=霸术 攻克=霸占 呆子=白痴 白费=白搭 鹤发=白发 皓首苍颜=白发苍颜 庞眉皓发=白发银须 白搭=白费 枉费心机=白费心血 口语=白话 光阴似箭=白驹过隙 石蜡=白腊 洋蜡=白蜡 白天=白日 白日升天=白日飞升 白日飞升=白日升天 空手=白手 自食其力=白手起家 老人=白叟 白昼=白天 白净=白皙 沧海桑田=白云苍狗 碧眼儿=白种人 白天=白昼 利剑=白 千般=百般 百发百中=百步穿杨 扶摇直上=百尺竿头 有口难言=百辞莫辩 矢无虚发=百发百中 民生凋敝=百孔千疮 合家=百口 寥寥无几=百里挑一 千了百当=百了千当 鸭蛋虽密也有缝=百密一疏 大惑不解=百思不解 童言无忌=百无禁忌 黎民=百姓 视为心腹=百依百顺 势如破竹=百战百胜 一往直前=百折不回 百折不回=百折不挠 左右=摆布 动摇=摆荡 搭架子=摆架子 排列=摆列 部署=摆设 开脱=摆脱 腐败=败北 松弛=败坏 倾家荡产=败尽家业 莠民=败类 败事=败露 败露=败事 没趣=败兴 劣行=败行 换帖兄弟=拜把兄弟 离别=拜别 造访=拜访 求神拜鬼=拜鬼求神 访问=拜候 参见=拜见 贺年=拜年 托付=拜托 访候=拜望 拜望=拜谒 纠缠不清=扳缠不清 攀谈=扳话 连累=扳连 交谈=扳谈 布鼓雷门=班门弄斧 凯旅=班师 盘游=般游 颁发=颁布 宣布=颁布发表 发表=颁发 花白=斑白 雀斑=斑点 美丽=斑斓 花纹=斑纹 搬家=搬场 挪动转移=搬动 搬迁=搬家 挑衅=搬弄 挑拨离间=搬弄是非 搬家=搬迁 木屋=板屋 呆滞=板滞 邦畿=版图 措施=办法 孔方兄=阿堵物 福寿膏=阿芙蓉 那个=阿谁 姨妈=阿姨 谄谀=阿谀 攀龙趋凤=阿谀奉承 攀龙趋凤=阿谀奉迎 愁肠寸断=哀肠百转 悲悼=哀悼 恳求=哀告 悲啼=哀号 灾民=哀鸿 百孔千疮=哀鸿遍野 悯恻=哀怜 恳求=哀求 悲悼=哀伤 悲痛=哀思 悲伤=哀痛 顺序=挨次 受饿=挨饿 靠拢=挨近和蔼可亲=蔼然可亲 求贤若渴=爱才如命 求贤若渴=爱才若命 一毛不拔=爱财如命 尊崇=爱崇 恋慕=爱戴 喜好=爱好 敬服=爱护 珍惜=爱护保重 恋慕=爱慕 宠姬=爱妾 恋爱=爱情 己饥己溺=爱人如己 敬服=爱惜 居安思危=安不忘危 漫步=安步 缓步徐行=安步当车 布置=安插 顺产=安产 稳固=安定 布置=安顿 安顿=安放 循分=安分 安守故常=安分守己 循规蹈矩=安分守纪 抚慰=安抚 宁静=安好 克绍箕裘=安家立业 安定=安靖平静=安静平静=安静冷静僻静 安身立命=安居乐业 愉逸=安乐 安定=安谧 安息=安眠 安定=安宁 摆设=安排 宁静=安全平安=安然平和=安然平静平安无事=安然无事平安无事=安然无恙 固若金汤=安如盘石 固若金汤=安如泰山 十拿九稳=安若泰山 安置=安设 立足=安身 安居乐业=安身立命 宁静=安适 安分守己=安守故常 安乐=安泰 妥当=安妥 同甘共苦=安危与共 慰藉=安慰 牢固=安稳 歇息=安息 安逸=安闲 宁静=安详平静=安祥 歇息=安歇 放心=安心 清闲=安逸 扎营=安营 自暴自弃=安于现状 何在=安在 埋葬=安葬 高枕无忧=安枕无忧 怎知=安知 布置=安置 安置=安装 循规蹈矩=按部就班 顺序=按次 照例=按例 推拿=按摩 抑制=按捺 定期=按期 定时=按时 刻舟求剑=按图索骥 顺次=按序 根据=按照 文案=案牍 档册=案卷 悄悄=暗暗 潜伏=暗藏 暗流=暗潮 昏暗=暗淡 惨淡=暗澹 冷战=暗斗 阴沟=暗沟 谋害=暗害 灯号=暗号 灯号=暗记 冷箭=暗箭 含沙射影=暗箭伤人 私下=暗里 暗潮=暗流 办妥=办好 管理=办理 服务=办事 办好=办妥 豆剖瓜分=半壁江山 旗鼓相当=半斤八两 片刻=半晌 对折=半数 中途=半途 功败垂成=半途而废 欲言又止=半吐半吞 不即不离=半推半就 将信将疑=半信半疑 子夜=半夜 东床=半子 伙计=伴计 朋友=伴侣 陪同=伴随 随同=伴同 饰演=扮演 化装=扮装 拌杂=拌合 拌合=拌杂 国脉=邦本 版图=邦畿 国家荣誉=邦家之光 国交=邦交 光顾=帮衬 帮助=帮忙 帮忙=帮手 资助=帮助 捆绑=绑缚 署书=榜书 模范=榜样 当中=傍边 旁观=傍观 歪路=傍门 目中无人=傍若无人 薄暮=傍晚 篾片=傍友 包揽=包办 容隐=包庇 心怀叵测=包藏祸心 包围=包抄 保证=包管 包罗=包含 包容=包涵 包罗=包括 包办=包揽 包括=包罗 应有尽有=包罗万象 包涵=包容 困绕=包围 包括=包孕 批驳=褒贬 宝物=宝贝 名贵=宝贵 大札=宝缄 浮图=宝塔 宝贝=宝物 铜山=宝穴 坚苦卓绝=饱经风霜 餍饫=饱食 警卫=保镳 收藏=保藏 连结=保持 生存=保存 掩护=保护 推荐=保举 保存=保留 守旧=保守 守卫=保卫 调养=保养 包管=保证 营垒=堡垒 人为=报酬 报酬=报答 抨击=报复 陈诉=报告 汇报=报告请示 应命=报命 道歉=报歉 得病=抱病 行侠仗义=抱不平固步自封=抱残守缺 理想=抱负 怀愁=抱恨 抱歉=抱愧 歉仄=抱歉 抱冤=抱屈 捧头=抱头 狼狈而逃=抱头鼠窜 抱屈=抱冤 诉苦=抱怨 遁世=豹隐 **=暴动 狂风=暴风 罪恶滔天=暴戾恣睢 袒露=暴露 原形毕露=暴露无遗 暴动=** 狠毒=暴虐 大发雷霆=暴跳如雷 歹徒=暴徒 急躁=暴躁 虐政=暴政 发作=爆发 爆竹=爆仗 爆仗=爆竹 鄙俚=卑鄙 卑躬屈膝=卑恭屈节 奴颜媚骨=卑躬屈膝 猥贱=卑贱 卑鄙=卑劣 鬼蜮伎俩=卑劣手段 奴视=卑视 草木皆兵=杯弓蛇影 人浮于事=杯水车薪 悲痛=悲哀 悲凉=悲惨 追悼=悲悼 灰心=悲观 离合悲欢=悲欢离合 悲惨=悲凉 楚切=悲凄 悲伤=悲戚 悲啼=悲泣 伤心=悲伤 叹伤=悲叹 悲泣=悲啼 悲痛=悲恸 悲伤=悲痛 碑帖=碑本 碑本=碑帖 斗极=北斗 寒风=北风 勾栏=北里 存案=备案 破釜沉舟=背城借一 南辕北辙=背道而驰 后手=背工 配景=背景 反面=背面 叛逆=背叛 背约=背信 背信=背约 孤注一掷=背注一掷 受宠若惊=被宠若惊 受骗=被骗 当选=被选 奔忙=奔波 奔跑=奔驰 旷达=奔放 奔驰=奔跑 奔驰=奔腾 驱驰=奔走 跋山涉水=奔走风尘 当地=本地 土产=本地货 天职=本分 祖籍=本籍 同族=本家 正事主=本家儿 原来=本来 本事=本领 舍本逐末=本末倒置 本末倒置=本末颠倒 职能=本能机能 今年=本年 资本=本钱 即日=本日 实质=本色 自己=本身 本领=本事 正事主=本事儿 个人主义=本位主义 真相=本相 本旨=本心 天性=本性 个性难改=本性难移 本心=本意天良 来源根基=本原 本心=本旨 素质=本质 簿本=本子 笨蛋=笨伯 笨伯=笨蛋 傻里傻气=笨头笨脑 鸠拙=笨拙 瓦解=崩溃 倾圯=崩裂 迫近=逼近迫良为娼=逼良为娼 欺压=逼迫 铤而走险=逼上梁山 传神=逼真 始祖=鼻祖 触目皆是=比比皆是 比喻=比方 等到=比及 比力=比较 最近=比来 比较=比力 同等看待=比量齐观 相比=比拟 连年=比年 比岁不登=比年不登 好比=比如 角逐=比赛 指手画脚=比手划脚 比年不登=比岁不登 交锋=比武 夫唱妇随=比翼双飞 青天=彼苍 相互=彼此 挥洒自如=笔底生花 卖文为活=笔耕墨耘 字迹=笔迹 条记=笔记 凭单=笔据 翰墨=笔墨 笔挺=笔直 鸾翔凤翥=笔走龙蛇 管见=鄙见 卑鄙=鄙俚 吝啬=鄙吝 猥琐=鄙陋 唾弃=鄙弃 在下=鄙人 藐视=鄙视 卑鄙=鄙俗 俗不可耐=鄙俗不堪 粗言=鄙言 俗语=鄙谚 鄙视=鄙夷 愚见=鄙意 迫不得已=必不得已 肯定=必定 恭恭敬敬=必恭必敬 一定=必然 必须=必需 须要=必要 终究=毕竟 断命=毕命

一举而竟全功=毕其功于一役 终生一生没世=毕生 结业=毕业 缄口=闭口 缄口结舌=闭口无言 杜门不出=闭门不出 关门落锁=闭门塞窦 凭空捏造=闭门造车 解散=闭幕 花容月貌=闭月羞花 保护=庇护 荫庇=庇荫 寒家=敝宅 毛病=弊端 葱茏=碧绿 白种人=碧眼儿 避忌=避讳 逃难=避祸 避讳=避忌 制止=避免 遁迹=避难 躲债=避债 边疆=边陲 相貌=边幅 界限=边界 疆域=边境 边沿=边缘 主笔=编缉 辑录=编录 纪年=编年 点窜=编削 体例=编制 编辑=编纂 入木三分=鞭辟入里 推动=鞭策 鞭笞=鞭挞 跌价=贬价 抑低=贬抑 便利=便当 燕服=便服 私函=便函 方便=便利 即是=便是 条子=便条 自制=便宜 酿成=变成 变更=变动 厘革=变革 变动=变更 变革=变化 变化无穷=变化多端 变化多端=变化无穷 幻化=变幻 变化多端=变幻莫测 变更=变换 背叛=变节 事故=变乱 失常=变态 各处=遍地 普遍=遍及 体无完肤=遍体鳞伤 剖白=辨白 鉴别=辨别 辩解=辩白 反驳=辩驳 谈锋=辩才 辩说=辩论 辩论=辩说 特出=彪炳 斥候=标兵 方向=标的目的 标志=标记 标记=标识表记标帜 题目=标题问题 别开生面=标新立异 口号=标语 标记=标志 漂亮=标致 尺度=标准 表明=表白 内外=表里 暴露=表露 楷模=表率 外貌=表面 评释=表明 心情=表情 表现=表示 亮相=表态 体现=表现 演出=表演 表彰=表扬 表扬=表彰 别开生面=别出机杼 自出机杼=别出心裁 外传=别传 另外=别的 别名=别号 别开生面=别具一格 别出心裁=别开生面 分别=别离 又名=别名 野史=别史 一无长物=别无长物 剖辨=别析 醉翁之意=别有用心 新奇=别致 来宾=宾客 宾朋盈门=宾客盈门 三千珠履=宾客盈庭 宾朋盈门=宾朋迎门 宾朋迎门=宾朋盈门 摈弃=摈斥 驱逐=摈除 屏弃=摈弃 光风霁月=冰壶秋月 酷寒=冰冷 冷面=冰脸 冰冷=冰凉 龙脑=冰片 不染纤尘=冰清玉洁 水火不容=冰炭不洽 雪窖冰天=冰天雪地 叛乱=兵变 师出无名=兵出无名 军多将广=兵多将广 兵书=兵法 打仗=兵戈 艨艟=兵舰 军力=兵力 戎马=兵马 武器=兵器 战士=兵士 兵法=兵书 佳兵不祥=兵凶战危 虎帐=兵营 军种=兵种 承袭=秉承 而且=并且 草衣木食=并日而食 独一无二=并世无双 霸占=并吞 垂死=病笃 祸国殃民=病国殃民 全愈=病愈 医院=病院 货郎鼓=拨浪鼓 盘弄=拨弄 颠簸=波动 波涛=波澜 汹涌澎湃=波澜壮阔 海浪=波浪 妨害=波折 褫夺=剥夺 否极必泰=剥极必复 聚敛=剥削 吸血虫=剥削者 昆季=伯仲 驳倒=驳斥 驳斥=驳倒 非难=驳诘 靠岸=泊岸 停车=泊车 怫然作色=勃然变色 来路货=舶来品 泛爱=博爱 赢得=博得 博学多闻=博古通今 展览会=博览会 广博=博识 宏儒硕学=博学多才 博古通今=博学多闻 屠杀=搏斗 拚命=搏命 苦命=薄命 傍晚=薄暮 单薄=薄弱 软弱=薄弱虚弱 菲酌=薄酌 赔偿=补偿 增补=补充 调停=补救 修缮=补葺 补贴=补助 修理=补缀 哺养=哺育 疑神疑鬼=捕风捉影 捕捉=捕获 探员=捕快 网鱼=捕鱼 捕获=捕捉 不安分=不安本分 不安本分=不安分 不守妇道=不安于室 不守妇道=不安于位 未便=不便 稳定=不变 鄙人=不才 不理=不睬 意外=不测 不成才=不长进 不可=不成 不长进=不成才 不长进=不成材 有失体统=不成体统 不食人间烟火=不吃烟火食 从容不迫=不迟不疾 不辞劳怨=不辞劳苦 不辞劳苦=不辞劳怨 不搭嘴=不搭腔 不搭腔=不搭嘴 不合时宜=不达时宜 不搭腔=不答腔

不打不相识=不打不成相识 不打不相识=不打不成相与 不打不成相与=不打不相识 不但=不单 不光=不但 不妥=不当 不作数=不当准 天诛地灭=不得善终 茫无头绪=不得要领 不停=不断 精益求精=不断改进 不合错误=不对 未几=不多 不违农时=不夺农时 不贰=不二 铁价=不二价 不二=不贰 不胜枚举=不乏其人 非法=不法 非凡=不凡 没关系=不妨 没关系=不妨事 轻视=不放在眼里 难分轩轾=不分高下 不顾曲直=不分皁白 不够=不敷 不顺手=不伏手 不服水土=不伏水土 不平=不服 水土不服=不服水土 不应=不该 吞声忍气=不敢则声 你死我活=不共戴天 道貌岸然=不苟言笑 不敷=不够 未入流=不够格 掉臂=不顾 不分皁白=不顾曲直 不拘小节=不顾外表 悍然不顾=不顾一切 不但=不光 不外=不过 小心翼翼=不寒而栗 欠好=不好 分歧=不合 不对=不合错误 不达时宜=不合时宜 反面=不和 半推半就=不即不离 不可胜数=不计其数 欠安=不佳 不露锋芒=不见圭角 不断=不竭 不但=不仅 风行一时=不胫而走 未几=不久不多 不顾外表=不拘小节 未定=不决 不停=不绝 不易之论=不刊之论 不胜=不堪 不行=不可

多如牛毛=不可偻指算 不计其数=不可胜数 难以想象=不可思议 咄咄逼人=不可一世 不能=不克不及 不愿=不肯 烦懑=不快 不稂不莠=不郎不秀 不郎不秀=不稂不莠 坐享其成=不劳而获 不睬=不理 倒霉=不利 不意=不料 不惜=不吝 不吝指教=不吝金玉 不吝珠玉=不吝指教 不吝指教=不吝珠玉 不留心=不留神 不留神=不留心 杀鸡取卵=不留余地 不见圭角=不露锋芒 不露锋芒=不露圭角 不露声色=不露神色 不露神色=不露声色 稳定=不乱 不正经=不伦不类 岂论=不论 不落俗套=不落窠臼 不落窠臼=不落俗套 难免=不免 未免=不免难免 不约而合=不谋而合 不克不及=不能 不能胜数=不能尽数 不能尽数=不能胜数 欲罢不能=不能自休 不能自制=不能自已 不能自已=不能自制 不宁奈=不宁不奈 不宁耐=不宁不耐 不宁不奈=不宁奈 不宁不耐=不宁耐 数奇=不偶 中庸之道=不偏不倚 不屈=不平萍水相逢=不期而遇 生吞活剥=不求甚解 不平=不屈 奋不顾身=不屈不挠 否则=不然 冰清玉洁=不染纤尘 克日=不日 幸不辱命=不辱使命 不中听=不入耳 不伦不类=不三不四 惠而不费=不伤脾胃 处境尴尬=不上不下 失慎=不慎 不堪=不胜 不乏其人=不胜枚举 昏迷不醒=不省人事 时时=不时 不识时务=不识时变 不识时变=不识时务 不识之无=不识一丁 不识一丁=不识之无 不吃烟火食=不食人间烟火 不安于室=不守妇道 不伏手=不顺手 非死即伤=不死即伤 不绝=不停 欠亨=不通 差别=不同 与众不同=不同凡响 不当=不妥 不过=不外 有良心=不忘本 不夺农时=不违农时 不惟=不唯 不唯=不惟 不言而喻=不问可知 吊儿郎当=不务正业 不断=不息 不吝=不惜平分秋色=不相上下 断绝往来=不相闻问 不用=不消 不可=不行 不断=不休 囚首垢面=不修边幅 生而知之=不学而能 观=不雅 不雅=不雅观 不问可知=不言而喻 不厌求详=不厌其详 不厌其详=不厌求详 没关系=不要紧 纷歧=不一 所在多有=不一而足 天经地义=不移至理 尽心尽力=不遗余力

下载让 Nutch 支援中文分词 方法教学 Nutch 1.0 + IK-Analyzer 3.1.6 中文分词库word格式文档
下载让 Nutch 支援中文分词 方法教学 Nutch 1.0 + IK-Analyzer 3.1.6 中文分词库.doc
将本文档下载到自己电脑,方便修改和收藏,请勿使用迅雷等下载。
点此处下载文档

文档为doc格式


声明:本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现有涉嫌版权的内容,欢迎发送邮件至:645879355@qq.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。

相关范文推荐