博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
coreseek 词库 导入搜狗词库
阅读量:5862 次
发布时间:2019-06-19

本文共 1308 字,大约阅读时间需要 4 分钟。

hot3.png

先到搜狗官方找你需要的词库。下载
然后用 深蓝词库转换.exe 此软件转换成txt文件才能开导咯ini_set('max_execution_time','6000');//header('Content-type: text/html; charset=gb2312');$buffer=ini_get('output_buffering');if($buffer)ob_end_flush();echo '处理新词库...';flush();$filename = 'hefei_house_name.txt'; //新添加的文件$handle = fopen ($filename, "r");$content = fread ($handle, filesize ($filename));fclose ($handle);$content=trim($content);$arr1 = explode( "\r\n" ,$content );$arr1=array_flip(array_flip($arr1));foreach($arr1 as $key=>$value){$value=dealchinese($value);if(!empty($value)){$arr1[$key] = $value;}else{unset($arr1[$key]);}}echo '处理原来词库...';flush();$filename2 = "unigram.txt"; //源词库文件$handle2 = fopen ($filename2, "r");$content2 = fread ($handle2, filesize ($filename2));fclose ($handle2);$content2=dealchinese($content2,"\r\n");$arr2 = explode( "\r\n" ,$content2 );echo '删除相同词条...';flush();$array_diff=array_diff($arr1,$arr2);echo '格式化词库...';flush();$words='';foreach($array_diff as $k=>$word){$words.=$word."\t1\r\nx:1\r\n";}file_put_contents('newciku.txt',$words,FILE_APPEND); //合并后的新文件echo 'done!';function dealChinese($str,$join=''){	preg_match_all('/[\x{4e00}-\x{9fa5}]+/u', $str, $matches); //将中文字符全部匹配出来	//print_r($matches)."
"; $str = join($join, $matches[0]); //从匹配结果中重新组合 return $str;}

转载于:https://my.oschina.net/sorenring/blog/312096

你可能感兴趣的文章
WPF控件深拷贝:序列化/反序列化
查看>>
Java的优先级任务队列的实践
查看>>
thinkphp5开发规范(加强复习之前的)
查看>>
Linux手工添加swap
查看>>
PowerTCP FTP for .NET 在线e文文档
查看>>
SpirngBoot之整合Swagger2
查看>>
linux grep 取出特定字符串并统计个数
查看>>
cratedb 集群搭建说明
查看>>
新形势下国家医疗保障局信息化建设注意点(四)推进电子医保卡
查看>>
PAC Manager的重生: Asbru
查看>>
SpringMVC——redirect重定向跳转传值
查看>>
Linux 查看进程消耗内存情况总结
查看>>
Junit4 IDEA测试学习一
查看>>
MikroTik RouterOS获取在线终端和在线IP总数并自动对IP做限速(转)
查看>>
.Net Core应用框架Util介绍(二)
查看>>
发现TCP的一种错误----客户端连接失败(10055错误号)
查看>>
朱晔的互联网架构实践心得S1E8:三十种架构设计模式(下)
查看>>
足迹地图 搜索jvectormap
查看>>
有关CSS的overflow和border-radius的那些事,你的圆角被覆盖了吗?
查看>>
005-四种常见的 POST 提交数据方式
查看>>