こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開発が開始されたともいう、分社化前の芸風の名残で、キーワードの検索結果にはユーザが自由に解説を書き込める Wikipedia 的スペースもついています。 で、この解説部分に、さまざまなサイトから文章をまる写ししちゃう人がとても多いのですね。 特に多いウィキペディア日本語版からの剽窃を防止するために、livedoor キーワードでは以下のような対策を講じることにしました。 ウィキペディア日本語版の解説
事前準備 javaインストール (きっとすでに入ってるはず。JRE1.6以上) python:http://www.python.org/ からインストーラをDLしてインストール(2.6 このバージョンじゃないと後々動かない。) CCFinder本家から最新版をDL http://www.ccfinder.net/ccfinderxos-j.html DLしたCCFinderのzipファイルを任意のディレクトリに解凍。 [解凍先ディレクトリ]/bin/gemx.bat の以下をコメント行からはずす rem set CCFINDERX_PYTHON_INTERPRETER_PATH=C:\Python26\python.exe ↑remを削除 batファイル編集後、batファイルを起動。 動いたでしょ?
AIST CCFinderX AIST CCFinderX is a code-clone detector, which detects code clones (duplicated code fragments) from source files written in Java, C/C++, COBOL, VB, C#. CCFinderX is a major version up of CCFinder, and it has been totally re-designed and re-implemented from scratch. Its new design and technologies aim at improving performance, enabling a user-side customization of a preprocessor, and
Overview Duplicate code can be hard to find, especially in a large project. But PMD's Copy/Paste Detector (CPD) can find it for you! CPD has been through three major incarnations: First we wrote it using a variant of Michael Wise's Greedy String Tiling algorithm (our variant is described here) Then it was completely rewritten by Brian Ewins using the Burrows-Wheeler transform Finally, it was rewri
In computer programming, duplicate code is a sequence of source code that occurs more than once, either within a program or across different programs owned or maintained by the same entity. Duplicate code is generally considered undesirable for a number of reasons.[1] A minimum requirement is usually applied to the quantity of code that must appear in a sequence for it to be considered duplicate r
On the shortcut menu for the fragment, choose Find matching clones in solution. Use this method when you want to know if there is a similar method or fragment already in existence in your solution. To find all clones in a solution On the Analyse menu, choose Analyze Solution for Code Clones. This method is particularly useful when you are reviewing your code. The results are presented in order of
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く