livedoorニュースコーパスをcsvファイル形式で取得する
これは何? 自然言語処理を日本語で色々試してみよう、ってときに、手軽に使える言語資源を用意するのって中々に大変ですよね。 今回はlivedoorニュースコーパスを取得し、取り回しのしやすいcsvファイル形式(表形式)に変換するスクリプトを作ったので公開します。 記事のURL、日時、タイトル、本文、配信元が列になったcsvファイルの言語資源がほしい、って人はぜひ使ってください。 変換後のcsvはたとえばPythonで使うなら、こんな感じ↓にpandas.read_csvで読み込めます。 使い方 gistでlivedoorニュースコーパスをcsvファイル形式で取得するPython…