はじめまして。
ありがたくサンプル2007を使用させていただいたのですが、xreaサーバーでは生成文章が文字化けします。
ファイルはEUCで保存しています。
解決策はございますか?
どうぞご教授お願い致します。
単純に文字コードを変更すれば大丈夫かと思いますが。
元文章をEUC-JPからUTF-8に変更(元々UTF-8ならこの処理は必要ない)
$text = mb_convert_encoding($text, "UTF-8", "EUC-JP");
XMLをパースして配列作る部分でUTF-8からEUC-JPに。
$words[] = mb_convert_encoding($surface, "EUC-JP", "UTF-8");;
もっと適当に対応するなら 出力したい文章を
$create_text = mb_convert_encoding($create_text, "EUC-JP", "auto");
とかでも大丈夫かとおもいますが。
はじめまして。
このサンプルコード面白いですね。
新聞記事を3つほどシャッフルさせて、どんな文章が出来上がるか遊んでみました。
でも、元のテキストは同じなのに、出力される文章が短い時と長い時があるのはなぜなんでしょうか?
毎回、指定の長さ程度で終わらせることができましたら、その方法をお教えください。
それと、同じ単語(名詞)が何回も連続して出てくるときがあるのですが、それを防ぐ方法はありますか?
"4月末にある五つ星ホテル「パールコンチネンタルホテル「パールコンチネンタルホテル「パールコンチネンタルホテル「パールコンチネンタルホテル「パールコンチネンタルホテル「パールコンチネンタルホテル」で、52人が起こり、連邦最高裁は9日、同国のペレス大統領やネタニヤフ首相らと相次いで会談した自動車大手フィアットなどが起こり、52人が死亡した。 "
という具合になってしまう時があります。(長い文ですみません)
解決方法をご存知でしたら、お教えください。
よろしくお願いいたします。
>出力される文章が短い時と長い時があるのはなぜなんでしょうか
>それを防ぐ方法はありますか?
ソース中のコメントの、無限ループ回避と乱数の部分を見れば一目瞭然かと思います。
使いたいのであれば、自分で工夫してカスタマイズするといいと思います。
こんなに簡潔で短いソースなら自分で解決した方がよろしいかと。