Wikipedia:井戸端/subj/未承認botによるウェブアーカイブへのリンク置換について

未承認botによるウェブアーカイブへのリンク置換について 編集

相談事項
  1. 利用者:Rotlink会話 / 投稿記録 / 記録 / CA / gucの4000件以上の編集による不備を含むウェブアーカイブへのリンク置換に対する事後対応・善後策についてのアイディアや見解(放置で構わないなども含めて)をお寄せください。
利用者の概要
  1. ウェブアーカイブへのリンク置換を行うJAWPビューロクラット未承認のbot
  2. JAWPアカウント作成:2012年9月14日 (金) 00:05 (UTC)
  3. JAWP編集回数:4140回
  4. 他の9言語版にて無期限ブロック(ベンガル語版、ドイツ語版、英語版、アイルランド語版、ハンガリー語版(2014年1月30日解除)、イタリア語版、ポルトガル語版、簡易英語版、トルコ語版、中国語版)
  5. JAWPにおいては、2014年1月29日 (水) 10:12 (UTC) を以って無期限ブロック(経緯
  6. 副アカウント利用者:RotlinkBotを所有。利用者:RotlinkBotにおいて利用者:Rotlinkが使用するbotとする表示がなされており、新旧双方の仕様と変更時期の同一性(仕様上の問題 1. 参照)から、同一人物であることが強く推認される(新バージョン:2013年8月6日 (火) 05:49 (UTC) の編集、旧バージョン:2013年8月6日 (火) 02:32 (UTC) の編集)。参考:利用者:RotlinkBot会話 / 投稿記録 / 記録 / CA / guc。7言語版にて無期限ブロック(ドイツ語版、英語版、ハンガリー語版、ポルトガル語版、ノルウェー語(ブークモール)版、トルコ語版、中国語版)[返信]
仕様上の問題
  1. Citationテンプレート使用の場合は元urlを残してarchiveurlとarchivedateを追加するが、[ ]で括っただけの出典表記の場合、元urlを残さずにウェブアーカイブへのリンクに置換する。なお、この問題は2013年8月6日 (火) 21:41 (UTC) の編集以降のバージョンにおける問題であり、2012年9月14日 (金) 00:19 (UTC) のJAWP初投稿から2013年8月6日 (火) 21:38 (UTC) の編集までのバージョンでは[ ]で括っただけの出典表記をCite webテンプレートに置き換え、元URLを残して、accessdateにはarchivedateと同じ日付を挿入していた。その後、2013年10月1日 (火) 01:43 (UTC) の編集に至るまでの間、何度かバージョン変更を行っている。初期の機能を廃止した理由は不明だが、初期バージョンにて記事本文内に埋め込まれた外部リンクを書き換えて表示を汚した例はある(2013年8月4日 (日) 03:25 (UTC) の編集)。
  2. アーカイブページが元記事の内容を保存した版かを確認しない。
  3. {{リンク切れ}}テンプレートを除去しない。
実害
  1. 存置期間が短いニュースソース(特に毎日.jp:約1箇月)で[ ]で括っただけの出典表記の場合、元urlを残さない上に、既に記事が削除された版へとアーカイブリンクが張られる。有力紙のWebページの存置期間が短い日本語版固有の問題か。例:差分:東北地方太平洋沖地震のうち毎日.jpを出典とする4つのアーカイブリンクが既に記事が削除された後のページ。
  2. {{リンク切れ}}テンプレートを除去しないため、余人に除去する手間をかける。例:差分:福島第一原子力発電所事故の最初の変更部分と最後の3箇所。
措置
  1. 利用者‐会話:Rotlink にて警告、ru:Обсуждение_участника:Rotlink にてJAWPの編集停止を依頼。
  2. JAWP無期限ブロック後、仕様上の問題についても指摘。
  3. 利用者:RotlinkBotについては様子見。(経緯
参考:他の日本語版ウィキプロジェクトでの不具合
  1. 仕様上の問題 1. は全般的に見られる。
  2. ウィキニュースの出典テンプレート({{情報源・ウェブ}})では、元urlを残さない。
  3. アーカイブ先が無効な版である例としてはウィキニュースの記事の編集の差分ウィキブックスの記事の編集の差分の先頭2つ、など。

--ジャコウネズミ会話 | 投稿記録) 2014年2月1日 (土) 01:31 (UTC)--(相談事項を補足)--ジャコウネズミ会話 | 投稿記録2014年2月2日 (日) 09:33 (UTC)[返信]

追加情報
  1. 現時点で4140件(3796項目)のうち2648項目が「最新」となっている。内訳は、初期バージョン(2012年9月14日 00:19~2013年8月6日 21:38‎)121件(98項目)のうち57項目、移行期(2013年8月6日 21:41~2013年9月30日 22:58)755件(573項目)のうち268項目、現バージョン(2013年10月1日 01:43‎~2014年1月27日 20:32)3264件(3125項目)のうち2323項目が「最新」。差分:ハイチ地震_(2010年)のように同一項目で複数回編集し、間に他の編集者による編集を挟む例もあった。--ジャコウネズミ会話 | 投稿記録) 2014年2月2日 (日) 09:33 (UTC)--(分母となる項目数を追記)--ジャコウネズミ会話 | 投稿記録2014年2月2日 (日) 20:37 (UTC)[返信]
3796項目の記事リスト→ジャコウネズミ/sandbox投稿記録から抽出したより詳しいデータについてはリンク先をご参照ください)

--(追記)--ジャコウネズミ会話 | 投稿記録2014年2月2日 (日) 20:37 (UTC)[返信]


  コメント「不備を含むウェブアーカイブへのリンク置換に対する事後対応・善後策」のアイデアを寄せたら良いということでしょうか。このトピックの目的が良く解りませんでしたが、おそらくそういう事であると認識したうえで提案します。

  1. 私を含め、このRotlinkさんの後に差し戻しや、修正を加えた方々がおられると思いますが、それ以外でRotlinさんの編集で「最新」となっている記事に対して、Bot作業でRotlinkさんの編集以前に差し戻しをして頂く。
  2. あるいは、全てのRotlinksさんが編集された記事を編集以前に「巻き戻す」(Bots作業が可能?)
  3. 上記2案が不可能ならば、手作業でRotlinksさんの編集履歴を見ながら修正作業をする。

以上3つを考えてみました。Botで以前の状態に戻せるのが一番良いと思いますが、、、、。--Megevand (会話) 2014年2月1日 (土) 23:04 (UTC)[返信]

  コメント コメントありがとうございます。仰る通り、事後対応・善後策のアイデアを寄せ集めたい、という趣旨です。その旨上記にて補足しました。また、「最新」となっている記事とそれ以外、という場合訳のお話がありましたので、現時点で分かるところまでの情報を追加いたしました。私もBotで以前の状態に戻せるのが一番良いと思いますが、案1. と 案3. では、案3. のほうが難しいのでしょうか?--ジャコウネズミ会話 | 投稿記録2014年2月2日 (日) 09:33 (UTC)[返信]
案3は難しくないですが(ある意味一番簡単かもしれません)、手作業なので時間がかかるかと思います。実際に私が少しやった感じでは、Rotlinkさんが書き換えたURLのオリジナルを確認する作業が面倒になると思います。--Megevand (会話) 2014年2月2日 (日) 10:56 (UTC)[返信]
  コメントここ最近リンク切れの修復作業を行っていてよくRotlinkさんの名前を見ていたので、このような状況になってしまっていたのは驚きです。確かに不具合があるケースもあるでしょうが不具合が無いケースもそれ以上に多くあるでしょうし、BOTで一括差し替えをするにしても結局その後誰かが手作業で再度アーカイブのリンクの置き換えをやらなきゃならないわけですよね。それであれば、どこかに共同作業用ページを作ってRotlinkさんが編集したページとその差分を一括でリストアップして確認を終えたものから除去していくような形を取れば、確認作業を分担して効率化が図れるのではないかと思います。履歴から追いかける形を取ると、他の誰かが確認済みなのかそうでないのかわからないので皆でチェックし合うというのはやり難いでしょうし。そのようにして必ず誰かの目と手が確認するような形を取れるのであれば、未確認の物に対しては一旦一括して差し戻しておくのも、人の目での確認が終わるまでそのままにしておくのも、どちらでも構わないと思います。--重陽会話2014年2月2日 (日) 14:43 (UTC)[返信]
  コメント コメントと協働作業のご提案ありがとうございます。2012年2月2日時点の特別:投稿記録/RotlinkをコピーペーストしてExcelにて整理するとともに、特別:投稿記録/Rotlinkによって編集された記事の項目一覧をジャコウネズミ/sandboxに作成しました(より情報量の多いSortable Wikitableも試みましたが、重くてダメでした)。手作業を進めることや、置き場所、ライセンス等、問題なければ、これで参りたいと思いますがいかがでしょうか?また、botでの修復の線も引き続きご意見を賜りたいと思います。--ジャコウネズミ会話 | 投稿記録2014年2月2日 (日) 20:37 (UTC)[返信]
  リストアップ作業おつかれさまです。これがあれば協同作業がはかどると思います。ぼちぼちとやっていきます。しかしちゃんと作業を施してくれるBotならともかく、こんな粗雑な作業をするBotは迷惑でしかありませんね。そんな迷惑がかかることを想像できない人が作ったBot(RotlinkBot)なんか、なにをするものか知りませんが、もはや信用できませんので無期限ブロックにしてほしいぐらいです。--Megevand (会話) 2014年2月2日 (日) 21:48 (UTC)[返信]
  リストですが、1000ぐらいずつで節を分けていただけないでしょうか。現在リストが約120KBありますので、一括で編集するのはちょっと重いという方もいらっしゃるかと思います。--Haifun999会話2014年2月3日 (月) 13:04 (UTC)[返信]

(インデント戻し)  報告 リストを1000件ごとにサブページに分割いたしました。(/1 - 1000/1001 - 2000/2001 - 3000/3001 -)--ジャコウネズミ会話 | 投稿記録2014年2月3日 (月) 20:00 (UTC)[返信]

確認しました。作業おつかれさまです。--Megevand (会話) 2014年2月5日 (水) 08:22 (UTC)[返信]
  報告氏がbot表示している別アカウント利用者:RotlinkBotによる編集分は巡回し対処致しました。--ジャコウネズミ会話 | 投稿記録2014年2月3日 (月) 23:31 (UTC)[返信]

  コメントためしに修正してみましたが、非常に骨が折れる作業ですね・・・。1日数件のペースになるとは思いますが、微力ながら手伝わせていただきます。Kamakura会話2014年2月7日 (金) 15:48 (UTC)[返信]