- Große Sprachmodelle, die auf riesigen Datenmengen aus dem Internet trainiert wurden, um menschenähnliche Antworten zu generieren.
- Website-Publisher hatten zuvor keine Möglichkeit, sich dagegen zu wehren, dass ihre Daten zur Schulung von KI-Modellen verwendet werden.
Website-Publisher können sich jetzt ganz einfach von Google Bard oder anderen zukünftigen KI-Modellen von Google abmelden, die ihre Daten für das Training verwenden.
Google gab am Donnerstag (28. September) bekannt, dass sie eine Möglichkeit zur Abmeldung anbieten, indem sie “User-Agent: Google-Extended” im robots.txt-Dokument der Website untersagen.
Das neue Tool wird es den Websites ermöglichen, weiterhin von Crawlern wie dem Googlebot gecrawlt und indexiert zu werden, da dies der einzige Anwendungsfall für die Daten ist.
Dies folgt einem ähnlichen Schritt von OpenAI, dem Entwickler von ChatGPT, der vor kurzem einen eigenen Webcrawler gestartet hat, mit Anweisungen zur Blockierung.
Viele Websites haben bereits Maßnahmen ergriffen, um den von OpenAI veröffentlichten Webcrawler zu blockieren. Darunter befinden sich namhafte Websites wie Medium, CNN, Reuters und die New York Times.