О́блако те́гов (облако слов, или взвешенный список, представленное(-ый) визуально) — это визуальное представление списка категорий (или тегов, также называемых метками, ярлыками, ключевыми словами и т. п.)[1] Обычно используется для описания тегов (метаданных) на веб-сайтах или для представления неформатированного текста. Ключевые слова чаще всего представляют собой отдельные слова, и важность каждого ключевого слова обозначается размером шрифта или цветом. Такое представление удобно для быстрого восприятия наиболее известных терминов и для распределения терминов по популярности относительно друг друга. При использовании ключевых слов для упрощения навигации по веб-сайтам, термины снабжаются гиперссылками на понятия, которые подразумеваются под ключевыми словами. Тем не менее, облако не может быть единственным элементом навигации, а пользоваться текстовым поиском удобнее для поиска при наличии более конкретной информации об искомом[2].

Облако тегов ключевых понятий, относящихся к Веб 2.0

История

править

На языке визуального дизайна, облако тегов (или облако слов) это один из видов «взвешенного списка», обычно оно используется на географических картах для отображения относительного размера городов, с помощью размера шрифтов. Одним из первых примеров взвешенного списка английских ключевых слов является список «подсознательных файлов компьютера» в романе Дугласа Коупленда «Рабы Майкрософта» (1995). Список слов немецкого языка появился в 1992[3].

Особое визуальное представление и распространение термина «облако тегов» началось в первом десятилетии 21 века. Как особенность сайтов и блогов эры Веб 2.0, использовалось, в основном, для визуализации частотного распределения ключевых слов метаданных, описывающих содержание веб-сайта и помогающих в навигации.

Первые облака тегов на известных веб-сайтах появились на сайте сервиса хранения и распространения цифровых фотографий Flickr. Создателем облаков тегов был соучредитель и проектировщик Flickr Стюарт Баттерфилд в 2004. Эта реализация была основана на книге Джеймса Фланагана Search Referral Zeitgeist[4], в котором описывается визуализация ссылок на веб-сайт. Примерно в то же время распространению облака тегов способствовали сайты Delicious и Technorati.

Перенасыщение облаками тегов и двоякие чувства в отношение их полезности как помощников в навигации по веб-сайтам привели к заметному снижению их использования на сайтах-первопроходцах[5]. (Создатели Flickr впоследствии «извинились» перед веб-сообществом в своей речи на премии Webby Awards, где они просто сказали «простите за облака тегов»[6].)

Второе поколение развития программного обеспечения выявило широкий круг применения облаков тегов как основных методов визуализации текстовых данных. Также были предложены некоторые расширения для этих элементов навигации. Например, параллельные облака тегов[7], sparkClouds[8], и префиксные облака тегов[9].

В данный момент облако тегов не имеет такой популярности, а в некоторых случаях даже негативно сказывается на поисковом продвижении сайта. Так что если и делать облако, то для некой конкретной цели, чтобы оно несло смысловую нагрузку для пользователей интернет ресурса.[источник не указан 2921 день]

Типы применения тегов

править
 
Облако данных показывает население всех стран мира. Создано с помощью языка программирования R с помощью пакета облако слов. Данные получены из списка, содержащего название стран и количество жителей. Обратите внимание, что относительные размеры Китая и Индии были разделены пополам.

Существует три основных типа применения облаков тегов в социальном программном обеспечении, различающихся скорее по назначению, чем по внешнему виду:

  • в первом типе есть тег для частоты каждого элемента,
  • во втором типе есть глобальные облака тегов, где частоты агрегированы по всем элементам и пользователям,
  • в третьем типе облако содержит категории, размер которых обозначает количество подкатегорий.

В первом типе облаков тегов размер представляет собой количество применений тега к элементу[10]. Это полезно в качестве способа отображения метаданных о предмете, за который сколько-то раз «проголосовали», и когда точные данные не предусмотрены. Примером такого применения является Last.fm (для определения жанра музыки группы) и LibraryThing (для определения ключевых слов книги).

Во втором типе размер соответствует числу предметов, к которым был применен тег, что обозначает популярность тега. Примеры данного типа облаков тегов можно найти на сайте сервиса хранения и распространения цифровых фотографий Flickr, RSS-агрегатора Technorati и введя в поисковый запрос Google DeeperWeb.

Категоризация путём создания кластера тегов

править

В третьем типе теги используются как способ категоризации элементов. Теги представлены в облаке, где бо́льшие теги представляют количество элементов в этой категории.

Есть несколько подходов для построения кластера тегов вместо облака тегов, например, применяя теги совместной встречаемости в документах[11].

Более обще, то же самое визуальное представление может быть использовано для отображения не тегов[12] например, облако тегов или облака данных.

Термин облако ключевых слов иногда используется как термин поисковый маркетинг, где он обозначает группы ключевых слов, относящихся к некоторому веб-сайту. В последние годы облака тегов стали популярны из-за своей значимости в поисковом маркетинге веб-страниц, наряду с помощью пользователям в эффективной навигации по сайтам[13]. Облака тегов, как средства навигации, позволяют связать ресурсы веб-сайта более тесно[14],обход таких ресурсов поисковым роботом может улучшить позицию сайта в результатах выдачи поисковой системы[15]. С точки зрения пользовательского интерфейса облака тегов часто используются, чтобы помочь пользователю найти информацию в конкретной системе более быстро, обобщая результаты поиска[16].

Визуальное представление

править
 
Облако данных показывает изменение цены на акции. Цвет указывает на рост или падение цены, размер шрифта указывает на процентное изменение.

Облака тегов обычно представлены в виде встроенных HTML элементов. Теги могут быть распределены в алфавитном порядке, в случайном порядке, по весу, и т. д. Иногда изменяют прочие визуальные свойства, такие как цвет, яркость, или ширина, в дополнение к размеру шрифта[17]. Наиболее распространено представление в виде прямоугольника, в котором теги упорядочены по алфавиту и выводятся построчно. Выбор расположения тега в строках соответствует целям пользователя. Иногда предпочтение отдается семантической кластеризации тегов (похожие по смыслу теги будут выводиться рядом)[18][19][20]. Допускается применение эвристик для уменьшения размера облака тегов, независимо от того — выполняется кластеризация или нет.

Облако данных

править

Облако данных — это данные, в которых используется другой цвет и/или размер шрифта для обозначения числовых данных[21]. Облака данных похожи на облака тегов[22], но вместо подсчета слов, выводятся такие данные, как плотность населения или цены на рынке ценных бумаг.

Облако текста

править
 
Сравнение облаков текста речи Президента США Д. Буша и Президента США Б. Обамы[23].

Облако текста или облако слов — это визуализация частоты слов в тексте в виде взвешенного списка[24]. В последнее время эта техника используется для визуализации тематического контента политических речей[25].

Облака словосочетаний

править

Развивая принципы облаков текста, облака словосочетаний дают более сфокусированный вид текста или набора текстов. Вместо всего текста, облако словосочетаний фокусируется на использовании отдельных слов. Полученное облако содержит слова, которые часто используются в сочетании с исходным словом. Эти словосочетания представляют частоту, выделяемую размером шрифта, наряду с силой связи, выделяемой яркостью. Это позволяет интерактивно изучать язык[26].

Особенности восприятия облаков тегов

править

Облака тегов изучались в нескольких исследованиях на предмет удобства использования. Следующий перечень основан на результатах исследований компании Lohmann и др.:

  • Размер тега: крупные теги привлекают больше внимания, чем маленькие теги (эффект зависим от таких свойств, как: количество символов, расположение, соседние теги).
  • Просмотр: пользователи обычно просматривают облако, а не читают его полностью.
  • Центрирование: теги в середине облака привлекают больше внимания, чем теги, расположенные по краям (эффект обусловлен особенностью расположения текста в облаке).
  • Позиционирование: верхний левый квадрант получает больше внимания, чем остальные (обусловлено чтением слева-направо).
  • Исследование: облака тегов помогают найти специфические теги (которые не выделены большим размером шрифта).

Создание облака тегов

править

В общем размер шрифта тега в облаке тегов обусловлен распространенностью тега. Для облака слов, например, категорий блога, частота соответствует количеству записей в блоге, которым присвоена данная категория. Для меньших частот можно указать размеры шрифта непосредственно, от единицы до максимально используемого размера шрифта. Для больших частот необходимо провести масштабирование. Например, используя линейное преобразование, вес   тега масштабируется по шкале множителей от of 1 до f, где   и   определяют диапазон разрешенных весов.

  для  ; иначе  

 
Набор слов из списка 1000 избранных статей Википедии, упорядоченный по количеству просмотров[27], доступный в галерее Wordle gallery.[28]
  •  : размер шрифта
  •  : максимальный размер шрифта
  •  : вес тега
  •  : минимальный вес
  •  : максимальный вес

Так как число учтённых элементов на каждый тег обычно распределено по экспоненциальному закону распределения[29], поэтому для больших диапазонов значений имеет смысл использовать логарифмическое представление[30].

Реализация облака тегов также включает синтаксический анализ фильтрацию ненужных тегов, таких как предлоги, местоимения, чи́сла и знаки препинания.

Также существуют веб-сайты, которые создают искусственные или случайно распределённые облака тегов для рекламы или с юмористической целью.

См. также

править

Примечания

править
  1. Martin Halvey and Mark T. Keane, An Assessment of Tag Presentation Techniques.
  2. Sinclair, Cardew-Hall, 2008.
  3. Deleuze, Guattari, 1992.
  4. A copy of Jim Flanagan’s Search Referral Zeitgeis.
  5. Tag Clouds R.I.P.?.
  6. Welcome to the Webby Awards.
  7. Parallel Tag Clouds to Explore and Analyze Faceted Text Corpora, 2009.
  8. IEEE Transactions on Visualization and Computer Graphics, 2010.
  9. Proceedings of the 17th International Conference on Information Visualisation, 2013.
  10. Masters Thesis submitted to the Program of Digital Media, 2005.
  11. Proceedings of the 43rd Annual Hawaii International Conference on System Sciences, 2010.
  12. Collaborative OLAP with Tag Clouds.
  13. Are Tag Clouds Useful for Navigation, 2011.
  14. Linking Related Content in Web Encyclopedias with search query tag clouds, 2011.
  15. Free tag cloud generator script for PHP web pages.
  16. Evaluating Tag-Based Information Access in Image Collections, 2012.
  17. Comparison of Tag Cloud Layouts: Task-Related Performance and Visual Exploration, 2009.
  18. Improving Tag-Clouds as Visual Information Retrieval Interfaces, 2006.
  19. Tag-Cloud Drawing: Algorithms for Cloud Visualization.
  20. Self-organising map based tag clouds — Creating spatially meaningful representations of tagging data, 2007.
  21. ManyEyes Visualization and Commentary.
  22. ManyEyes Visualization: Ad cloud.
  23. TagCrowd visualization: State of the Union.
  24. Text Clouds: A New Form of Tag Cloud?.
  25. US Presidential Speeches Tag Cloud.
  26. Collocate cloud.
  27. Monthly wiki page Hits for en.wikipedia.
  28. WikipediaTop1000VitalArticleHits.
  29. Voss, 2006.
  30. Kentbyte.

Литература

править
  • Owen Kaser and Daniel Lemire. Tag-Cloud Drawing: Algorithms for Cloud Visualization (англ.) // CoRR. — 2007.
  • James Sinclair, Michael Cardew-Hall. The folksonomy tag cloud: when is it useful? (англ.) // Journal of Information Science February. — 2008. — Vol. 34, no. 1. — P. 15—29. — ISSN 0165-5515. — doi:10.1177/0165551506078083.
  • Seifert, C. and Kump, B. and Kienreich, W. and Granitzer, G. and Granitzer, M. On the Beauty and Usability of Tag Clouds. — IEEE, 2008. — С. 17—25. — ISBN 978-0-7695-3268-4. — ISSN 1550-6037. — doi:10.1109/IV.2008.89.
  • Gilles Deleuze, Felix Guattari. Tausend Plateaus. Kapitalismus und Schizophrenie (нем.). — 1992. — ISBN 3-88396-094-2.
  • Collins, C., Viegas, F. and Wattenberg, M. Parallel Tag Clouds to Explore and Analyze Faceted Text Corpora (англ.) // VAST. — 2009.

Ссылки

править