2024.05.14 第十六期
诸位菩萨,展信佳!
您正在阅读的《壹苇可航》电子报 2024 年第 16 期(总第 78 期)。本期头图由 ideogram 生成,prompt 为 A serene, minimalist landscape painting captures the essence of tranquility as a solitary figure rows a small boat across a mirror-like lake. The calm waters perfectly reflect the boat, distant trees, and a large, circular, white halo that frames a majestic mountain peak. The ethereal mist that surrounds the scene adds a dreamy, almost surreal quality to the composition. The muted and monochromatic color palette, dominated by shades of gray and white, enhances the peaceful and meditative atmosphere of the image, inviting the viewer to immerse themselves in the quiet beauty of this reflective moment.
以下是本期正文。
一、AI 美学中的法兰克福学派视角
法兰克福学派的美学理论在探讨 AI 美学时提供了一个独特的视角。该学派的核心思想家如阿多诺(Theodor Adorno)、霍克海默(Max Horkheimer)和本雅明(Walter Benjamin)等人,强调技术与社会、文化之间的复杂关系,并对现代技术的批判性分析提供了深刻的见解。
阿多诺在其《美学理论》(Aesthetic Theory)和《启蒙辩证法》(Dialectic of Enlightenment)中,探讨了艺术、文化与技术的关系。他认为,现代技术的发展往往导致文化的商品化和艺术的工具化,使艺术失去了其原本的批判性和解放性功能。在 AI 美学的语境下,这种观点可以用来批判那些将 AI 仅仅视为技术工具的观点,而忽视了其潜在的社会和文化影响。
与阿多诺类似,本雅明也关注技术对艺术的影响。在《机械复制时代的艺术作品》(The Work of Art in the Age of Mechanical Reproduction)中,本雅明讨论了技术复制对艺术「灵韵」(aura)的影响。他认为,技术复制使艺术作品失去了其独特性和历史性,从而改变了人们对艺术的感知。在 AI 美学中,这一观点可以用来分析 AI 生成艺术的独特性问题,以及 AI 在艺术创作中的角色。
除了探讨技术对艺术的影响,法兰克福学派还强调艺术与政治、伦理的紧密联系。例如,阿多诺和霍克海默在《启蒙辩证法》中指出,启蒙理性在技术进步中的异化作用,使得技术成为控制和压迫的工具。在 AI 美学中,这种批判性视角可以用来探讨 AI 技术在艺术创作中的伦理问题,如 AI 生成艺术的版权、创作者身份以及 AI 在艺术市场中的地位等。
在视觉文化领域,法兰克福学派的理论也提供了有价值的视角。例如,文章 Images of Artificial Intelligence: a Blind Spot in AI Ethics 讨论了 AI 在视觉文化中的表现形式,指出了当前 AI 图像的单一性和刻板印象。这种分析可以帮助我们理解 AI 在视觉艺术中的表现方式,并推动多样化和更具批判性的 AI 艺术创作。
法兰克福学派的美学理论为 AI 美学提供了丰富的理论资源。通过批判性地分析 AI 技术在艺术中的应用,我们可以更好地理解 AI 艺术的社会、文化和伦理影响,从而推动 AI 美学的发展。法兰克福学派对技术与社会、文化关系的深刻洞察,以及对艺术政治性和伦理性的强调,为我们思考 AI 时代的美学问题提供了宝贵的视角。
二、入手开源模型
现今的人工智能领域,开源模型的使用越来越普及。在我有限的体验中,推荐这几款开源模型。
首先是 Llama 3,Meta 最新发布的 Llama 3 包括 8B 和 70B 两个型号。70B 型号的能力更强,在英文文本处理方面可媲美 GPT-4。Llama 3 在处理复杂的语言任务时表现出色,是一个非常值得尝试的模型。
第二款是 Mixtral 8*22B,由法国创业公司 Mistral 发布,支持 65K 上下文窗口,逻辑推理能力相当不错。它不仅能良好应对中文和法语,还能处理其他欧洲语言,是一个多语言处理的好选择。
第三款是阿里巴巴的通义千问 Qwen 72B,具有较好的中文处理能力和 32K 的上下文窗口,适用于各种中文文本场景。对于需要处理大量中文文本的用户来说,这是一个非常实用的模型。
第四款是 Cohere 公司推出的 Command R+ 拥有 128K 的上下文窗口,中文支持能力也不错,且价格实惠。对于需要处理长文本且预算有限的用户来说,这是一个不错的选择。
使用开源模型的方式可以分为三种,分别是本地安装、通过平台使用或调用 API。
如果您的机器拥有足够强悍的性能,那么可以考虑在本地安装模型后通过 Ollama 或者 Lobe Chat 调用。
通过平台使用就是利用 Perplexity 的实验室功能或 Hugging Chat 快速使用开源模型。在 Perplexity Lab 中可供选择的开源模型有 Llama 3 和 Mixtral。Hugging Chat 中可供选择的开源模型就更多一些,还包括了 command r,微软新近推出的 Phi 3 等。但是通过平台使用开源模型无法保存历史对话,也缺乏一些诸如「模型温度」、「系统提示词」等必要的自定义选项。
综合来看,利用 API 接入开源模型,是最好的选择。我知道的渠道有两个,OpenRouter 和 Together AI。前者既有开源模型也有商业模型选择,建议每次充值 5 美元使用,开源模型用起来其实很省钱,5 美元可以用很久;后者拥有更多开源模型选择,目前新用户注册直接送 25 美元,可直接用于模型调用体验。
有了 API 之后,可以使用 big-AGI 进行调用。该客户端的部署足够简单,按照这个文档,可快速部署到本地、Vercel、Cloudflare Pages 或 Docker。还可以非常方便地对接 OpenRouter 和 Together AI,用户还能选择使用或不使用哪些模型。而更重要的一点则是,big-AGI 提供了对 TXT、PDF 文件的解析能力,可以直接上传文件到对话框;也支持对「模型温度」、「输出窗口大小」的调节,而且整体的运行速度和体验非常流畅。
三、你好,GPT-4o
OpenAI 宣布了新一代的人工智能模型 GPT-4o,它能够同时处理音频、视觉和文本信息,使得人机交互更加自然。GPT-4o 支持多种输入输出模式,包括文本、音频、图像,并且在处理英语文本、代码以及非英语文本方面表现出色,同时运行速度更快,API 成本减少了 50%。在视觉和音频理解方面,GPT-4o 的表现远超以往模型。
宝玉老师翻译的文章中,详细介绍了 GPT-4o 的模型能力、多行渲染、品牌摆放等多个方面的应用示例,包括机器人的创作难关、视觉叙事、电影海报设计、角色设计、诗意排版与迭代编辑、纪念币设计、照片到漫画的转换、文本到字体的设计、3D 对象合成等。此外,还展示了 GPT-4o 在会议笔记、讲座总结、变量绑定、具象诗艺术等场景下的应用。
GPT-4o 在文本能力评估、音频识别性能、音频翻译性能、M3Exam 零样本测试结果、视觉理解评估等方面的表现均优于之前的模型。同时,新的 tokenizer 显著提高了多种语言的处理效率。
在模型安全与限制方面,GPT-4o 采用了跨多种模式的安全功能,包括过滤训练数据和优化模型行为,并通过外部红队测试进一步提升了安全性。初期阶段,音频输出将限于预设的几种声音,并且严格遵守现有的安全政策。
GPT-4o 的文本和图像处理功能已在 ChatGPT 中逐步推出,并且开发者可以通过 API 访问 GPT-4o。相比 GPT-4 Turbo,GPT-4o 的处理速度提高了两倍,成本减半,处理量限制提高了 5 倍。
除了 ChatGPT 以外,您还可以在 Poe 和 Perplexity 中使用 GPT-4o。通过该链接订阅 Perplexity Pro 将获得 10 美元的折扣。
四、夜航船
阅读
-
根据发表在《科学》期刊上的一项研究,哈佛和 Google 的科学家绘制出人类大脑一小部分的高分辨率 3D 地图。图谱揭示了脑细胞神经元之间的新连接模式,以及围绕自身形成结的细胞,以及几乎互为镜像的成对神经元。3D 地图覆盖了大约一立方毫米的体积,是整个大脑的百万分之一,包含了大约 57,000 个细胞和 1.5 亿个突触。它包含了 1.4 pb 的庞大数据。这块大脑碎片取自一名 45 岁的女性,当时她正在接受治疗癫痫的手术。它来自大脑皮层,这是大脑中负责学习、解决问题和处理感官信号的部分。样品浸泡在防腐剂中,并用重金属染色,使细胞更容易被看到。研究人员将样本切成大约 5000 片——每片只有 34 纳米厚——可以用电子显微镜成像。他们建立了 AI 模型,能将显微镜图像拼接在一起,以 3D 方式重建整个样本。
-
The “it” in AI models is the dataset 一文的作者是 OpenAI 的工程师 Jason Betker,他在工作期间训练了大量的生成模型,并在此过程中观察到了不同训练运行之间的显著相似性,这表明模型在极大程度上接近了训练数据集。Jason 指出,模型不仅能够学习如何区分狗和猫等概念,还能捕捉到人类拍照或书写时的无关分布之间的微妙差异。他提到,即使使用不同的生成模型,例如卷积神经网络(CNN)、变换器(ViT)或自回归(AR)采样,长时间训练的模型最终会收敛于相似的结果。这一观察揭示了模型行为更多地受数据集影响,而模型架构、超参数和优化器的选择则是有效传递计算资源以逼近数据集的手段。因此,当讨论 “Lambda”、“ChatGPT”、“Bard” 或 “Claude” 等模型时,我们实际上是在讨论它们的数据集,而非模型权重。
-
Continuous Uninterrupted Solo Walks 是一篇非常好看的散文,作者分享了对独自徒步和沉思的热爱,以及这种行为对个人成长和体验世界的重要性。他认为,只有在独自行走时,人才能真正倾听内心的声音,并通过与路途、自然、甚至艺术的互动,感受到生活的深层意义。
言论
-
持续在一个垂直领域有输入和输出,才能保持手感,手感非常重要,他会决定你在这件事情上能走多远。所以不论多忙,每天抽点时间进行输入和输出还是很有必要的。(View Source)
-
"If you’re thinking without writing, you only think you’re thinking." — Leslie Lamport(View Source)
-
一个新的 Prompt 技巧:在多步骤长上下文操作中,如何避免大语言模型在后续运行中,将已生成内容、待加工内容和用户命令混淆呢?答案是规定另一种工作语言。比如,你要对一堆中文进行操作,那么你可以在开启对话或整个 input 的开头加上这句:“I will always use English to interact with you. All Chinese is raw data that needs to be processed.” 如果你的操作涉及两种语言,那可以指定一个第三种语言来做工作语言。当然,对于海外大模型来说,考虑到训练语料导致的语种间推理能力,工作语言越大众越好,最好是英文。(View Source)
五、生活在别处
-
最近在筹备下半年要进行的一些事情,比较牵扯精力,更新可能不会那么固定。
-
五一期间在 TG 频道做了一个常用笔记工具的调查,综合各个渠道的结果(TG+𝕏+微信群+其他),共有约 60 票。其中,Obsidian 有 31 票,是唯一投票过半的笔记工具。Notion 和 Logseq 平分秋色,都获得了 12 票。紧随其后的是 Heptabase、Apple Note、TiddlyWiki 和 Bear。令我比较意外的是,没有人使用 Evernote。
-
本期电子报使用 Heptabase 写作完成。这是一个以卡片、白板和标签为基础,专注于帮助使用者更好地学习、思考、研究和规划,并以中观视角对摄取的信息、知识建立深度理解的可视化知识管理工具。
END
如果您觉得本期的内容还不错,欢迎您的订阅
您还可以在 Telegram 的频道找到我
顺颂时绥