GenAI Weekly｜第1期：1月22日-28日大模型未来发展趋势：多模态

在生成式人工智能蓬勃发展的一年中，大语言模型深深影响了各行各业。AI作为新的生产力，推倒了过去旧的一切而又重塑新的未来，每个人的工作学习模式都或多或少发生变化。

肉眼可见，OpenAI推出ChatGPT的一年多来，直到现在每天都有新的应用涌现，无数新闻资讯、模型性能榜单、产业研报、大咖新作、专家论断、视频教程扑面而来，但过度推送的信息绝不会带来深度思考后的对未来的掌控感，带给人们更多的可能是最初的焦虑、疑惑和对新的信息刺激渐渐失去兴趣后的麻木接受。

生成式人工智能是一轮新的机遇，可是应该如何抢占先机，至少不落后于时代呢?

要身处信息洪流不迷失，关键是要抓住少数揭示本质的技术应用，反映未来趋势的前沿资讯，其余信息皆为杂音。

所以，希望通过写作的方式督促自己关注时代的潮流趋势，保持独立判断和思考。以上就是 GenAI Weekly 栏目来源，暂定以下四大板块：

1. 资讯热点（InfoBuzz）

关注国内外生成式人工智能头部企业动态、商业化模式、行业发展趋势

2. 技术前沿（TechVerse）

关注文本、图像、语音、视频以及多模态内容生成最新技术

3. 应用专栏（AppliTech）

关注大语言模型在生活、办公、学习场景下的软硬件应用，优秀的应用会从产品的体验和理念角度进行更深的探索

4. 学习专区（LearnLink）

推荐一些不错的大语言模型入门学习资料

一、资讯热点（InfoBuzz）

1. Sam Altman谈OpenAI未来发展方向
OpenAI 的 CEO Sam Altman 在全球巡回演讲中透漏了 OpenAI 近期发展路线主要分两个阶段，2023 年的首要任务是推出更便宜、更快的 GPT-4，更长的上下文窗口等，2024 年重点是多模态。在与比尔盖茨的访谈节目中提出，未来的大模型与现在的GPT-4最大的区别在于，更强的推理能力，多模态、准确性、自适应计算以及个性化定制。

2. 微信对话开放平台宣布将推出“小微助手”对话机器人
微信AI团队升级微信对话开放平台，宣布将推出最新产品"小微助手"，用户可通过对话的形式与PC端进行交互。"小微助手"是基于微信对话多年技术沉淀打造的桌面助手工具，提供了Json魔方、Base64工具、密码工具、大模型接入、圈子共享、时间戳、进制转换、技能问答、百科、股票、提醒、天气等多种功能。

3. Chrome 浏览器最新版本正式引入生成式 AI 功能
谷歌 CEO Sundar Pichai 宣布谷歌 Chrome 浏览器的最新版本正式引入三大生成式 AI 功能，包括标签自动建议并创建标签组、AI 生成自定义主题壁纸、支持 Web 端页面利用大模型生成内容（发版时间为下个月）。启用方式：登录Chrome，进入“设置”，进入“实验性 AI”（Experimental AI）选项。
Chrome_Gen-AI

4. 火山创想近日完成百万级种子轮融资，打造AI口语私教
北京火山创想科技有限公司近日完成百万级种子轮融资。旗下产品SpeakGuru是一款基于AI大模型的英语口语应用，据介绍，该应用以接近真人般的对话体验、科学学习功能体系、游戏式的学习体系、沉浸式场景练习为产品特色。创始人陈灿表示，应用在没有大范围做市场推广的情况下已实现4000-5000元/日的收入，在大规模宣传推广后收益应该会按比例增长。据艾瑞预计，2023年成人英语市场规模达870亿元（不包括海外留学英语考培），维持10%+稳健增速，其中应试英语240亿元，实用英语630亿元。
下载链接：https://speakguru.huoideas.com
小程序链接（可复制链接发送到微信聊天访问）：\#小程序://SpeakGuru/8BhChihWPJZN1St

5. 联想 Agent个人助理“小乐同学”3 个月后上线，支持自然语言交互
1月17日举行的联想拯救者及消费生态新品发布会上，联想公布了全新 AI 助手 —— 小乐同学。据介绍，联想的 AI 大模型战略采用端侧 + 云端混合式的 AI 大模型，除了 AI PC ，未来还将带来 AI 手机、AI 平板以及 AIoT。小乐同学支持“伴随态自然语言交互 UI”，可一键唤醒、翻译文档、制作 PPT 等，预计三个月后推出正式版。

6. 三星发布AI手机Galaxy S24，可同声翻译和智能搜索
三星公司在最新召开的发布会上正式发布了Galaxy S24系列手机，具备外语通话、同声翻译等多种人工智能功能，支持两种不同语言的实时通话双向语音翻译（基于完全离线的AI技术，确保隐私安全）。此外，还提供了“画圈搜索”（Circle to Search）功能，用户在安卓手机上选择想搜索的内容，用一个简单的手势，如在内容上画圈、突出显示、涂抹划线，点击内容确认，就可在谷歌中进行搜索。

二、技术前沿（TechVerse）

OpenAI大动作：更新5款新模型，修复GPT-4变懒问题，加强代码生成能力，模型价格大幅下降
模型更新：
gpt-4-0125-preview：改善模型「偷懒」情况，极大地提升了代码生成的能力；
gpt-3.5-turbo-0125：输入价格下降50%，输出价格下降25%，性能升级；
text-moderation-007：**新推出的最强性能审核模型；
两个新一代embedding模型：
text-embedding-3-small：体积更小效率更高，价格下降至原模型20%；
text-embedding-3-large：性能相比之前模型大幅提升，高达3072维的嵌入向量，价格是小模型的6.5倍；

API后台更新，更好的API密钥管理
可动态追踪每一个秘钥的使用情况。

谷歌推出文生图巅峰之作Imagen 2模型

Imagen 2在文本理解和图像合成上表现出了极佳的性能，相比于Midjourney必须用复杂、专业的提示词，Imagen 2具有更高的易用性。此外，Imagen 2还具有无可比拟的图像质量和多功能性，用到了谷歌最先进的文本到图像扩散技术，生图质量极高、效果逼真，而且和用户的提示具有高度的一致性。谷歌已经Imagen 2下放到开发者平台Vertex AI，用户进行直观工具自定义和部署。
Imagen_2_on_Vertex_AI_v2.max-2500x2500

3. 谷歌发布AI视频生成模型Lumiere

谷歌在arXiv发布文本到视频扩散模型Lumiere，可基于用户的自然语言提示、图像+提示生成长达5秒的视频，或者根据用户上传的单个参考图像，生成基于提示词的同风格视频，还允许用户通过自然语言指令生成一致的视频风格。用户可以指定特定区域使Lumiere对图像内容进行动画处理。
论文地址：https://arxiv.org/abs/2401.12945
体验地址：https://lumiere-video.github.io/

4. Vary-toy，年轻人的第一个多模态大模型

旷视、国科大、华中大的研究人员共同提出多模态大模型Vary-toy，模型大小不到2B，GTX1080ti 8G的老显卡轻松运行。据介绍，Vary-toy虽小，但却几乎涵盖了目前LVLM（大型视觉语言模型）主流研究中的所有能力：文档OCR识别（Document OCR）、视觉定位（Visual Grounding）、图像描述（Image Caption）、视觉问答（VQA）。
Vary-toy也训练了更强的视觉词表，新的词表不再将模型局限于文档级OCR，而是给出了一个更加通用和全面的视觉词表，其不仅能做文档级OCR，还能做通用视觉目标检测。
在线体验地址：https://varytoy.github.io/

5. 科大讯飞星火大模型 V3.5 将于 1 月 30 日发布

科大讯飞在投资者互动平台称，公司将于1月30日14:00发布星火认知大模型V3.5。据悉，讯飞星火认知大模型V3.5基于全国产化算力底座“飞星一号”平台，目前已完成训练。相比2023年10月24日发布的讯飞星火V3.0，讯飞星火认知大模型V3.5在逻辑推理、文本生成、数学答题及小样本学习能力均实现大幅提升。

6. UCLA等机构推出多模态具身智能大模型MultiPLY，可知冷知热、辨音识物
来自UMass Amherst、UCLA和MIT-IBM Watson AI Lab研究人员，推出了全新的具身智能大模型MultiPLY。这是一种多感官呈现的LLM，可以通过部署由LLM驱动的智能体与3D环境进行交互，从而对以对象为中心的多感官表示进行编码，包括视觉、音频、触觉和温度信息。MultiPLY呈现了大模型多感官能力，无缝地连接了语言、动作和感知！
640

三、应用专栏（AppliTech）

1. 微软推出免费AI工具“Reading Coach”，提高学生阅读能力
微软官方宣布推出AI驱动的学习工具Rading Coach，为学习者提供个性化的阅读练习，任何拥有 Microsoft 账户的人都可以免费使用。据介绍，学习者可以选择故事的主人公、设定，并在阅读时提供改变情节的选择。阅读教练将这些输入与学习者选择的阅读水平结合起来，并且随着时间的推移，根据他们读错的单词动态创建个性化故事，以保持学生的参与度并让他们掌控学习。
Reading Coach官网：https://coach.microsoft.com/
2. 腾讯AIDesign设计平台

AIDesign是腾讯推出的一个利用人工智能技术生成logo的智能设计平台，支持logo的智能设计、调优、VI生成、下载。AIDesign使用简单，仅3步（输入品牌名、选择关键词、选择偏好色彩）即可获得多种logo方案。

3. ChatGPT灰度测试@功能，不同GPTs共享上下文

部分(灰度)用户已经收到提示：在对话中@任意GPT商店里的GPTs，就像在群聊中@一个人。这还意味着不同的GPTs之间从此可以共享上下文。一位网友使用论文解读工具Ai PDF和编码工具Grimoire实现读论文+复现代码一条龙，首先用Ai PDF根据论文总结技术实现方法，然后让Grimoire根据方法，直接编写出实现技术的代码。

4. 哄女友的哄哄模拟器火爆00后、10后聚集QQ群
和女朋友的一次吵架，让这位开发者做出了一个24小时内用户达60万的AI应用，直接引爆了00后和10后聚集的QQ群！这个游戏里，你需要想方设法哄好自己的虚拟女友/男友，以获得ta的原谅。回应究竟能获得多少原谅值模型会给进行打分，达到原谅值后可获胜。
体验网址：https://hong.greatdk.com/

四、学习专区（LearnLink）

《LangChain入门指南》
LangChain是一个集成框架，为开发者提供了一系列的工具和组件，使得与语言模型中各种数据（如Google Analytics、Stripe、SQL、PDF、CSV等）的连接、语言模型的应用和优化变得简单直接。LangChain的简洁性让它脱颖而出。开发者只需要写几行代码，就能运行一个大型LLM程序，甚至快速构建一个响应式的机器人。这种简洁性意味着，无论是对于有经验的开发者还是初入此领域的新手，LangChain都能为他们进入LLM应用开发的世界铺平道路。
《大规模语言模型：从理论到实践》
本书详细介绍了构建大语言模型的四个主要阶段：预训练、有监督微调、奖励建模和强化学习。每个阶段都有算法、代码、数据、难点及实践经验的详细讨论。本书旨在为对大语言模型感兴趣的读者提供入门指南，也可作为高年级本科生和研究生自然语言处理相关课程的补充教材。
在线阅读：https://intro-llm.github.io/（附PPT）
Large Language Model Course
大语言模型教程分为以下三部分:
1. 🧩 LLM基础知识涵盖数学、Python和神经网络的基本知识。
2. 🧑‍🔬 LLM科学家专注于使用最新技术构建最佳的LLM模型。
3. 👷 LLM工程师专注于创建基于LLM的应用程序并进行部署。
  课程网址：https://github.com/mlabonne/llm-course

个人感悟

在模型层面，多模态大模型是未来趋势。无论是OpenAI还是其国内外竞争对手，模型的研发都在朝多模态、提升质量、降低成本方向发展。谷歌全面对标OpenAI的文本、图像生成，同时涉足视频生成领域。UCLA等机构甚至推出多模态具身智能大模型MultiPLY，可知冷知热、辨音识物，在智能家居领域的应用令人充满期待。

大模型日新月异的同时，小规模模型的发展也令人瞩目。大小不到2B的Vary-toy模型具有的多模态能力可应用于文档OCR识别、视觉定位、图像描述、视觉问答等多个领域。

在硬件应用层面，PC、手机等硬件的发展充满活力。在大模型重塑互联网的潮流中，AIPC、手机端侧大模型、教育类产品与AI结合的速度与程度有目共睹。国内外的手机、电脑厂商发布会上都在卷AI概念，三星的Galaxy S24、华为的Magic OS魔法大模型、联想惠普的AIPC、微软的Copilot，然而这些都仅仅是与AI结合的初级形态，未来的发展方向和结合程度会极大影响人们的办公和生活。

在软件应用和生态层面，教育、生活领域的软件应用层出不穷。AI具有近乎无限的知识，与教育的结合有天然的优势，AI+教育的赛道具有光明的前景。但这条赛道肯定很卷，只有精准洞察需求、找到合理的商业变现模式，才能在激烈竞争中杀出重围。此外，AI和生活的结合常常出爆款，体现出的人文关怀和情绪价值需求拥有极为广泛的受众。不过此类产品多数只是昙花一现，用户往往只是跟风体验，留存率很难保证。

文摘

今天的AI技术本质上是一种生产力工具，问题解决能力越强的人越能发挥它的表面价值（图形界面）、中间价值（API调用）和底层价值（微调、链接互联网、垂域知识库等）。
来源：https://mp.weixin.qq.com/s/yJtJWBsWC7aaJatpF4bcPg
一家公司需要多少工程师？这与软件功能的数量有关，与软件用户的数量无关。如果软件要添加更多功能，就需要更多工程师。如果软件功能单一，但是规模很大，甚至有几亿用户，事实上并不需要很多工程师。
来源：https://news.ycombinator.com/item?id=34567237

Reference

[1] Sam Altman谈OpenAI未来发展方向 https://mp.weixin.qq.com/s/LubGkUZZ1E1eUGOe1PTUkw
[2] 微信对话开放平台宣布将推出“小微助手”对话机器人 https://www.aihub.cn/news/wechat-released-xiaowei-assistant/
[3] Chrome 浏览器最新版本正式引入生成式 AI 功能 https://blog.google/products/chrome/google-chrome-generative-ai-features-january-2024/#help-me-write
[4] 打造AI口语私教，火山创想近日完成百万级种子轮融资 https://36kr.com/p/2619428103362693
[5] 联想 Agent个人助理“小乐同学”3 个月后上线，支持自然语言交互 https://www.cet.com.cn/wzsy/cyzx/10007924.shtml
[6] 三星发布AI手机Galaxy S24，可同声翻译和智能搜索https://www.chinanews.com.cn/cj/2024/01-26/10153240.shtml
[7] OpenAI大动作：更新5款新模型，修复GPT-4变懒问题，加强代码生成能力，模型价格大幅下降 https://mp.weixin.qq.com/s/6deJkhCniZPCMdZdy1T2Yg
[8] 谷歌推出文生图巅峰之作Imagen 2模型 https://school.niutrans.com/qualityArticleInfo?id=68
[9] 谷歌发布AI视频生成模型Lumiere https://www.thepaper.cn/newsDetail_forward_26125398
[10] Vary-toy，年轻人的第一个多模态大模型 https://mp.weixin.qq.com/s/vhGsHiY2ei5nLEAmxCmwng
[11] 科大讯飞星火大模型 V3.5 将于 1 月 30 日发布 http://www.ah.xinhuanet.com/20240123/f8050c1c024c4ec8a11e9859b800058f/c.html
[12] UCLA等机构推出多模态具身智能大模型MultiPLY，可知冷知热、辨音识物 https://mp.weixin.qq.com/s/37_SuI4O2CwTlSVDki5CjA
[13] 微软推出免费AI工具“Reading Coach”，提高学生阅读能力 https://www.elecfans.com/d/2372241.html
[14] 腾讯AIDesign设计平台 https://ailogo.qq.com/question.html
[15] ChatGPT灰度测试@功能，不同GPTs共享上下文 https://mp.weixin.qq.com/s/mnvuteSe8cC41lAqU4lVzA
[16] 哄女友的哄哄模拟器火爆00后、10后聚集QQ群 https://mp.weixin.qq.com/s/RAy9USdZwl1Ko5LgwQpzAg
[17] 《LangChain入门指南》https://mp.weixin.qq.com/s/wI9lmccOeKNJPt7nZqX7sw
[18] 《大规模语言模型：从理论到实践》https://mp.weixin.qq.com/s/M99-rlF8A0C5H5dzwCCB7w
[19] Large Language Model Course https://github.com/mlabonne/llm-course

GenAI Weekly｜第1期：1月22日-28日大模型未来发展趋势：多模态

一、资讯热点（InfoBuzz）

二、技术前沿（TechVerse）

三、应用专栏（AppliTech）

四、学习专区（LearnLink）

个人感悟

文摘

Reference

GenAI Weekly｜第3期：2月5日-2月18日

GenAI Weekly｜第2期：1月29日-2月4日如何成为更有趣的人

评论 (1)

GenAI Weekly｜第1期：1月22日-28日 大模型未来发展趋势：多模态

一、资讯热点（InfoBuzz）

二、技术前沿（TechVerse）

三、应用专栏（AppliTech）

四、学习专区（LearnLink）

个人感悟

文摘

Reference

GenAI Weekly｜第3期：2月5日-2月18日

GenAI Weekly｜第2期：1月29日-2月4日 如何成为更有趣的人

评论 (1)

GenAI Weekly｜第1期：1月22日-28日大模型未来发展趋势：多模态

GenAI Weekly｜第2期：1月29日-2月4日如何成为更有趣的人