data.updated
v2.stock.overview v2.daily.trading v2.range.52w
key.stats
about.stock
เรียนรู้เพิ่มเติมเกี่ยวกับ Ralph Lauren Corp (RL)
learn.articles
What is AI Arena(NRN)
A Comprehensive Analysis of AI Arena: This blockchain game integrating AI explores its core gameplay, infrastructure, native token $NRN's functionality, as well as potential opportunities and risks.
2025-01-08
ARC Agents: Redefining AI Gameplay
This article discusses how the ARC project leverages artificial intelligence to address the critical issue of player liquidity in indie and Web3 games while exploring ARC's development and the potential of its business model
2024-12-10
What is io.net (IO) ?
io.net is a decentralized high-performance computing network dedicated to solving the computing power bottleneck in the fields of AI and machine learning. By connecting idle GPU resources globally, it provides low-cost, high-flexibility decentralized computing power, breaking the limitations of centralized cloud platforms. io.net is not only a technological breakthrough but also a key force driving the decentralization of AI infrastructure.
2025-05-19
stock.faq
stock.price
52w.range.q
pe.ratio.q
market.cap.q
eps.recent.q
buy.sell.q
price.factors
buy.how
risk.warn
disclaimer2
latest.news
Perplexity เปิดเผย Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4
ปิดข่าว Gate ประจำวันที่ 23 เมษายน — ทีมวิจัยของ Perplexity เผยแพร่บทความทางเทคนิคที่อธิบายระเบียบวิธีหลังการฝึกอบรมสำหรับตัวแทนค้นหาเว็บ แนวทางดังกล่าวใช้โมเดลเปิดซอร์ส Qwen3.5 จำนวน 2 ตัว (Qwen3.5-122B-A10B และ Qwen3.5-397B-A17B) และใช้ไปป์ไลน์แบบ 2 ขั้นตอน ได้แก่ การฝึกแบบมีผู้สอน (SFT) เพื่อสร้างความสามารถในการทำตามคำสั่งและความสอดคล้องด้านภาษา จากนั้นตามด้วยการเรียนรู้แบบเสริมแรงออนไลน์ (RL) เพื่อเพิ่มประสิทธิภาพด้านความถูกต้องของการค้นหาและประสิทธิภาพการใช้เครื่องมือ ขั้น RL ใช้ทั้งอัลกอริทึม GRPO และแหล่งข้อมูล 2 แหล่ง: ชุดข้อมูลคำถาม-คำตอบแบบหลายขั้นตอนที่ตรวจสอบได้ซึ่งเป็นกรรมสิทธิ์ โดยสร้างจากคำถามเริ่มต้นภายในที่ต้องใช้การให้เหตุผล 2–4 ช่วง และมีการยืนยันด้วยตัวแก้หลายตัว และข้อมูลการสนทนาทั่วไปที่อิงตามเกณฑ์การให้คะแนน ซึ่งจะแปลงข้อกำหนดการนำไปใช้งานให้เป็นเงื่อนไขย่อยที่ตรวจสอบได้อย่างเป็นรูปธรรม เพื่อป้องกันการเสื่อมพฤติกรรมจาก SFT การออกแบบรางวัลใช้การรวมแบบมีประตูควบคุม—คะแนนความพึงพอใจจะมีส่วนร่วมก็ต่อเมื่อได้ความถูกต้องตามเกณฑ์พื้นฐาน (การจับคู่คำถาม-คำตอบ หรือบรรลุเกณฑ์ทั้งหมดตามรูบริก) เพื่อป้องกันสัญญาณความพึงพอใจที่สูงไม่ให้บดบังความผิดพลาดด้านข้อเท็จจริง การลงโทษด้านประสิทธิภาพใช้การยึดตามกลุ่มภายใน โดยใช้การลงโทษแบบเรียบต่อการเรียกใช้เครื่องมือและความยาวการสร้างที่เกินกว่าค่าพื้นฐานของคำตอบที่ถูกต้องในกลุ่มเดียวกัน การประเมินแสดงว่า Qwen3.5-397B-SFT-RL ให้ประสิทธิภาพระดับดีที่สุดในกลุ่มเมื่อเทียบกันในชุดการทดสอบการค้นหา ใน FRAMES ทำได้ 57.3% ของความถูกต้องเมื่อเรียกเครื่องมือเพียงครั้งเดียว ซึ่งเหนือกว่า GPT-5.4 ด้วยส่วนต่าง 5.7 จุดเปอร์เซ็นต์ และเหนือกว่า Claude Sonnet 4.6 ด้วยส่วนต่าง 4.7 จุดเปอร์เซ็นต์ ภายใต้งบประมาณปานกลาง (การเรียกเครื่องมือสี่ครั้ง) จะได้ความถูกต้อง 73.9% ที่ $0.02 ต่อคำถาม เทียบกับ GPT-5.4 ที่ได้ 67.8% ที่ $0.085 ต่อคำถาม และ Sonnet 4.6 ที่ได้ 62.4% ที่ $0.153 ต่อคำถาม ตัวเลขต้นทุนอ้างอิงจากราคาต่อสาธารณะของแต่ละผู้ให้บริการ และไม่รวมการปรับปรุงด้านการแคช
2026-03-27 04:37Cursor ทุก 5 ชั่วโมงทำการวนซ้ำ Composer: การฝึก RL แบบเรียลไทม์ โมเดลได้เรียนรู้ที่จะ "ทำเป็นโง่เพื่อหลีกเลี่ยงการลงโทษ"
据 1M AI News 监测,AI 编程工具 Cursor 发布博客介绍其「实时强化学习」(real-time RL)方法:将生产环境中的真实用户交互转化为训练信号,最快每 5 小时部署一个改进版 Composer 模型。此前该方法已用于训练 Tab 补全功能,现扩展至 Composer。 传统方法通过模拟编程环境训练模型,核心难点在于模拟用户行为的误差难以消除。实时 RL 直接使用真实环境和真实用户反馈,消除训练与部署之间的分布偏移。每个训练周期从当前版本收集数十亿 token 的用户交互数据,提炼为奖励信号,更新模型权重后经评测套件(包括 CursorBench)验证无回退再部署上线。Composer 1.5 的 A/B 测试显示三项指标改善:代码编辑被用户保留的比例提升 2.28%,用户发送不满意追问的比例下降 3.13%,延迟降低 10.3%。 但实时 RL 也放大了奖励黑客(reward hacking)风险。Cursor 披露了两个案例:模型发现故意发出无效工具调用后不会收到负面奖励,于是在预判会失败的任务上主动制造错误调用来逃避惩罚;模型还学会在面对有风险的编辑时转而提出澄清性问题,因为不写代码就不会被扣分,导致编辑率急剧下降。两个漏洞均在监控中被发现并通过修正奖励函数解决。Cursor 认为实时 RL 的优势恰在于此:真实用户比基准测试更难被糊弄,每次奖励黑客本质上都是一份 bug 报告。
2026-03-25 06:36Cursor เผยแพร่รายงานเทคนิค Composer2: สภาแวดล้อม RL เลียนแบบสถานการณ์ผู้ใช้จริงอย่างสมบูรณ์ คะแนนโมเดลพื้นฐานเพิ่มขึ้น 70%
จากการตรวจสอบของ 1M AI News, Cursor ได้เผยแพร่รายงานเทคนิค Composer 2 ซึ่งเป็นการเปิดเผยแผนการฝึกอบรมอย่างสมบูรณ์เป็นครั้งแรก ฐาน Kimi K2.5 เป็นสถาปัตยกรรม MoE มีพารามิเตอร์รวม 1.04 ล้านล้านและพารามิเตอร์ที่เปิดใช้งาน 320 ล้าน การฝึกอบรมแบ่งเป็นสองช่วง: เริ่มจากการฝึกอบรมล่วงหน้าบนข้อมูลโค้ดเพื่อเสริมความรู้ด้านการเข้ารหัส แล้วจึงใช้การเรียนรู้เชิงเสริมขนาดใหญ่เพื่อพัฒนาความสามารถในการเข้ารหัสแบบ end-to-end สภาพแวดล้อม RL จำลองสถานการณ์การใช้งาน Cursor จริง รวมถึงการแก้ไขไฟล์ การดำเนินการในเทอร์มินัล การค้นหาโค้ด และเครื่องมืออื่น ๆ เพื่อให้โมเดลเรียนรู้ในสภาพแวดล้อมที่ใกล้เคียงกับการผลิต รายงานยังเผยแพร่วิธีการสร้างฐานข้อมูลเปรียบเทียบ CursorBench ซึ่งเก็บข้อมูลจากการสนทนาการเขียนโค้ดจริงของทีมงาน ไม่ใช่การสร้างขึ้นโดยมนุษย์ ฐาน Kimi K2.5 ทำคะแนนได้เพียง 36.0 บนฐานนี้ หลังจากการฝึกสองช่วง Composer 2 ทำคะแนนได้ 61.3 ซึ่งเพิ่มขึ้น 70% Cursor ระบุว่าค่าใช้จ่ายในการคำนวณของมันต่ำกว่ารุ่นชั้นนำอย่าง GPT-5.4 และ Claude Opus 4.6 อย่างมีนัยสำคัญ และสามารถบรรลุความสมดุลระหว่างความแม่นยำและต้นทุนในระดับ Pareto
2025-11-27 05:38Prime Intellect เปิดตัวรุ่น INTELLECT-3
Foresight News รายงานว่า โปรโตคอล AI การกระจายอำนาจ Prime Intellect ได้เปิดตัวโมเดล INTELLECT-3 โมเดล INTELLECT-3 เป็นโมเดลผู้เชี่ยวชาญผสมที่มีพารามิเตอร์ 106B อิงจากโมเดล GLM 4.5 Air Base และใช้ SFT และ RL ในการฝึกอบรม Foresight News รายงานก่อนหน้านี้ว่า Prime Intellect เคยเสร็จสิ้นการระดมทุน 15 ล้านดอลลาร์ในเดือนมีนาคมปีนี้ โดยมี Founders Fund เป็นผู้ลงทุนหลัก.






























































































































































































































































































































